统计学5

参数估计
统计推断的基本问题可以分为两大类,一类是参数估计问题,另一类是假设检验问题。下面讲的是总体参数的点估计和区间估计。

1、点估计
这里写图片描述
这里写图片描述


最大似然估计法是一种常用的构造估计量的方法。
这里写图片描述
这里写图片描述

这里写图片描述
这里写图片描述
这里写图片描述

2、区间估计
这里写图片描述

置信水平
从农场收获的20万个苹果中抽取36个作为样本,样本中苹果重量的均值是112克,标准差为40克,问20万个苹果的重量均值处在100到124克之间的概率是多少。

这20万个苹果总体,其重量具有某种分布,未知的总体均值和总体标准差,而样本均值抽样分布非常接近正态分布。我们知道 μx¯ = μ σx¯=σn=σ6 ,n=36。所以得到原分布的均值 μ =112。

题目问的是,20万个苹果的平均重量 μ 在100到124之间的概率,也就是某一样本均值落在抽样分布均值112左右12的范围内的概率。

如果能求出12对应多少个标准差,就可以利用z表格求出概率。但是, σx¯ σ 都未知,所以我们只能用最好的估计值来代替总体标准差 σ ,即样本标准差是40, σs =40。进而得抽样分布的标准差 σx¯=σ6406=6.67

z分数= 126.67 =1.8,求样本均值落在1.8个标准差范围内的概率。根据z表格得到最后结果为0.9282。也就是说我们92.82%确信实际均值落在100到124之间。


伯努利分布的均值和方差
伯努利分布,又叫0—1分布,是二项分布的特殊情况。
假设要外出调查总体中的每个成员对总统的满意度,只能选择满意或者不满意,得到40%不满意,60%满意。
这里写图片描述
均值可以看作每个值的概率加权和。
μ=00.4+10.6=0.6
方差可以看作每个值离期望值的距离的平方的概率加权和。
σ2=(00.6)20.4+(10.6)20.6=0.24
σ=0.49

下面给出伯努利分布的均值和方差得一般公式。假设成功的概率是p,失败的概率是1-p。
均值
μ=0(1p)+1p=p
方差
σ2=(0μ)2(1p)+(1μ)2p
=(0p)2(1p)+(1p)2p
=p2p3+p(12p+p2)
=p(1p)


置信区间
假设我住的国家有1亿人,即将总统选举,分别有候选人A和B,要么投给A,要么投给B,得到投给B的百分比是p,投给A的百分比是1-p。定义随机变量投给A记为0,投给B记为1。这个分布的均值 μ 等于p。
这里写图片描述

不可能一个个问别人投票给谁,于是 μ 和p这些参数无法准确获得。不过可以进行一项随机调查,从总体中进行抽样,然后根据样本情况估计p值,还要考虑这个估计有多好。
随机调查100个人的样本,假设结果如下,57个人选A,43个人选B。
样本均值 X¯=(054+143)100=0.43
样本方差 S2=57(00.43)2+47(10.43)299=0.2475
样本标准差 S=0.5

从原分布中取100个可能值,都是0或1作为一次取样,多次取样后获得样本均值的抽样分布如下图。
这里写图片描述

这个分布的均值等于原总体均值,所以 μx¯ = μ =p
再看分布的标准差 σx¯ = σ100 = σ10 ,但现在不知道总体标准差 σ 是多少,因为调查1亿人基本不可能,只能使用样本标准差S来估计 σ ,所以 σx¯0.5/10=0.05

然后我想得到样本均值43%周围的一个区间,有95%确信真正均值 μ=p 落在此区间内,也就是总体中投给B的人的占比p落在此区间内。

通过经验法则知道,p在样本均值2个标准差(0.05*2)范围内,即 0.43±0.1 范围内,有95%的概率。也就是说,我们有95%的信心,置信水平有95%,p落在33%到55%之间。

调查中常说,调查显示43%的人投给候选人B,57%的人投给候选人A,并给出误差范围10%(描述置信区间的另一种方法)。强调的是,不能说正好95%的几率(概率区间)确定结果在10%范围内,因为抽样分布的标准差 σ 是估计的,每次取不同样本时S都会变化。所以应该说大概95%的几率(置信区间)真实值落在33%到55%之间。

如果要更准确需要抽取更大的样本,n增大, σx¯ 会减小,2个标准差范围内的区间会减小,误差范围就会减小。


小样本容量置信区间
7个患者在服用新药后测量血压,血压上升值分别为下面7个值,1.5,2.9,0.9,3.9,3.2,2.1,1.9。为总体中所有病人的血压上升值的期望建立一个95%的置信区间。

计算样本均值 X¯=2.34 ,样本标准差 S=1.04 。在不知道总体情况的时候,我们可以使用样本标准差S来估计 σ 。但是这里只有7个样本,n=7,此时这个估计值就不算好了,因为n太小了,n小于30被认为是糟糕的估计。

小样本的抽样分布不能像原来那样认为是正态分布,我们假设为t分布,可以认为t分布是专门为小样本容量时置信区间的更好估计所设计的,它和正态分布很像,就是更扁平。可以这么理解,当样本容量远小于30时,使用公式 σx¯=σ7S7 ,会低估 σx¯ ,所以图像扁平。
这里写图片描述
这里写图片描述

介绍完t分布,我们可以使用t表格来计算t分布的一个95%的置信区间,查表得2.447个标准差。计算 σx¯=σ7S7=1.047=0.39 。0.39*2.447=0.96。
所以,相信有95%几率,抽样分布均值 μ 在样本均值2.34周围0.96的范围内。置信区间下限是1.38,置信区间上限是3.3。说“置信”是因为这些都是估计,表示并非真正的95%概率。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值