已知置信区间计算样本量

总体、样本、统计量、参数估计、点估计、区间估计、置信区间、置信水平、显著性水平都是在用样本预估总体的情况下产生的概念。

图片

1. 什么是样本和总体?

总体是指研究对象的整个群体。比如,微信的所有用户说一个总体,全中国的人口是一个总体。

样本是从总体中抽取一部分,方便进行统计和分析。比如,从微信用户中抽取1000人进行研究,从全中国人口抽取1万人进行分析。

2. 为什么要用样本预估总体?

如果让你计算全中国人的身高、体重和收入,你是没办法统计全国10几亿人数据的。我们可以从中抽取1万人的样本数据,通过这1万人的身高、体重和收入去预估中国人口的身高、体重和收入。这就是以样本预估总体。

由此可见,使用样本预估总体的原因有两个:

(1)无法获取总体数据。

(2)获取总体数据的难度大或者成本高。

3. 统计量

统计量是样本的一个函数。比如样本的平均值、方差、标准差都是统计量。

统计量是统计推断的基础。为什么?因为我们需要通过对样本的一系列计算去预估总体,而这一系列的计算就是统计量的计算。

常见的统计量包含以下:

(1)样本平均值。

(2)样本方差。

(3)样本标准差。

图片

3. 参数估计

通过样本数据的计算预估总体的特征,就是参数估计。

比如,通过1万人样本的身高去预估全中国人口的身高,就叫参数估计。

4. 点估计和区间估计

参数估计包含两种类型:点估计和区间估计。

(1)点估计

通过样本的计算估计出总体的某一个数值(170cm),叫点估计。它是一个具体的数值。

比如通过1万人的样本预估出中国总体人口的平均身高是170cm,那么这就是点估计。

(2)区间估计

通过样本的计算估计出总体的一个区间(165-175cm),叫区间估计。它是一个范围和区间,而不是具体的数值。

比如通过1万人的样本预估出中国总体人口的平均身高是165-175cm,这就是区间估计。

区间的范围很大,你可以预估身高是165-175cm之间,也可以预估是160-180cm之间,也可以是其他。但你会看到,前者相比后者预测准确的概率更低,因为其预测的区间范围太窄;而后者预测准确的概率更高,因为其预测的区间范围更宽。

这就像投掷一次骰子,如果你预测是3-6,小明预测3-4,那么你猜对的概率是67%,而小明猜对的概率是33%,你比小明猜对的可能性更大。

所以,在进行区间估计的时候,你会发现每一个预估的区间都对应一个预估的准确度,前者被称为置信区间,后者被称为置信水平。

6. 置信区间、置信水平(置信度)、显著性水平

(1)置信区间

就是预估的总体某个指标的范围,比如预估出中国总体人口的平均身高是165-175cm,【165-175】就是置信区间。

(2)置信水平

就是你对预估结果准确概率的要求,也称为置信度。

比如在95%的准确概率的要求下,估计全中国人身高是165-175cm,这个95%就是置信水平。
比如在97%的准确概率的要求下,估计全中国人身高是160-180cm,这个97%也是置信水平。

(3)显著性水平

为1-置信水平,通常用 α 表示。

从中你会发现,如果你希望结果准确的概率更高(即置信水平越高),那么区间的范围(置信区间)就设置的越宽;如果置信水平越低,置信区间就设置的越窄。

图片

7. 如何估计置信区间

估计置信区间,就是通过1万人的样本身高,预估全国人的身高在什么区间。那么,如何预估呢?

4步走就可以估计出来。

图片

第一步:设定置信水平。

常见的置信水平有68%,95%,99.7%。通常情况下,我们采用95%的置信水平。这里设置为95%。

图片

第二步:计算样本的统计量。

(1)样本平均值:即求出1万人的平均身高,这里为170cm。

(2)样本方差:即求出1万人身高的方差,这里为2500。

(3)样本标准差:即对2500开平方,这里为50,用S表示。

(4)标准误差:用SE表示,SE=S/ N =50/100=0.5,N代表样本量(为1万人)。

第三步:查正态分布表或t分布表,求得z值或t值。

(1)大样本量

如果为大样本量,通过正态分布表即可求得95%置信区间的z值,这里样本量为1万人,为大样本量,查表得z=1.96。

求解过程:P(Z<=z)=0.975,对应的z值为1.96。

0.975为图中灰色部分的面积,它而来,它等于1-(1-95%)/2=1-0.025=0.975。

图片

(2)小样本量

如果为小样本量,需要通过t分布表求得95%置信区间的t值,需要结合自由度查t分布表,自由度=n-1。

比如样本量为30人,则自由度为29。求解过程如下:α为图中灰色部分面积,=(1-95%)=0.05,自由度为29,用双尾检测,查表得t=2.045。

如果我们将样本量扩大至1001,则t=1.962。这说明,当样本量逐渐加大时,t分布和Z分布得到的值十分接近,可以用Z分布代替T分布。

第四步:计算置信区间。

(1)大样本量

置信区间=【样本平均值-z*SE,样本平均值+z*SE】。

95%的置信水平下,z=1.96。带入第二步求出的SE=0.5,计算出置信区间=【170-1.96*0.5,170+196*0.5】=【169,171】。

得出结论:在95%的置信水平下,预估中国人的平均身高在169-171cm之间。

(2)小样本量

置信区间=【样本平均值-t*SE,样本平均值+t*SE】

假设样本量为30,95%的置信水平下,t=2.045。SE要重新计算,计算方法同大样本量计算方法一样,这里不再赘述。

样本量计算器:https://www.23bei.com/tool/944.html

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值