已知置信区间计算样本量

是燕王呀

已于 2023-12-13 14:13:42 修改

阅读量666

点赞数

文章标签：数据分析

于 2023-12-13 14:13:03 首次发布

原文链接：https://mp.weixin.qq.com/s/LQLaZkXgr8kJSB4vWA8Hew

版权

总体、样本、统计量、参数估计、点估计、区间估计、置信区间、置信水平、显著性水平都是在用样本预估总体的情况下产生的概念。

1. 什么是样本和总体？

总体是指研究对象的整个群体。比如，微信的所有用户说一个总体，全中国的人口是一个总体。

样本是从总体中抽取一部分，方便进行统计和分析。比如，从微信用户中抽取1000人进行研究，从全中国人口抽取1万人进行分析。

2. 为什么要用样本预估总体？

如果让你计算全中国人的身高、体重和收入，你是没办法统计全国10几亿人数据的。我们可以从中抽取1万人的样本数据，通过这1万人的身高、体重和收入去预估中国人口的身高、体重和收入。这就是以样本预估总体。

由此可见，使用样本预估总体的原因有两个：

（1）无法获取总体数据。

（2）获取总体数据的难度大或者成本高。

3. 统计量

统计量是样本的一个函数。比如样本的平均值、方差、标准差都是统计量。

统计量是统计推断的基础。为什么？因为我们需要通过对样本的一系列计算去预估总体，而这一系列的计算就是统计量的计算。

常见的统计量包含以下：

（1）样本平均值。

（2）样本方差。

（3）样本标准差。

3. 参数估计

通过样本数据的计算预估总体的特征，就是参数估计。

比如，通过1万人样本的身高去预估全中国人口的身高，就叫参数估计。

4. 点估计和区间估计

参数估计包含两种类型：点估计和区间估计。

（1）点估计

通过样本的计算估计出总体的某一个数值（170cm），叫点估计。它是一个具体的数值。

比如通过1万人的样本预估出中国总体人口的平均身高是170cm，那么这就是点估计。

（2）区间估计

通过样本的计算估计出总体的一个区间（165-175cm），叫区间估计。它是一个范围和区间，而不是具体的数值。

比如通过1万人的样本预估出中国总体人口的平均身高是165-175cm，这就是区间估计。

区间的范围很大，你可以预估身高是165-175cm之间，也可以预估是160-180cm之间，也可以是其他。但你会看到，前者相比后者预测准确的概率更低，因为其预测的区间范围太窄；而后者预测准确的概率更高，因为其预测的区间范围更宽。

这就像投掷一次骰子，如果你预测是3-6，小明预测3-4，那么你猜对的概率是67%，而小明猜对的概率是33%，你比小明猜对的可能性更大。

所以，在进行区间估计的时候，你会发现每一个预估的区间都对应一个预估的准确度，前者被称为置信区间，后者被称为置信水平。

6. 置信区间、置信水平（置信度）、显著性水平

（1）置信区间

就是预估的总体某个指标的范围，比如预估出中国总体人口的平均身高是165-175cm，【165-175】就是置信区间。

（2）置信水平

就是你对预估结果准确概率的要求，也称为置信度。

比如在95%的准确概率的要求下，估计全中国人身高是165-175cm，这个95%就是置信水平。
比如在97%的准确概率的要求下，估计全中国人身高是160-180cm，这个97%也是置信水平。

（3）显著性水平

为1-置信水平，通常用 α 表示。

从中你会发现，如果你希望结果准确的概率更高（即置信水平越高），那么区间的范围（置信区间）就设置的越宽；如果置信水平越低，置信区间就设置的越窄。

7. 如何估计置信区间

估计置信区间，就是通过1万人的样本身高，预估全国人的身高在什么区间。那么，如何预估呢？

4步走就可以估计出来。

第一步：设定置信水平。

常见的置信水平有68%，95%，99.7%。通常情况下，我们采用95%的置信水平。这里设置为95%。

第二步：计算样本的统计量。

（1）样本平均值：即求出1万人的平均身高，这里为170cm。

（2）样本方差：即求出1万人身高的方差，这里为2500。

（3）样本标准差：即对2500开平方，这里为50，用S表示。

（4）标准误差：用SE表示，SE=S/ N =50/100=0.5，N代表样本量（为1万人）。

第三步：查正态分布表或t分布表，求得z值或t值。

（1）大样本量

如果为大样本量，通过正态分布表即可求得95%置信区间的z值，这里样本量为1万人，为大样本量，查表得z=1.96。

求解过程：P(Z<=z)=0.975，对应的z值为1.96。

0.975为图中灰色部分的面积，它而来，它等于1-（1-95%）/2=1-0.025=0.975。

（2）小样本量

如果为小样本量，需要通过t分布表求得95%置信区间的t值，需要结合自由度查t分布表，自由度=n-1。

比如样本量为30人，则自由度为29。求解过程如下：α为图中灰色部分面积，=（1-95%）=0.05，自由度为29，用双尾检测，查表得t=2.045。

如果我们将样本量扩大至1001，则t=1.962。这说明，当样本量逐渐加大时，t分布和Z分布得到的值十分接近，可以用Z分布代替T分布。

第四步：计算置信区间。

（1）大样本量

置信区间=【样本平均值-z*SE，样本平均值+z*SE】。

95%的置信水平下，z=1.96。带入第二步求出的SE=0.5，计算出置信区间=【170-1.96*0.5，170+196*0.5】=【169，171】。

得出结论：在95%的置信水平下，预估中国人的平均身高在169-171cm之间。

（2）小样本量

置信区间=【样本平均值-t*SE，样本平均值+t*SE】

假设样本量为30，95%的置信水平下，t=2.045。SE要重新计算，计算方法同大样本量计算方法一样，这里不再赘述。

样本量计算器：https://www.23bei.com/tool/944.html

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
已知置信区间计算样本量

总体是指研究对象的整个群体。比如，微信的所有用户说一个总体，全中国的人口是一个总体。样本是从总体中抽取一部分，方便进行统计和分析。比如，从微信用户中抽取1000人进行研究，从全中国人口抽取1万人进行分析。
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。