总体、样本、统计量、参数估计、点估计、区间估计、置信区间、置信水平、显著性水平都是在用样本预估总体的情况下产生的概念。
1. 什么是样本和总体?
总体是指研究对象的整个群体。比如,微信的所有用户说一个总体,全中国的人口是一个总体。
样本是从总体中抽取一部分,方便进行统计和分析。比如,从微信用户中抽取1000人进行研究,从全中国人口抽取1万人进行分析。
2. 为什么要用样本预估总体?
如果让你计算全中国人的身高、体重和收入,你是没办法统计全国10几亿人数据的。我们可以从中抽取1万人的样本数据,通过这1万人的身高、体重和收入去预估中国人口的身高、体重和收入。这就是以样本预估总体。
由此可见,使用样本预估总体的原因有两个:
(1)无法获取总体数据。
(2)获取总体数据的难度大或者成本高。
3. 统计量
统计量是样本的一个函数。比如样本的平均值、方差、标准差都是统计量。
统计量是统计推断的基础。为什么?因为我们需要通过对样本的一系列计算去预估总体,而这一系列的计算就是统计量的计算。
常见的统计量包含以下:
(1)样本平均值。
(2)样本方差。
(3)样本标准差。
3. 参数估计
通过样本数据的计算预估总体的特征,就是参数估计。
比如,通过1万人样本的身高去预估全中国人口的身高,就叫参数估计。
4. 点估计和区间估计
参数估计包含两种类型:点估计和区间估计。
(1)点估计
通过样本的计算估计出总体的某一个数值(170cm),叫点估计。它是一个具体的数值。
比如通过1万人的样本预估出中国总体人口的平均身高是170cm,那么这就是点估计。
(2)区间估计
通过样本的计算估计出总体的一个区间(165-175cm),叫区间估计。它是一个范围和区间,而不是具体的数值。
比如通过1万人的样本预估出中国总体人口的平均身高是165-175cm,这就是区间估计。
区间的范围很大,你可以预估身高是165-175cm之间,也可以预估是160-180cm之间,也可以是其他。但你会看到,前者相比后者预测准确的概率更低,因为其预测的区间范围太窄;而后者预测准确的概率更高,因为其预测的区间范围更宽。
这就像投掷一次骰子,如果你预测是3-6,小明预测3-4,那么你猜对的概率是67%,而小明猜对的概率是33%,你比小明猜对的可能性更大。
所以,在进行区间估计的时候,你会发现每一个预估的区间都对应一个预估的准确度,前者被称为置信区间,后者被称为置信水平。
6. 置信区间、置信水平(置信度)、显著性水平
(1)置信区间
就是预估的总体某个指标的范围,比如预估出中国总体人口的平均身高是165-175cm,【165-175】就是置信区间。
(2)置信水平
就是你对预估结果准确概率的要求,也称为置信度。
比如在95%的准确概率的要求下,估计全中国人身高是165-175cm,这个95%就是置信水平。
比如在97%的准确概率的要求下,估计全中国人身高是160-180cm,这个97%也是置信水平。
(3)显著性水平
为1-置信水平,通常用 α 表示。
从中你会发现,如果你希望结果准确的概率更高(即置信水平越高),那么区间的范围(置信区间)就设置的越宽;如果置信水平越低,置信区间就设置的越窄。
7. 如何估计置信区间
估计置信区间,就是通过1万人的样本身高,预估全国人的身高在什么区间。那么,如何预估呢?
4步走就可以估计出来。
第一步:设定置信水平。
常见的置信水平有68%,95%,99.7%。通常情况下,我们采用95%的置信水平。这里设置为95%。
第二步:计算样本的统计量。
(1)样本平均值:即求出1万人的平均身高,这里为170cm。
(2)样本方差:即求出1万人身高的方差,这里为2500。
(3)样本标准差:即对2500开平方,这里为50,用S表示。
(4)标准误差:用SE表示,SE=S/ N =50/100=0.5,N代表样本量(为1万人)。
第三步:查正态分布表或t分布表,求得z值或t值。
(1)大样本量
如果为大样本量,通过正态分布表即可求得95%置信区间的z值,这里样本量为1万人,为大样本量,查表得z=1.96。
求解过程:P(Z<=z)=0.975,对应的z值为1.96。
0.975为图中灰色部分的面积,它而来,它等于1-(1-95%)/2=1-0.025=0.975。
(2)小样本量
如果为小样本量,需要通过t分布表求得95%置信区间的t值,需要结合自由度查t分布表,自由度=n-1。
比如样本量为30人,则自由度为29。求解过程如下:α为图中灰色部分面积,=(1-95%)=0.05,自由度为29,用双尾检测,查表得t=2.045。
如果我们将样本量扩大至1001,则t=1.962。这说明,当样本量逐渐加大时,t分布和Z分布得到的值十分接近,可以用Z分布代替T分布。
第四步:计算置信区间。
(1)大样本量
置信区间=【样本平均值-z*SE,样本平均值+z*SE】。
95%的置信水平下,z=1.96。带入第二步求出的SE=0.5,计算出置信区间=【170-1.96*0.5,170+196*0.5】=【169,171】。
得出结论:在95%的置信水平下,预估中国人的平均身高在169-171cm之间。
(2)小样本量
置信区间=【样本平均值-t*SE,样本平均值+t*SE】
假设样本量为30,95%的置信水平下,t=2.045。SE要重新计算,计算方法同大样本量计算方法一样,这里不再赘述。