统计学基础知识梳理(二)

1.什么是中心极限定理

有时候统计概率就像魔术一样,能够从少量数据中得出不可思议的强大结论。我们只需要对1000个美国人进行电话调查,就能去预测美国总统大选的得票数。

通过对为肯德基提供鸡肉的加工厂生产的100块鸡肉进行病毒(沙门氏菌)检测,就能得出这家工厂的所有肉类产品是否安全的结论。

这些“一概而论”的强大能力,到底是从哪里来的?

中心极限定理是许多统计活动的“动力源泉”,这些活动存在着一个共同的特点,那就是使用样本对总体进行估计,例如我们经常看到的民意调查就是这方面的经典案例。

那么,什么是中心极限定理呢?

中心极限定理是说:
样本的平均值约等于总体的平均值。
不管总体是什么分布,任意一个总体的样本平均值都会围绕在总体的整体平均值周围,并且呈正态分布。

假设有一个群体,如我们之前提到的清华毕业的人,我们对这类人群的收入感兴趣。怎么知道这群人的收入呢?我会做这样4步:

第1步.随机抽取1个样本,求该样本的平均值。例如我们抽取了100名毕业于清华的人,然后对这些人的收入求平均值。

该样里的100名清华的人,这里的100就是该样本的大小。

有一个经验是,样本大小必须达到30,中心极限定理才能保证成立。

 

第2步.我将第1步样本抽取的工作重复再三,不断地从毕业的人中随机抽取100个人,例如我抽取了5个样本,并计算出每个样本的平均值,那么5个样本,就会有5个平均值。

这里的5个样本,就是指样本数量是5。

第3步.根据中心极限定理,这些样本平均值中的绝大部分都极为接近总体的平均收入。有一些会稍高一点,有一些会稍低一点,只有极少数的样本平均值大大高于或低于群体平均值。

第4步.中心极限定理告诉我们,不论所研究的群体是怎样分布的,这些样本平均值会在总体平均值周围呈现一个正态分布。

 

现在,我将介绍一个小程序来演示中心极限定理,通过多种方式,我们来熟悉这一重要知识。

这个小程序的演示地址我已经放到这次课程的学习道具中。下面我会介绍下这个演示程序,方便你最后可以自己动手亲自操作。

(演示中心极限定理:http://onlinestatbook.com/stat_sim/sampling_dist/index.html

                                                                                图1

图1中数据总体服从整体正太分布,模拟生成3080045个样本,样本的大小分别设置为25和2(见子图3和子图4),子图3和4统计了每个样本均值出现的频率,能够发现出现频率最高的均值基本等于总体的均值,且其他样本的均值都在总体均值的附近,整体呈现出正太分布。

                                                                                    图2

图2数据总体服从均匀分布,样本平均值都围绕在总体的平均值周围,并且呈正态分布

                                                                      图3

图3总体服从非对称分布,结果同上,所有样本均值构成了一个围绕在总体均值附近的正态分布

综上所述:无论总体是什么分布,任意一个总体的样本平均值都会围绕在总体的平均值周围,并且呈正态分布。

2. 置信区间与置信水平

一般我们用中括号[a,b]表示样本估计总体平均值误差范围的区间。a、b的具体数值取决于你对于”该区间包含总体均值”这一结果的可信程度,因此[a,b]被称为置信区间。 
一般来说,选定某一个置信区间,我们的目的是为了让”ab之间包含总体平均值”的结果有一特定的概率,这个概率就是所谓的置信水平。 
例如我们最常用的95%置信水平,就是说做100次抽样,有95次的置信区间包含了总体均值。

 

3.标准差(standard deviation)与标准误差(standard error)

标准差是描述观察值(个体值)之间的变异程度(例如一个人打十次靶子的成绩,这时有一个平均数8,有一个反映他成绩稳定与否的标准差); 
标准误是描述样本均数的抽样误差(例如十次抽样,每次他成绩平均数(7,8,6,9,5,6,7,7,8,9)的标准差,也就是抽样分布的标准差); 
样本的标准误差为: 
                                                                    

 

4.如何理解95%的置信区间

以上面的统计身高为例,假设全国人民的身高服从正态分布: 
                                                               

不断进行采样,假设样本的大小为n,则样本的均值为: 
                                                              M=(X1+X2+⋯+Xn)/n

由大数定理与中心极限定理: 
                                                            
注意σ1σ1的计算方法为第4部分提到的标准误差!

为什么常用95%的置信水平:

对照上图,用一句简单的话概括就是: 
有95%的样本均值会落在2个(比较精确的值是1.96)标准误差范围内。

用数学公式描述就是: 
                                         

 

5.计算置信区间的套路

从上面的例子来看,计算置信区间的套路如下: 
1.首先明确要求解的问题。比如我们的例子,就是想通过样本来估计全国人民身高的平均值。 
2.求抽样样本的平均值与标准误差(standard error)。注意标准误差与标准差(standard deviation)不一样。 
3.确定需要的置信水平。比如常用的95%的置信水平,这样可以保证样本的均值会落在总体平均值2个标准差得范围内。 
4.查z表,求z值。 
5.计算置信区间 
a = 样本均值 - z*标准误差 
b = 样本均值 + z*标准误差

用公式表示置信区间: 
                                                                           
其中,表示样本的均值,z值表示有多少标准差,s为样本的方差。

 

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值