统计学基础知识梳理（二）

最新推荐文章于 2021-03-09 15:30:22 发布

July@AI

最新推荐文章于 2021-03-09 15:30:22 发布

阅读量745

点赞数 2

1.什么是中心极限定理

有时候统计概率就像魔术一样，能够从少量数据中得出不可思议的强大结论。我们只需要对1000个美国人进行电话调查，就能去预测美国总统大选的得票数。

通过对为肯德基提供鸡肉的加工厂生产的100块鸡肉进行病毒（沙门氏菌）检测，就能得出这家工厂的所有肉类产品是否安全的结论。

这些“一概而论”的强大能力，到底是从哪里来的？

中心极限定理是许多统计活动的“动力源泉”，这些活动存在着一个共同的特点，那就是使用样本对总体进行估计，例如我们经常看到的民意调查就是这方面的经典案例。

那么，什么是中心极限定理呢？

中心极限定理是说：
样本的平均值约等于总体的平均值。
不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体的整体平均值周围，并且呈正态分布。

假设有一个群体，如我们之前提到的清华毕业的人，我们对这类人群的收入感兴趣。怎么知道这群人的收入呢？我会做这样4步：

第1步.随机抽取1个样本，求该样本的平均值。例如我们抽取了100名毕业于清华的人，然后对这些人的收入求平均值。

该样里的100名清华的人，这里的100就是该样本的大小。

有一个经验是，样本大小必须达到30，中心极限定理才能保证成立。

第2步.我将第1步样本抽取的工作重复再三，不断地从毕业的人中随机抽取100个人，例如我抽取了5个样本，并计算出每个样本的平均值，那么5个样本，就会有5个平均值。

这里的5个样本，就是指样本数量是5。

第3步.根据中心极限定理，这些样本平均值中的绝大部分都极为接近总体的平均收入。有一些会稍高一点，有一些会稍低一点，只有极少数的样本平均值大大高于或低于群体平均值。

第4步.中心极限定理告诉我们，不论所研究的群体是怎样分布的，这些样本平均值会在总体平均值周围呈现一个正态分布。

现在，我将介绍一个小程序来演示中心极限定理，通过多种方式，我们来熟悉这一重要知识。

这个小程序的演示地址我已经放到这次课程的学习道具中。下面我会介绍下这个演示程序，方便你最后可以自己动手亲自操作。

（演示中心极限定理：http://onlinestatbook.com/stat_sim/sampling_dist/index.html）

图1

图1中数据总体服从整体正太分布，模拟生成3080045个样本，样本的大小分别设置为25和2（见子图3和子图4），子图3和4统计了每个样本均值出现的频率，能够发现出现频率最高的均值基本等于总体的均值，且其他样本的均值都在总体均值的附近，整体呈现出正太分布。

图2

图2数据总体服从均匀分布，样本平均值都围绕在总体的平均值周围，并且呈正态分布

图3

图3总体服从非对称分布，结果同上，所有样本均值构成了一个围绕在总体均值附近的正态分布

综上所述：无论总体是什么分布，任意一个总体的样本平均值都会围绕在总体的平均值周围，并且呈正态分布。

2. 置信区间与置信水平

一般我们用中括号[a,b]表示样本估计总体平均值误差范围的区间。a、b的具体数值取决于你对于”该区间包含总体均值”这一结果的可信程度，因此[a,b]被称为置信区间。
一般来说，选定某一个置信区间，我们的目的是为了让”ab之间包含总体平均值”的结果有一特定的概率，这个概率就是所谓的置信水平。
例如我们最常用的95%置信水平，就是说做100次抽样，有95次的置信区间包含了总体均值。

3.标准差(standard deviation)与标准误差(standard error)

标准差是描述观察值(个体值)之间的变异程度（例如一个人打十次靶子的成绩，这时有一个平均数8，有一个反映他成绩稳定与否的标准差）；
标准误是描述样本均数的抽样误差（例如十次抽样，每次他成绩平均数（7,8,6,9,5,6,7,7,8,9）的标准差，也就是抽样分布的标准差）；
样本的标准误差为:

4.如何理解95%的置信区间

以上面的统计身高为例，假设全国人民的身高服从正态分布：

不断进行采样，假设样本的大小为n，则样本的均值为：
M=(X1+X2+⋯+Xn)/n

由大数定理与中心极限定理：

注意σ1σ1的计算方法为第4部分提到的标准误差！

为什么常用95%的置信水平：

对照上图，用一句简单的话概括就是：
有95%的样本均值会落在2个(比较精确的值是1.96)标准误差范围内。

用数学公式描述就是：

5.计算置信区间的套路

从上面的例子来看，计算置信区间的套路如下：
1.首先明确要求解的问题。比如我们的例子，就是想通过样本来估计全国人民身高的平均值。
2.求抽样样本的平均值与标准误差(standard error)。注意标准误差与标准差(standard deviation)不一样。
3.确定需要的置信水平。比如常用的95%的置信水平，这样可以保证样本的均值会落在总体平均值2个标准差得范围内。
4.查z表，求z值。
5.计算置信区间
a = 样本均值 - z*标准误差
b = 样本均值 + z*标准误差

用公式表示置信区间：

其中，表示样本的均值，z值表示有多少标准差，s为样本的方差。

July@AI

关注

2
点赞
踩
9

收藏

觉得还不错? 一键收藏
0
评论
统计学基础知识梳理（二）

1.什么是中心极限定理有时候统计概率就像魔术一样，能够从少量数据中得出不可思议的强大结论。我们只需要对1000个美国人进行电话调查，就能去预测美国总统大选的得票数。通过对为肯德基提供鸡肉的加工厂生产的100块鸡肉进行病毒（沙门氏菌）检测，就能得出这家工厂的所有肉类产品是否安全的结论。这些“一概而论”的强大能力，到底是从哪里来的？中心极限定理是许多统计活动的“动力源泉”，这些活动存在...
复制链接

扫一扫