『统计学』第二部分：中心极限定理及其应用

最新推荐文章于 2025-03-07 20:40:52 发布

简之

最新推荐文章于 2025-03-07 20:40:52 发布

阅读量1.3w

点赞数 11

分类专栏：数学基础文章标签：统计中心极限定理

本文链接：https://blog.csdn.net/olizxq/article/details/97754320

版权

数学基础专栏收录该内容

8 篇文章

订阅专栏

『中心极限定理』

首先，我们来探讨下什么是中心极限定理？

有时候统计概率就像魔术一样，能够从少量数据中得出不可思议的强大结论。我们只需要对1000个美国人进行电话调查，就能去预测美国总统大选的得票数。

通过对为肯德基提供鸡肉的加工厂生产的100块鸡肉进行病毒（沙门氏菌）检测，就能得出这家工厂的所有肉类产品是否安全的结论。

这些“一概而论”的强大能力，到底是从哪里来的？这背后的秘密武器就是统计概率的第2大护法：中心极限定理。第1大护法就是：大数定律。

中心极限定理是许多统计活动的“动力源泉”，这些活动存在着一个共同的特点，那就是使用样本对总体进行估计，例如我们经常看到的民意调查就是这方面的经典案例。那么，什么是中心极限定理呢？

中心极限定理是说：

样本的均值约等于总体的平均值。
不管总体是什么分布，任意一个总体的样本平均值都会围绕在总体的整体平均值周围，并且随着抽取样本容量n的增加呈正态分布。

如下所示：
在这里插入图片描述

如上图：

这里第1行是3种不同分布类型的总体，用于比较不同类型下的样本均值的分布;
第2行每个样本大小是2，然后对每个样本求平均值，横轴表示每个样本的平均值，纵轴表示该平均值出现了多少次，最后平均值分布很不规则;
第3行每个样本大小是5，然后对每个样本求平均值，最后平均值分布有点接近于正态分布，但是总体3对应的第3行却不是正态分布;
第4行每个样本大小是30，然后对每个样本求平均值，最后平均值分布是正态分布。

这也验证了中心极限定理，不管总体是什么分布，任意一个总体的样本均值都会围绕在总体的平均值周围，并且呈正态分布。

下面从一个例子出发来理解下中心极限定理：

假设有一个群体，如我们之前提到的清华毕业的人，我们对这类人群的收入感兴趣。怎么知道这群人的收入呢？我会做这样4步：

第1步：随机抽取1个样本，求该样本的平均值。例如我们抽取了100名毕业于清华的人，然后对这些人的收入求平均值。该样本里的100名清华的人，这里的100就是该样本的大小。有一个经验是，样本大小必须达到30，中心极限定理才能保证成立。
第2步：我将第1步样本抽取的工作重复再三，不断地从毕业的人中随机抽取100个人，例如我抽取了5个样本，并计算出每个样本的平均值，那么5个样本，就会有5个平均值。这里的5个样本，就是指样本数量是5。
第3步：根据中心极限定理，这些样本平均值中的绝大部分都极为接近总体的平均收入。有一些会稍高一点，有一些会稍低一点，只有极少数的样本平均值大大高于或低于群体平均值。
第4步：中心极限定理告诉我们，不论所研究的群体是怎样分布的，这些样本平均值会在总体平均值周围呈现一个正态分布。

我们对中心极限定理有个基本理解之后，我们已经可以用样本均值来估计出总体均值。现在我们想用样本来估计出总体的标准差，该怎么办呢？

我们已经知道，一个数据集的标准差是数据与平均值的偏离程度。当你选择一个样本后，相比总体，你拥有数据的数量是变少了，因此，与总体中的数据偏离平均值的程度相比，样本中很有可能把较为极端的数值排除在外，这样使得数据更有可能以更紧密的方式聚集在均值周围。所以样本的标准差要小于总体标准差。所以：

总体的标准差：

$\sigma = \sqrt{\sum(X-\mu)^2 \over n}$

样本的标准差（用样本估计总体标准差）：

$\sqrt{\sum(X-\mu)^2 \over n}$

如前面的例子，通过抽样我们可以得到很多组样本均值（例子里是5组），而样本均值又构成一个新的分布，这个分布的均值等于总体均值，这个分布的方差等于总体方差除以n，于是就得到了下面的公式：
$\sigma^2_{\overline X} = {\sigma^2 \over n}$

$\sigma_{\overline X} = {\sigma \over \sqrt n}$

根据前面那张图，n越大，样本均值就会越接近总体均值，例如100万个样本值就是对总体均值很好的估计。直观上也很好理解，对于样本的均值，如果我们使用越多数据的均值，那这个均值肯定就更接近总体均值，当然最终的分布更集中在均值周围，数据的方差更小。

所以，当n越大：

抽样分布更接近于正态分布；
分布的标准差更小；

于是，通过抽样，我们可以得到样本均值的抽样分布。

『样本均值的抽样分布』

样本均值的抽样分布是所有的样本均值形成的分布，即μ的概率分布。样本均值的抽样分布在形状上是对称的。随着样本量n的增大，不论原来的总体是否服从正态分布，样本均值的抽样分布都将趋于正态分布，其分布的数学期望为总体均值μ，方差为总体方差的1/n，这就是中心极限定理。

下面来看个用抽样分布估计概率的例子：

例1：
假设成年男同学户外运动需要喝2L水（标准差为0.7升），在一次全天的户外旅途中，你计划为50个男同学提供110L水，请问水不够喝的概率是多少？

分析：在这里插入图片描述
对上图做个简单讲解：

首先，男同学户外运动喝水的量肯定服从某种分布，但可惜我们并不知道服从的是哪种稀奇古怪的分布，不妨就画成第一个图的样子。但是，好在我们知道这种分布的均值和标准差。分别是 $\mu = 2L$ 和 $\sigma = 0.7L$ 。
$\;$
由于我们不知道这种分布，所以没法套用之前说"模板"来计算概率（四种常用分布），那怎么办呢？
$\;$
一个想法就是用样本来估计总体。现在假设我们对该总体做抽样，抽样的样本容量为50，我们可以计算得到50个男同学喝水的均值，根据中心极限定理，这个样本均值是服从正态分布的（不管原来是啥分布），于是就得到样本均值的抽样分布，如第二张图所示。
$\;$
于是，对于为50个男同学提供110L水这个事件，我们可以计算得到样本均值为2.2L，而这个样本均值可以认为就是来自样本均值的抽样分布，可以在图中画出样本均值2.2L这个点。
$\;$
根据前面的介绍，我们可以求出抽样分布的均值和标准差： $\mu_{\overline X} = \mu = 2L$ 和 $\sigma_{\overline X} = 0.099$ 。
$\;$
既然样本均值 $X = 2.2 L$ 是来自抽样分布中的点，那么对于正态分布中的样本点，知道均值和标准差，我们可以求出z分数，通过z分数表读出该点的累积概率为0.9783，那么大于该z分数的概率就是0.0217。

这个例子就是使用中心极限定理用样本来估计总体。下面再看个例子：

例2：从农场的20万个苹果中随机抽样36个苹果，样本的平均重量为112g，样本标准差为40g，请问20万个苹果的平均重量在100g到124g之间的概率是多少？
在这里插入图片描述
对于这个问题，我们不知道总体是什么分布，甚至都不知道总体的均值和标准差，那么，我们只有通过样本来估计总体均值和标准差： $\overline X = 112g$ 和 $S = 40 g$ ，这两个值认为是总体的最好估计。

有了总体的均值和方差，接下来跟前面一样，根据中心极限定理，可以得到样本均值的抽样分布，得到抽样分布的均值和标准差，然后就可以求出总体均值在100g到124g之间的概率 $p = 0.9282$ 。

根据这一题，我们知道：

采用抽样样本的统计量作为总体的估计值；
对于样本均值，通过抽样分布服从正态分布来估计概率。

『伯努利分布』

伯努利分布，又名两点分布或者0-1分布，是一个离散型概率分布。若伯努利试验成功，则伯努利随机变量取值为1。若伯努利试验失败，则伯努利随机变量取值为0。记其成功概率为 $p (0 \leq p \leq 1)$ ，失败概率为 $q = 1 - p$ 。

首先，来看一个例子：在美国总统选举时，如果民众对一个总统候选人的支持度是60%，不支持度为40%，随机变量分别是1和0，此时我们随机访问一名美国人，那么这名美国人是否会支持该总统？

现在我们根据期望和方差的定义来计算：
$\mu = 0.4·0 + 0.6·1 = 0.6$

$\sigma^2 = 0.4*(0 - 0.6)^2 + 0.6*(1 - 0.6)^2 = 0.24$

$\sigma = \sqrt(0.24) = 0.49$

这样的分布就是伯努利分布。

假设支持的概率为 $p$ ，不支持的概率为 $1 - p$ ，采用同样的过程可以推导出伯努利分布的均值与方差的一般公式：
$\mu = (1-p)·0 + p·1 = p$

$\sigma^2 = (1-p)*(0 - p)^2 + p*(1 - p)^2 = p(1-p)$

$\sigma = \sqrt{\sigma^2} = \sqrt{p(1-p)}$

『置信区间』

现在我们随机抽样调查100个人（相当于做了100次伯努利试验），其中支持者有43人，不支持者有57人，现在用这个样本去估计全国民众有多大比例支持该总统候选人，并且这个估计结果有多少置信度？
在这里插入图片描述
由上面的计算可以知道：支持该总统候选人的比例为0.43。

如果我们想要找到一个置信区间，使得有95%的概率确信总体的真是均值在此区间内，那么可以得到：
$P(\overline X \;\; is \;\; within \;\; 2\sigma_{\overline X} \;\; of \;\; \mu_{\overline X}) = 95\%$

$P(\mu_{\overline X} \;\; is \;\; within \;\; 2\sigma_{\overline X} \;\; of \;\; \overline X) = 95\%$

$\;\; is \;\; within \;\; 2\sigma_{\overline X} \;\; of \;\; \overline X) = 95\%$

$\;\; is \;\; within \;\; 2·(0.05) \;\; of \;\; 0.43) = 95\%$

$\;\; is \;\; within \;\; 0.43 ± 0.1) = 95\%$

从而，我们具有95%的信心认为p落在33%到53%之内，由计算过程可知，当样本数量增加时，样本的置信区间会减小。

对该结果的另一种说法是：有43%的民众支持候选人B，有57%的民众支持候选人A，并且估计误差为10%，增加样本量可以减小估计误差。

我们有必要知道一下下面这个 $3\sigma$ 的概率图：

有68%的样本均值会在总体均值一个标准误差的范围之内；
取值范围：[总体均值-1个标准误差，总体平均值+1个标准误差]
有95%的样本均值会在总体均值的两个标准误差的范围之内；
取值范围：[总体平均值-2个标准误差，总体平均值+2个标准误差]
有99.7%的样本均值会在总体均值3个标准误差的范围之内；
取值范围：[总体平均值-3个标准误差，总体平均值+3个标准误差]
$\;$
本例的 $2\sigma$ 区间就是从这里来的。

『小样本容量置信区间』

但是，实际采样样本时，可能我们的样本容量比较小，那么就无法满足中心极限定理的要求，那么对于小样本容量的抽样，如何来估计呢？

一般来讲，当n<30时，不能进行好的估计，针对这种情况，给出 t 分布对样本均值的分布进行修正。

t 分布和正态分布相似，但是具有fatter tail（因为低估了S）。对应的，我们在估计概率时，不再去查 z 分数表，而是去查 t 分数表，t 分数表的列为自由度（即 n - 1）。下面是 t 分布的概率分布图：
在这里插入图片描述

在概率论和统计学中，t 分布（t-distribution）用于根据小样本来估计呈正态分布且方差未知的总体的均值。如果总体方差已知（例如在样本数量足够多时），则应该用正态分布来估计总体均值。
t 分布曲线形态与 n（确切地说与自由度 df ）大小有关。与标准正态分布曲线相比，自由度 df 越小，t 分布曲线愈平坦，曲线中间愈低，曲线双侧尾部翘得愈高；自由度 df 愈大，t 分布曲线愈接近正态分布曲线，当自由度 df = ∞ 时，t 分布曲线为标准正态分布曲线。
我们平常说的t分布，都是指小样本的分布。但是，其实正态分布可以算作t分布的特例。也就是说，t分布，在大小样本中都是通用的。所以，当样本量大于30或者大于50，就不能用t分布了呀？完全不是！t分布，大小通吃！当t分布的自由度 df = ∞ 时，t 分布曲线就是标准正态分布曲线。

例题：7名学生在服用新研制的钙片3个月后，他们的血液中的钙含量分别上升了1.5, 2.9, 0.9, 3.9, 3.2, 2.1, 1.9。求所有使用新钙片的学生的钙含量增加的平均值的95%的置信区间。

分析：

首先，我们有一个抽样样本，样本的容量为7，均值为：2.34，无偏方差为1.04。

我们知道，样本的无偏方差可以认为是总体方差，所以总体方差为1.04，抽样样本均值的方差即为1.04 / 7 = 0.149，抽样样本均值的标准差为：0.385。

因为样本小于30，所以样本均值的分布服从 t 分布，下图是t分布表：
在这里插入图片描述
我们看双侧，同时需要看自由度：（n-1）= 6，得到的值为：2.447。所以意味着需要离开均值2.447个标准差的置信区间是95%。