【读书笔记-＞统计学】11-03 总体和样本的估计-样本均值的概率、中心极限定理概念简介

最新推荐文章于 2023-12-26 01:55:14 发布

小明2766

最新推荐文章于 2023-12-26 01:55:14 发布

阅读量3.1k

点赞数

分类专栏： # 《深入浅出统计学》文章标签：统计学

本文链接：https://blog.csdn.net/bill2766/article/details/125708600

版权

《深入浅出统计学》专栏收录该内容

23 篇文章

订阅专栏

本文详细探讨了在小包装糖球的背景下，如何计算样本均值的概率，涉及样本均值的分布、中心极限定理的应用，以及如何通过正态分布来估算概率。重点讲解了样本均值的期望、方差计算，以及中心极限定理在非正态总体中的使用。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

样本均值的概率

假设一个情境：曼帝糖果公司也生产小袋装糖球，每一个小包装袋里的糖球数目均值为10，方差为1。然而，有一个顾客买了30袋糖球，结果发现每袋糖球中的糖球平均数目只有8.5。求这种事情发生概率有多大？

这次我们已知小包装糖球的总体均值和方差，然后抽取了几袋糖球作为样本，需要为该样本计算概率（样本均值的概率）。

为了计算样本均值的概率，先要得出样本均值的概率分布。下面是具体步骤：

查看与我们所研究的样本大小相同的所有可能样本。

如果我们手头的样本大小为 n，则需要考虑大小为的所有可能样本。小包装糖球有 30 袋，因此这里的 n 为 30。

查看所有样本形成的分布，求出样本均值的期里和方差。

每一个样本都各有特点，每个包装袋中的糖球数目有变化。

得知样本均值的分布后，用该分布求出概率。

只要知道所有可能样本的均值的分布情况，就能利用该分布求出一个随机样本的均值的概率，在本例中，随机样本即小包装糖球。

1 已知样本大小为30。

2 然后我们求样本均值的分布。

已知袋装糖球的总体的均值和方差，用 $\mu$ 和 $\sigma^2$ 表示，一个包装袋中的糖球数量可以用X表示。

随机选择的每一袋糖球都是X的一个独立观察结果，因此，每一袋糖球都符合相同的分布。即，如果用 $X_i$ 代表随机选择的一袋糖球中的糖球数量，则每个 $X_i$ 的期望都是 $\mu$ ，方差都是 $\sigma^2$ 。

在这里插入图片描述

现在，取n包糖球作为样本，标记从 $X_1$ 到 $X_n$ 的包装袋中的糖球数量，每个 $X_i$ 都是X的一个独立观察结果，于是它们遵守相同的分布：每个 $X_i$ 的期望都是 $\mu$ ，方差都是 $\sigma^2$ 。

用 $\overline{X}$ 表示这n袋糖球的容量均值， $\overline{X}$ 的数值取决于n袋糖球中的每一袋糖球的容量，计算时，要将所有糖球的数量加起来，再除以n。

在这里插入图片描述

可以取出的大小为n的可能样本为数众多。每一个可能样本都包含n袋糖球，即每一个样本都包含X的n个独立观察结果；每一个随机选择的包装中的糖球数量都遵守相同的正态分布；我们以相同的方法计算每一个样本的糖球数量均值。

在这里插入图片描述

我们可以利用从所有可能样本得出的所有样本均值形成一个分布，叫做“均值的抽样分布”，或叫做 $\overline{X}$ 的分布。

它的作用？它为我们提供了一种计算样本均值的概率的方法。

为了计算任何一个变量的概率，先要知道这个变量的概率分布，所以，若要计算样本均值的概率，就要知道样本均值的分布。我们的例子是这样的：在一个有30袋糖球的样本中，求糖球数目的均值小于或等于8.5的概率。

和比例的抽样分布一样，为了能够动手计算概率，先要知道分布的期望和方差。

求 $\overline{X}$ 的期望： $E(\overline{X})$

这里的 $\overline{X}$ 是样本中的每一袋糖球的容量均值，即：
$\overline{X} = \frac{X_1+X_2+...+X_n}{n}$
其中 $X_i$ 代表第i袋糖球的容量，我们可以利用它求出 $E(\overline{X})$ 。
$E(\overline{X}) = E(\frac{X_1+X_2+...+X_n}{n}) \\ = E(\frac{1}{n}X_1 + \frac{1}{n}X_2 + ... + \frac{1}{n}X_n) \\ = E(\frac{1}{n}X_1) + E(\frac{1}{n}X_2) + ... + E(\frac{1}{n}X_n) \because E(X+Y)=E(X)+E(Y) \\ = \frac{1}{n}(E(X_1) + E(X_2) + ... + E(X_n)) \because E(aX) = aE(X) \\ = \frac{1}{n}(\mu + \mu + ... + \mu) \\ = \frac{1}{n} (n\mu) \\ = \mu$
也就是所有大小为n的可能样本的均值的平均数等于作为样本来源的总体的均值——实际上，你所求的是所有可能均值的均值。

其实这十分符合直觉——总的看来，你会期望一个样本的每袋糖球平均容量等于总体的每袋糖球平均容量。在我们的具体例子中，总体的每袋糖球平均容量为10，因此，我们会期望样本也是如此。

在这里插入图片描述

求 $\overline{X}$ 的方差： $Var(\overline{X})$

提示：X与 $\overline{X}$ 的区别

X代表一个包装袋中的糖球数量，我们已知一个包装袋中的糖球数目均值，且已知方差。

在这里插入图片描述

$\overline{X}$ 代表一个样本的糖球容量均值，因此 $\overline{X}$ 的分布代表所有可能样本的均值的分布。 $E(\overline{X})$ 表示所有样本均值的均值，而 $Var(\overline{X})$ 指的是样本均值的变异情况。

在这里插入图片描述

求 $Var(\overline{X})$ 与求 $E(\overline{X})$ 类似。
$Var(\overline{X}) = Var(\frac{X_1+X_2+...+X_n}{n}) \\ = Var(\frac{1}{n}X_1 + \frac{1}{n}X_2 + ... + \frac{1}{n}X_n) \\ = Var(\frac{1}{n}X_1) + Var(\frac{1}{n}X_2) + ... + Var(\frac{1}{n}X_n) \\ = \frac{1}{n^2} (Var(X_1) + Var(X_2) + ... + Var(X_n)) \\ = \frac{1}{n^2} (\sigma^2 + \sigma^2 + ... + \sigma^2) \\ = \frac{1}{n^2} (n \sigma^2) \\ = \frac{\sigma^2}{n}$

均值标准误差

让我们看看均值的抽样分布。

先看总体X的分布，X的均值为 $\mu$ ，方差为 $\sigma^2$ ，因此 $E(X)=\mu$ 而 $\sigma^2$ 。

接着用来自总体X的所有大小为n的可能样本，形成所有样本均值的分布—— $\overline{X}$ 的分布。这个分布的均值和方差计算如下：
$E(\overline{X}) = \mu \\ Var(\overline{X}) = \frac{\sigma^2}{n}$
$\overline{X}$ 的标准差即方差的平方根，这个标准差可指出样本均值与 $\mu$ 的可能偏离距离，因此被称为均值标准误差。
$\frac{\sigma}{\sqrt{n}}$
n越大，均值标准误差越小。也就是说，样本中的个体越多，作为总体均值的估计量的样本均值越可靠。

在这里插入图片描述

3 求 $\overline{X}$ 的分布

当X为正态分布时， $\overline{X}$ 也符合正态分布。下面是各种 $\mu$ 、 $\sigma^2$ 及n所对应的分布图，其中X符合正态分布。

在这里插入图片描述

可以看到各种情况下 $\overline{X}$ 均符合正态分布，也就是说：

如果 $\sim N(\mu, \sigma^2)$ ，则 $\overline{X} \sim N(\mu, \sigma^2/n)$

但是，X可能不符合正态分布。

但是但是，当n很大时， $\overline{X}$ 仍然可以用正态分布近似

随着n增大， $\overline{X}$ 越来越接近正态分布。我们已经知道，当X符合正态分布时， $\overline{X}$ 符合正态分布；如果X不符合正态分布，但如果n足够大，我们仍然可以用正态分布近似的分布。

现在的情况是，我们知道总体的均值和方差，但却不知道总体的分布。不过，这没关系，由于样本大小为30，我们还是能用正态分布求 $\overline{X}$ 的概率。这叫做“中心极限定理”。

中心极限定理

中心极限定理是指：如果从一个非正态总体X中取出一个样本，且样本很大，则 $\overline{X}$ 的分布近似为正态分布。如果总体的均值和方差为 $\mu$ 和 $\sigma^2$ ，且n很大，例如大于30，则：
$\overline{X} \sim N(\mu, \sigma^2/n)$
这和X符合正态分布时的情况是一样的。唯一的差别是，当X符合正态分布时，样本的大小无所谓。

根据中心极限定理，如果X的样本很大，则 $\overline{X}$ 的分布近似为正态分布。

使用中心极限定理

二项分布

假设你有一个总体，用 $\sim B(n, p)$ 表示，其中n大于30。如前所述， $\mu = np, \sigma^2=npq$ ，得到：

（对于二项分布，总体均值为np，方差为npq。如果将这些式子代入抽样分布，则得到 $\overline{X} \sim N(np, pq)$ 。）
$\overline{X} \sim N(np, pq)$
泊松分布

现在，假设总体符合泊松分布 $\sim Po(\lambda)$ ，n还是大于30。对于泊松分布来说， $\mu = \sigma^2 = \lambda$ 。

和以前一样，我们可以借助正态分布求出 $\sigma^2$ 的概率，如果将以上总体参数代入 $\overline{X} \sim N(\mu, \sigma^2/n)$ ，得到：
$\overline{X} \sim N(\lambda, \lambda/n)$
一般情况下，会使用分布 $\overline{X} \sim N(\mu, \sigma^2/n)$ ，并代入 $\mu$ 和 $\sigma^2$ 的数值。

之后，就可以求出概率了，由于 $\overline{X}$ 符合正态分布（X不符合），于是可以用标准正态概率表查找概率，也就是说，其他正态分布的算法完全适用于你的情况。

介绍完中心极限定理，回到主题，案例答案。

在这里插入图片描述

问：中心极限定理要求进行任何连续性修正吗？

答：不用。你使用中心极限定理求出的概率与样本均值有关，而与样本中的数值无关。因此不需要进行任何连续性修正。

问：点估计量和抽样分布之间有关系吗？

答：有关系。让我们先看均值。总体均值的点估计量为 $\overline{X}$ （ $\overline{X}$ 为样本均值），即 $\hat{\mu} = \overline{X}$ 。那么均值的抽样分布的期望为 $E(\overline{X}) = \mu$ 。全部样本均值的期望等于 $\mu$ ，我们可以用样本均值估计 $\mu$ 。