简单抽样技术——样本均值是总体均值的无偏估计

最新推荐文章于 2025-02-26 08:35:01 发布

皮皮君

最新推荐文章于 2025-02-26 08:35:01 发布

阅读量3.7w

点赞数 29

分类专栏：概率论文章标签：抽样简单抽样样本均值

本文链接：https://blog.csdn.net/qq_16587307/article/details/95787764

版权

概率论专栏收录该内容

15 篇文章

订阅专栏

来一点废话，帮助大家理解概率的精髓：

1）只要谈估计，那就是告诉我们一种方法，利用这个方法可以管中规豹似的获取某个统计量（这个统计量很可能限于人力物力无法真正获取，而我们又很想知道）。

2）只要是谈估计，那就告诉我们这个估计量本身也是个随机变量，它自身也存在统计特性；

首先，要严格区分均值和期望两个概念！

期望公式:

$E(X)=\sum_{i=1}^{n}x_{i}p(i)$

均值公式:

$\bar{X}=\frac{1}{n}\sum_{i=1}^{n}x_{i}$

显然，它们是不一样的，一个是和元素出现的概率相关，另一个是小学级别的简单粗暴的求平均。

接下来，脑海中，我们可以假设有这么一个集合{ $y_{1},y_{2},...,y_{N}$ },大括号里就是这个集合的所有元素。

总体均值就是求的整个集合的均值(假设集合大小是):

$\bar{Y}=\frac{1}{N}\sum_{i=1}^{N}y_{i}$

显然 $\bar{Y}$ 值在集合(也就是我们要研究的对象)和集合大小固定的情况下是一个固定的、并天然就存在的定数(它不是随机变量，好比是一个常数)，尽管我们可能并不知道确切的值是多少！因为过我们可能由于费用问题无法将所有个体都进行统计然后求平均。因此，引入抽样的概念。样本均值 $\bar{y}$ 就是从整个集合中抽取出个，然后对其就平均:

$\bar{y}=\frac{1}{n}\sum_{i=1}^{N}y_{i} \delta {i}$ ，

其中 $\delta {i}$ 为抽样函数：

$\delta {i}= \begin{cases} 1 & \text{ if } y_{i}\ is\ selected\\ 0 & \text{ if } y_{i}\ is\ not\ selected \end{cases}$ ，并且

$\sum_{i=1}^{N}\delta _{i}=n$

这里额外进行解释：

1）显然，根据组合原理，从个元素中抽取个元素的种类一共是 $C_{N}^{n}$ 中，也就是 $\bar{y}$ 的值有 $C_{N}^{n}$ 种可能。

2）显然 $\bar{y}$ 值会随着我们实际抽取到的个样本的不同而不同，因此 $\bar{y}$ 本身可以被视为随机变量，既然 $\bar{y}$ 是随机变量，那么它就存在统计量，也就是说讨论 $\bar{y}$ 的期望和方差是有意义的。

3）这里给出的公式，可能和有些书上的写的不太一样，有些书直接写为 $\bar{y}=\frac{1}{n}\sum_{i=1}^{n}y_{i}$ ，严格意义说写的不够确切，符号 $y_{i}$ 在总体均值和样本均值中都用到了，容易混乱，致使公式不清、概念不清。本文的样本均值公式体现了抽样概念，更加严格。

在讨论样本均值的期望之前，我们先讨论样本和 $\sum_{i=1}^{N}y_{i} \delta {i}$ (其中， $\sum_{i=1}^{N}\delta _{i}=n$ )的期望，我们令 $H=\sum_{i=1}^{N}y_{i} \delta {i}$ ，显然也是个随机变量，也就是讨论 E(H) 的值。

前面已经讨论过，从个元素中抽取个元素的形成的样本种类是 $C_{N}^{n}$ 种，因为我们这里讨论的是简单随机抽样，因此每种不同 $h_{k}$ (即，取值 $h_{k}$ )的概率就是 $\frac{1}{C_{N}^n}=\frac{n!(N-n)!}{N!}$ 。

$E(H)=\frac{1}{C_{N}^{n}}\sum_{k=1}^{C_{N}^n}h_{k}$

为了确定 E(H) 求和公式中某个特定元素 $y_{i}$ (即，取特定值， $y_{i}$ 的系数)的系数：

所有包含 $y_{i}$ 的抽样样本集合，肯定包含n-1个其他元素，那么这n-1个其他元素的组合数目就是 E(H) 求和公式中某个特定元素 $y_{i}$ 的系数。这个剩余的n-1个元素可以来自剩余的N-1个元素，因此求和公式中存在 $y_{i}$ 的系(个)数是 $C_{N-1}^{n-1}$ 。

因此有：

$E(H)=\frac{n!(N-n)!}{N!}\frac{(N-1)!}{(n-1)!(N-n)!}\sum_{i=1}^{N}y_{i}$

$=\frac{n}{N}\sum_{i=1}^{N}y_{i}$

因此，我们可以得出这么一个结论：

定理 1 样本和的期望是总体总值的 $\frac{n}{N}$ .

那么，样本均值的期望就很好求了：

$E(\bar{y})=E(\frac{H}{n})=\frac{1}{N}\sum_{i=1}^{N}y_{i}=\bar{Y}$

由此，得出新的结论：

定理 2 样本均值 $\bar{y}$ 是总体均值 $\bar{Y}$ 的无偏估计量。

讲一些方便理解的废话，既然研究了样本均值的期望，那么上面的两个定理的结论应当是限制在简单随机抽样的条件下得出来的。

定理1的结论实际上在抽样理论中更容易被忽视，这个定理需要扩大脑思路，假如要求 $\sum_{i=1}^{N}(y_{i}-6)^3\delta _{i}$ 的期望：

那么我们要将 $(y_{i}-6)^3$ 整体看做样本，而不是把 $y_{i}$ 看做样本， $H=\sum_{i=1}^{N}(y_{i}-6)^3\delta _{i}$ 这个求和本身也是一个变量，它的期望可以根据定理1得出是样本总值 $\sum_{i=1}^{N}(y_{i}-6)^3$ 的 $\frac{n}{N}$ :