总体样本方差的无偏估计样本方差为什么除以n-1

皮皮君

已于 2024-05-16 16:43:48 修改

阅读量7.4w

点赞数 174

分类专栏：概率论文章标签：无偏估计样本方差样本均值统计

于 2018-08-01 15:02:22 首次发布

本文链接：https://blog.csdn.net/qq_16587307/article/details/81328773

版权

本文介绍了统计学中的无偏估计概念，解释了为何样本方差在估计总体方差时要除以n-1而非n。通过探讨样本均值的无偏估计，证明样本方差除以n-1可得到总体方差的无偏估计，强调了在无法获取全部数据时，利用样本统计量估计总体参数的必要性和无偏估计的重要性。

摘要由CSDN通过智能技术生成

1）基本概念

我们先从最基本的一些概念入手。

如下图，脑子里要浮现出总体样本 $X$ ，还有一系列随机选取的样本 $X_{1},X_{2},...,X_{n}$ 。只要是样本，脑子里就要浮现出它的集合属性，它不是单个个体，而是一堆随机个体集合。样本 $X_{i}$ 是总体样本中随机抽取一系列个体组成的集合，它是总体样本的一部分。

应该把样本 $X_{i}$ 和总体样本 $X$ 一样进行抽象化理解，因此样本 $X_{i}$ 也存在期望 $E(X_{i})$ 和方差 $D(X_{i})$ 。

这里有一个重要的假设，就是随机选取的样本 $X_{i}$ 与总体样本同分布，它的意思就是说他们的统计特性是完全一样的，即他们的期望值一样，他们的方差值也是一样的：

$E(X_{i})=E(X)=\mu$

$D(X_{i})=D(X)=\sigma ^{2}$

另外，由于每个样本的选取是随机的，因此可以假设 $X_{1},X_{2},...,X_{n}$ 不相关(意味着协方差为0，即 $Cov(X_{i},X{j})=0,i\neq j$ )，根据方差性质就有:

$D(X_{i}+X_{j})=D(X_{i})+D(X_{j})+2Cov(X_{i},X_{j})=D(X_{i})+D(X_{j})=2\sigma ^{2}$

另外，还需要知道方差另外一个性质：

$D(aX_{i})=a^{2}D(X_{i}),a$ 为常数。

还有一个，别忘了方差的基本公式：

$D(X)=E(X^2)-E^2(X)$

以上的公式都很容易百度得到，也非常容易理解。这里不赘述。

2）无偏估计

接下来，我们来理解下什么叫无偏估计。

定义：设统计量 $\hat{\Theta}=\hat{\Theta}(X_{1},X_{2},...,X_{n})$ 是总体中未知参数 $\Theta$ 的估计量，若 $E(\hat{\Theta })=\Theta$ ，则称 $\hat{\Theta }$ 为 $\Theta$ 的无偏估计量；否则称为有偏估计量。

上面这个定义的意思就是说如果你拿到了一堆样本观测值，然后想通过这一堆观测值去估计某个统计量 $\Theta$ ，一般就是想估计总体的期望或方差，如果你选择的方法所估计出来的统计量 $\hat{\Theta}$ 的期望值与总体样本的统计量 $\Theta$ 相等，那么我们称这种方法下的估计量是无偏估计，否则，就称这种方法下的估计量为有偏估计量。

按照这么理解，那么有偏无偏是针对你选择估计的方法所说的，它并不是针对具体某一次估计出来的估计量结果。如果方法不对，即使你恰好在某一次计算出来一个值和总体样本统计量值相同，也并不代表你选的这个方法是无偏的。为什么呢？这是因为单次 $\hat{\Theta}$ 值是和你选取的样本相关的，每次样本（更加严格的意义是某次样本快照）的值变化了，那么每次 $\hat{\Theta}$ 的值就有可能跟着变化，你就需对这么多 $\hat{\Theta}$ 求期望值来判断 $\hat{\Theta}$ 的可信程度，如果一直重复这个试验，然后它的期望值与总体样本的统计量 $\Theta$ 一样，那么称按照这种方法估计出来的统计量是无偏的。

来一点题外话：

但凡是想通过有限的信息去"估计&#