统计学基础——为什么样本方差（sample variance）的分母是 n-1？

最新推荐文章于 2024-05-01 00:30:00 发布

xia ge tou lia

最新推荐文章于 2024-05-01 00:30:00 发布

阅读量2.1k

点赞数 1

分类专栏：统计学文章标签：统计学数学

本文链接：https://blog.csdn.net/huangguohui_123/article/details/103547309

版权

统计学专栏收录该内容

30 篇文章 61 订阅

订阅专栏

总体方差，也叫做有偏估计，其实就是我们从初高中就学到的那个标准定义的方差：

$\sigma ^{2}=\frac{\sum_{i=1}^{N}(X_{i}-\mu)^{2}}{N}$ ，其中， $\mu$ 为总体的均值， $\sigma$ 为总体的标准差，为总体的样本数。

样本方差，无偏方差，在实际情况中，总体均值 $\bar{X}$ 是很难得到的，往往通过抽样来计算，于是有样本方差，计算公式如下：

$S^{2}=\frac{\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}{n-1}$ 或者 $S^{2}=\frac{\sum X^{2}-(\sum X)^{2}/n}{n-1}$ ，其中， $\overline{X}$ 为样本的均值，为样本的标准差，为样本的个数。

实际操作中，我们一般通过抽样来验证总体。就会面临以下两种情况：

$\mu$ （总体的均值）已知

即无偏估计，方差 $\sigma ^{2}=\frac{\sum_{i=1}^{N}(X_{i}-\mu)^{2}}{N}$

$\mu$ （总体的均值）未知

即有偏估计，此时，如果直接使用 $S^{2}=\frac{\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}{n}$ 作为估计，那么你会倾向于低估方差！

这是因为

$\begin{align} \frac{\sum_{i=1}^{n}(X_{i}-\overline{X})^{2}}{n} &= \ \frac{\sum_{i=1}^{n}[(X_{i}-\mu )+(\mu-\overline{X})]^{2}}{n} \\ &= \ \ \frac{1}{n}\sum_{i=1}^{n}(X_{i}-\mu )^{2}+\frac{2}{n}\sum_{i=1}^{n}(X_{i}-\mu )(\mu -\overline{X})+\frac{1}{n}\sum_{i=1}^{n}(\mu-\overline{X} )^{2} \\ &= \ \ \frac{1}{n} \sum_{i=1}^{n}(X_{i}-\mu )^{2}+(\mu -\overline{X})\cdot \frac{2}{n}\sum_{i=1}^{n}(X_{i}-\mu )+(\mu-\overline{X} )^{2} \\ &= \ \ \frac{1}{n} \sum_{i=1}^{n}(X_{i}-\mu )^{2}+2(\mu -\overline{X})(\overline{X}-\mu )+(\mu-\overline{X} )^{2} \\ &= \ \ \frac{1}{n} \sum_{i=1}^{n}(X_{i}-\mu )^{2}-2(\mu -\overline{X})^{2}+(\mu-\overline{X} )^{2} \\ &= \ \ \frac{1}{n} \sum_{i=1}^{n}(X_{i}-\mu )^{2}-(\mu-\overline{X} )^{2} \end{align}$

换言之，除非正好 $\mu =\overline{X}$ ，否则我们一定有 $\frac{1}{n} \sum_{i=1}^{n}(X_{i}-\overline{X})^{2}< \frac{1}{n} \sum_{i=1}^{n}(X_{i}-\mu )^{2}$ ,而不等式右边的那位才是的对方差的“正确”估计！