【浅谈】样本方差的分母“n”为什么要改为“n-1”

爱数学的企鹅

已于 2022-03-28 23:26:15 修改

阅读量1.5k

点赞数 6

分类专栏：数理统计文章标签：概率论

于 2022-03-03 22:18:46 首次发布

本文链接：https://blog.csdn.net/m0_53380069/article/details/123265438

版权

数理统计专栏收录该内容

1 篇文章

订阅专栏

按照直观的理解，在给定一系列样本值的时候，计算样本均值和样本方差所除以的应该是样本数 $n$ ，而事实上我们计算样本均值的时候是除以 $n$ ，计算样本方差的时候是除以 $n - 1$ . 这个反直觉的计算公式曾一度令我困惑不已，好在接触到数理统计课程，终于使我醍醐灌顶. 于是我结合[1, 2, 3]的相关部分，以初学者的角度学习并总结成此文，希望能为有类似困惑的同学提供参考. 因本人水平有限，文章难免有不足之处，烦请读者指出，联系方式：penguinpi@163.com.

样本均值与样本方差

对于给定的若干个样本 $X_1, X_2, \cdots, X_n$ ，假设它们是独立同分布的，且对于每个 $X_i(i = 1, 2, \cdots, n)$ ，其均值为 $\mu$ ，方差为 $\sigma^2$ . 当我们不确定 $\mu$ 和 $\sigma^2$ 的具体值的时候，我们希望通过这 $n$ 个样本来计算样本均值 $M_n$ 和样本方差 $S_n^2$ ，并尽可能地逼近真实值. 根据均值和方差的概念，直观上我们会这样计算样本均值和样本方差：
$M_n = \frac{X_1 + X_2 + \cdots + X_n}{n},\\ S_n^2 = \frac{\sum_{i=1}^{n}\left(X_i - M_n\right)^2}{n}.$
然而，与直觉相违背的是，把样本方差定义为 $S_n^2$ 并不是最佳方案，更优的样本方差定义应该是将分母的 $n$ 改为 $n - 1$ ，这里我们记作 $\hat{S}_n^2$ ，即
$\hat{S}_n^2 = \frac{\sum_{i=1}^{n}\left(X_i - M_n\right)^2}{n - 1},$
我的困惑正是从这个 $n - 1$ 开始. 好在我们可以从理论上讨论 $S_n^2$ 和 $\hat{S}_n^2$ 分别回归到什么值，由此分析修改前后带来的影响，从而理解为什么作此修改. 换句话说，我们可以对两种不同方式定义的样本方差求期望，以检验到底哪一个更加合适. 不妨先看看直观定义的样本方差的期望
$\begin{aligned} E[S_n^2] & = E\left[\frac{\sum_{i=1}^{n}(X_i - M_n)^2}{n}\right]\\ & = \frac{E\left[\sum_{i=1}^{n}(X_i - M_n)^2\right]}{n}\\ & = \frac{E\left[\sum_{i=1}^{n}(X_i^2 - 2X_iM_n + M_n^2)\right]}{n}\\ & = \frac{E\left[\sum_{i=1}^{n}X_i^2 - 2nM_n^2 + nM_n^2\right]}{n}\\ & = \frac{\sum_{i=1}^{n}E[X_i^2] - nE[M_n^2]}{n}\\ & = \frac{nE[X_i^2] - nE[M_n^2]}{n}\\ & = E[X_i^2] - E[M_n^2], \end{aligned}$
根据随机变量的方差与矩的关系，有
$var(X) = E[X^2] - (E[X])^2,$
且样本均值 $M_n$ 满足
$E[M_n] = E\left[\frac{X_1 + X_2 + \cdots + X_n}{n}\right] = \frac{E[X_1] + E[X_2] + \cdots + E[X_n]}{n} = \frac{n\mu}{n} = \mu,\\ var(M_n) = var\left(\frac{X_1 + X_2 + \cdots + X_n}{n}\right) = \frac{var(X_1) + var(X_2) + \cdots + var(X_n)}{n^2} = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n},$
所以
$\begin{aligned} E[S_n^2] & = \left(var(X_i) + \left(E[X_i]\right)^2\right) - \left(var(M_n) + \left(E[M_n]\right)^2\right)\\ & = \left(\sigma^2 + \mu^2\right) - \left(\frac{\sigma^2}{n} + \mu^2\right)\\ & = \frac{n-1}{n}\sigma^2. \end{aligned}$
果然，按照我们直觉定义出来的样本方差 $S_n^2$ 是不会回归到真实方差 $\sigma^2$ 的，其存在一定的偏差，尽管在样本数 $n$ 非常大的时候能忽略这个偏差. 不过我们很容易就可以避免这个理论上的偏差，只需要在上式两边同乘系数 $n / (n - 1)$ ，等式的右边仅有 $\sigma^2$ ，等式左边正是修改后的样本方差 $\hat{S}_n^2$ .

与其说是计算公式，不如说是在直觉的基础上，根据理论推敲稍作修改得到的定义. 事实上，数学的定义并非天然形成，而是经过反复的推敲和修改，才得以成形.

估计量的无偏性

若我们进一步思考，所谓样本均值 $M_n$ ，不过是将一系列的随机变量 $X_1, X_2, \cdots, X_n$ 经过简单的加和求平均得到的，即从一些已知的随机变量通过一个映射得到的一个新的随机变量，我们将这个新的随机变量称作估计量，如果其具有统计意义，也称作统计量. 对于估计量，我们当然希望它越准确越好，也就是希望估计量能回归真实值，此时我们称这样的估计量是无偏的. 下面以 $M_n$ 简单介绍估计量的相关术语[1].

估计量的期望值依赖于真实的参数，即 $E[M_n]$ （也记作 $E_\mu[M_n]$ ）依赖于真实的 $\mu$ .
若 $E_\mu[M_n] = \mu$ 对于 $\mu$ 所有可能的取值都成立，则称 $M_n$ 无偏.
若 $\lim_{n\to\infty}E_\mu[M_n] = \mu$ 对于 $\mu$ 所有可能的取值都成立，则称 $M_n$ 渐近无偏.

显然， $M_n$ 是无偏的，而直觉定义的 $S_n^2$ 是渐进无偏的，经修改后的 $\hat{S}_n^2$ 是无偏的. 无偏并不意味着估计量在任何时候都能给出正确无误的估计，而是在大量次数使用该估计量并取平均时，能以十足的把握无限逼近被估计的量. 如果没有无偏性，则无论使用多少次该估计量，其平均也会与真实值保持一定距离——这个距离就是系统误差[2]. 由此可见将 $\hat{S}_n^2$ 定义为样本方差是多么明智的选择.

自由度的一种解释

通过前两节的讨论，我们对分母 $n - 1$ 的来龙去脉已经非常清楚了，但这究竟是巧合还是具有一定规律的呢？或许牵扯到自由度的概念，茆诗松老先生等人在书[3]中对自由度的概念最初是这么引入的

$\chi^2(n)$ 分布中的参数 $n$ 就体现在： $n$ 是独立的标准正态变量的个数，因此人们称这个参数 $n$ 为自由度.

而陈希孺老先生在书[2]中证明 $\hat{S}_n^2$ 的无偏性之后这样解释道

在这里我们还可以对“自由度”这个概念赋予另一种解释：一共有 $n$ 个样本，有 $n$ 个自由度. 用 $S^2$ 估计方差 $\sigma^2$ ，自由度本应为 $n$ . 但总体均值 $\mu$ 也未知，用 $M_n$ 去估计，用掉了一个自由度，故只剩下 $n - 1$ 个自由度.

乍一看是比较抽象的，不妨再回顾我们是如何计算样本均值和样本方差的
$\left\{\begin{aligned} M_n & = \frac{X_1 + X_2 + \cdots + X_n}{n}\\ \hat{S}_n^2 & = \frac{\sum_{i=1}^{n}(X_i - M_n)^2}{n - 1} \end{aligned}\right.,$
就像解方程组一样，我们先用一系列的样本“定住”了 $M_n$ 才得以计算 $S_n^2$ ，而换个角度看，这一系列的样本 $X_i(i= 1, 2, \cdots, n)$ 也同样被 $M_n$ 给限制住了. 也就是在已知 $M_n$ 和 $n - 1$ 个样本值的情况下，剩余的 $1$ 个样本值已经被确定了. 由此自由度衰减为 $n - 1$ .

那么是不是当我们已知具体的 $\mu$ ，就不必用这些样本估计 $M_n$ ，进而不必用 $M_n$ 计算 $S_n^2$ ，最终不会丢掉这个自由度，即可以用 $S_n^2$ 作为真实方差 $\sigma^2$ 的无偏估计量呢？答案是肯定的，如下
$\begin{aligned} E[S_n^2] & = E\left[\frac{\sum_{i=1}^{n}(X_i - \mu)^2}{n}\right]\\ & = \frac{E\left[\sum_{i=1}^{n}(X_i^2 - 2 X_i \mu + \mu^2)\right]}{n}\\ & = \frac{E\left[\sum_{i=1}^{n}X_i^2 - 2 n M_n \mu + n \mu^2\right]}{n}\\ & = \frac{\sum_{i=1}^{n}E[X_i^2] - 2 n \mu E[M_n] + n \mu^2}{n}\\ & = \frac{n\left(var(X_i) + \left(E[X_i]\right)^2\right) - 2 n \mu^2 + n \mu^2}{n}\\ & = \frac{n \sigma^2 + n \mu^2 - 2 n \mu^2 + n \mu^2}{n}\\ & = \sigma^2. \end{aligned}$

故此时 $S_n^2$ 是一个无偏估计. 通过对自由度的理解，我们能够建立更好的数学直觉，判断出何时为 $n - 1$ ，何时为 $n$ ，甚至 $n + 1$ . 尽管严谨的证明不能只依赖于数学直觉，但对我们学习更多的估计量（统计量）以及推断它们的性质是大有脾益的.

总结

我们从样本均值和样本方差的计算公式为切入点，探究其为何会如此定义，之后更一般地介绍了估计量与无偏性，明确样本方差定义之优是因为修改后的样本均值是无偏的估计量，最后从自由度的角度再次思考分母 $n - 1$ 的含义，有助于培养我们的数学直觉，更好地通过自由度理解其他复杂估计量（统计量）的系数.

参考文献

[1] [美]伯特瑟卡斯（Bertsekas, D. P.）, [美]齐齐克利斯（Tsitsiklis, J. N.）. 概率导论[M]. 郑忠国, 童行伟译. 北京：人民邮电出版社, 2016.
[2] 陈希孺. 概率论与数理统计[M]. 合肥：中国科学技术大学出版社, 2009.
[3] 茆诗松, 程依明, 濮晓龙. 概率论与数理统计[M]. 北京：高等教育出版社, 2019.