【浅谈】样本方差的分母“n”为什么要改为“n-1”

按照直观的理解,在给定一系列样本值的时候,计算样本均值和样本方差所除以的应该是样本数 n n n,而事实上我们计算样本均值的时候是除以 n n n,计算样本方差的时候是除以 n − 1 n-1 n1. 这个反直觉的计算公式曾一度令我困惑不已,好在接触到数理统计课程,终于使我醍醐灌顶. 于是我结合[1, 2, 3]的相关部分,以初学者的角度学习并总结成此文,希望能为有类似困惑的同学提供参考. 因本人水平有限,文章难免有不足之处,烦请读者指出,联系方式:penguinpi@163.com.

样本均值与样本方差

对于给定的若干个样本 X 1 , X 2 , ⋯   , X n X_1, X_2, \cdots, X_n X1,X2,,Xn,假设它们是独立同分布的,且对于每个 X i ( i = 1 , 2 , ⋯   , n ) X_i(i = 1, 2, \cdots, n) Xi(i=1,2,,n),其均值为 μ \mu μ,方差为 σ 2 \sigma^2 σ2. 当我们不确定 μ \mu μ σ 2 \sigma^2 σ2的具体值的时候,我们希望通过这 n n n个样本来计算样本均值 M n M_n Mn样本方差 S n 2 S_n^2 Sn2,并尽可能地逼近真实值. 根据均值和方差的概念,直观上我们会这样计算样本均值和样本方差:
M n = X 1 + X 2 + ⋯ + X n n , S n 2 = ∑ i = 1 n ( X i − M n ) 2 n . M_n = \frac{X_1 + X_2 + \cdots + X_n}{n},\\ S_n^2 = \frac{\sum_{i=1}^{n}\left(X_i - M_n\right)^2}{n}. Mn=nX1+X2++Xn,Sn2=ni=1n(XiMn)2.
然而,与直觉相违背的是,把样本方差定义为 S n 2 S_n^2 Sn2并不是最佳方案,更优的样本方差定义应该是将分母的 n n n改为 n − 1 n-1 n1,这里我们记作 S ^ n 2 \hat{S}_n^2 S^n2,即
S ^ n 2 = ∑ i = 1 n ( X i − M n ) 2 n − 1 , \hat{S}_n^2 = \frac{\sum_{i=1}^{n}\left(X_i - M_n\right)^2}{n - 1}, S^n2=n1i=1n(XiMn)2,
我的困惑正是从这个 n − 1 n-1 n1开始. 好在我们可以从理论上讨论 S n 2 S_n^2 Sn2 S ^ n 2 \hat{S}_n^2 S^n2分别回归到什么值,由此分析修改前后带来的影响,从而理解为什么作此修改. 换句话说,我们可以对两种不同方式定义的样本方差求期望,以检验到底哪一个更加合适. 不妨先看看直观定义的样本方差的期望
E [ S n 2 ] = E [ ∑ i = 1 n ( X i − M n ) 2 n ] = E [ ∑ i = 1 n ( X i − M n ) 2 ] n = E [ ∑ i = 1 n ( X i 2 − 2 X i M n + M n 2 ) ] n = E [ ∑ i = 1 n X i 2 − 2 n M n 2 + n M n 2 ] n = ∑ i = 1 n E [ X i 2 ] − n E [ M n 2 ] n = n E [ X i 2 ] − n E [ M n 2 ] n = E [ X i 2 ] − E [ M n 2 ] , \begin{aligned} E[S_n^2] & = E\left[\frac{\sum_{i=1}^{n}(X_i - M_n)^2}{n}\right]\\ & = \frac{E\left[\sum_{i=1}^{n}(X_i - M_n)^2\right]}{n}\\ & = \frac{E\left[\sum_{i=1}^{n}(X_i^2 - 2X_iM_n + M_n^2)\right]}{n}\\ & = \frac{E\left[\sum_{i=1}^{n}X_i^2 - 2nM_n^2 + nM_n^2\right]}{n}\\ & = \frac{\sum_{i=1}^{n}E[X_i^2] - nE[M_n^2]}{n}\\ & = \frac{nE[X_i^2] - nE[M_n^2]}{n}\\ & = E[X_i^2] - E[M_n^2], \end{aligned} E[Sn2]=E[ni=1n(XiMn)2]=nE[i=1n(XiMn)2]=nE[i=1n(Xi22XiMn+Mn2)]=nE[i=1nXi22nMn2+nMn2]=ni=1nE[Xi2]nE[Mn2]=nnE[Xi2]nE[Mn2]=E[Xi2]E[Mn2],
根据随机变量的方差与矩的关系,有
v a r ( X ) = E [ X 2 ] − ( E [ X ] ) 2 , var(X) = E[X^2] - (E[X])^2, var(X)=E[X2](E[X])2,
且样本均值 M n M_n Mn满足
E [ M n ] = E [ X 1 + X 2 + ⋯ + X n n ] = E [ X 1 ] + E [ X 2 ] + ⋯ + E [ X n ] n = n μ n = μ , v a r ( M n ) = v a r ( X 1 + X 2 + ⋯ + X n n ) = v a r ( X 1 ) + v a r ( X 2 ) + ⋯ + v a r ( X n ) n 2 = n σ 2 n 2 = σ 2 n , E[M_n] = E\left[\frac{X_1 + X_2 + \cdots + X_n}{n}\right] = \frac{E[X_1] + E[X_2] + \cdots + E[X_n]}{n} = \frac{n\mu}{n} = \mu,\\ var(M_n) = var\left(\frac{X_1 + X_2 + \cdots + X_n}{n}\right) = \frac{var(X_1) + var(X_2) + \cdots + var(X_n)}{n^2} = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n}, E[Mn]=E[nX1+X2++Xn]=nE[X1]+E[X2]++E[Xn]=nnμ=μ,var(Mn)=var(nX1+X2++Xn)=n2var(X1)+var(X2)++var(Xn)=n2nσ2=nσ2,
所以
E [ S n 2 ] = ( v a r ( X i ) + ( E [ X i ] ) 2 ) − ( v a r ( M n ) + ( E [ M n ] ) 2 ) = ( σ 2 + μ 2 ) − ( σ 2 n + μ 2 ) = n − 1 n σ 2 . \begin{aligned} E[S_n^2] & = \left(var(X_i) + \left(E[X_i]\right)^2\right) - \left(var(M_n) + \left(E[M_n]\right)^2\right)\\ & = \left(\sigma^2 + \mu^2\right) - \left(\frac{\sigma^2}{n} + \mu^2\right)\\ & = \frac{n-1}{n}\sigma^2. \end{aligned} E[Sn2]=(var(Xi)+(E[Xi])2)(var(Mn)+(E[Mn])2)=(σ2+μ2)(nσ2+μ2)=nn1σ2.
果然,按照我们直觉定义出来的样本方差 S n 2 S_n^2 Sn2是不会回归到真实方差 σ 2 \sigma^2 σ2的,其存在一定的偏差,尽管在样本数 n n n非常大的时候能忽略这个偏差. 不过我们很容易就可以避免这个理论上的偏差,只需要在上式两边同乘系数 n / ( n − 1 ) n / (n-1) n/(n1),等式的右边仅有 σ 2 \sigma^2 σ2,等式左边正是修改后的样本方差 S ^ n 2 \hat{S}_n^2 S^n2.

与其说是计算公式,不如说是在直觉的基础上,根据理论推敲稍作修改得到的定义. 事实上,数学的定义并非天然形成,而是经过反复的推敲和修改,才得以成形.

估计量的无偏性

若我们进一步思考,所谓样本均值 M n M_n Mn,不过是将一系列的随机变量 X 1 , X 2 , ⋯   , X n X_1, X_2, \cdots, X_n X1,X2,,Xn经过简单的加和求平均得到的,即从一些已知的随机变量通过一个映射得到的一个新的随机变量,我们将这个新的随机变量称作估计量,如果其具有统计意义,也称作统计量. 对于估计量,我们当然希望它越准确越好,也就是希望估计量能回归真实值,此时我们称这样的估计量是无偏的. 下面以 M n M_n Mn简单介绍估计量的相关术语[1].

  • 估计量的期望值依赖于真实的参数,即 E [ M n ] E[M_n] E[Mn](也记作 E μ [ M n ] E_\mu[M_n] Eμ[Mn])依赖于真实的 μ \mu μ.
  • E μ [ M n ] = μ E_\mu[M_n] = \mu Eμ[Mn]=μ对于 μ \mu μ所有可能的取值都成立,则称 M n M_n Mn无偏.
  • lim ⁡ n → ∞ E μ [ M n ] = μ \lim_{n\to\infty}E_\mu[M_n] = \mu limnEμ[Mn]=μ对于 μ \mu μ所有可能的取值都成立,则称 M n M_n Mn渐近无偏.

显然, M n M_n Mn是无偏的,而直觉定义的 S n 2 S_n^2 Sn2是渐进无偏的,经修改后的 S ^ n 2 \hat{S}_n^2 S^n2是无偏的. 无偏并不意味着估计量在任何时候都能给出正确无误的估计,而是在大量次数使用该估计量并取平均时,能以十足的把握无限逼近被估计的量. 如果没有无偏性,则无论使用多少次该估计量,其平均也会与真实值保持一定距离——这个距离就是系统误差[2]. 由此可见将 S ^ n 2 \hat{S}_n^2 S^n2定义为样本方差是多么明智的选择.

自由度的一种解释

通过前两节的讨论,我们对分母 n − 1 n-1 n1的来龙去脉已经非常清楚了,但这究竟是巧合还是具有一定规律的呢?或许牵扯到自由度的概念,茆诗松老先生等人在书[3]中对自由度的概念最初是这么引入的

χ 2 ( n ) \chi^2(n) χ2(n)分布中的参数 n n n就体现在: n n n是独立的标准正态变量的个数,因此人们称这个参数 n n n为自由度.

而陈希孺老先生在书[2]中证明 S ^ n 2 \hat{S}_n^2 S^n2的无偏性之后这样解释道

在这里我们还可以对“自由度”这个概念赋予另一种解释:一共有 n n n个样本,有 n n n个自由度. 用 S 2 S^2 S2估计方差 σ 2 \sigma^2 σ2,自由度本应为 n n n. 但总体均值 μ \mu μ也未知,用 M n M_n Mn去估计,用掉了一个自由度,故只剩下 n − 1 n-1 n1个自由度.

乍一看是比较抽象的,不妨再回顾我们是如何计算样本均值和样本方差的
{ M n = X 1 + X 2 + ⋯ + X n n S ^ n 2 = ∑ i = 1 n ( X i − M n ) 2 n − 1 , \left\{\begin{aligned} M_n & = \frac{X_1 + X_2 + \cdots + X_n}{n}\\ \hat{S}_n^2 & = \frac{\sum_{i=1}^{n}(X_i - M_n)^2}{n - 1} \end{aligned}\right., MnS^n2=nX1+X2++Xn=n1i=1n(XiMn)2,
就像解方程组一样,我们先用一系列的样本“定住”了 M n M_n Mn才得以计算 S n 2 S_n^2 Sn2,而换个角度看,这一系列的样本 X i ( i = 1 , 2 , ⋯   , n ) X_i(i= 1, 2, \cdots, n) Xi(i=1,2,,n)也同样被 M n M_n Mn给限制住了. 也就是在已知 M n M_n Mn n − 1 n-1 n1个样本值的情况下,剩余的 1 1 1个样本值已经被确定了. 由此自由度衰减为 n − 1 n-1 n1.

那么是不是当我们已知具体的 μ \mu μ,就不必用这些样本估计 M n M_n Mn,进而不必用 M n M_n Mn计算 S n 2 S_n^2 Sn2,最终不会丢掉这个自由度,即可以用 S n 2 S_n^2 Sn2作为真实方差 σ 2 \sigma^2 σ2的无偏估计量呢?答案是肯定的,如下
E [ S n 2 ] = E [ ∑ i = 1 n ( X i − μ ) 2 n ] = E [ ∑ i = 1 n ( X i 2 − 2 X i μ + μ 2 ) ] n = E [ ∑ i = 1 n X i 2 − 2 n M n μ + n μ 2 ] n = ∑ i = 1 n E [ X i 2 ] − 2 n μ E [ M n ] + n μ 2 n = n ( v a r ( X i ) + ( E [ X i ] ) 2 ) − 2 n μ 2 + n μ 2 n = n σ 2 + n μ 2 − 2 n μ 2 + n μ 2 n = σ 2 . \begin{aligned} E[S_n^2] & = E\left[\frac{\sum_{i=1}^{n}(X_i - \mu)^2}{n}\right]\\ & = \frac{E\left[\sum_{i=1}^{n}(X_i^2 - 2 X_i \mu + \mu^2)\right]}{n}\\ & = \frac{E\left[\sum_{i=1}^{n}X_i^2 - 2 n M_n \mu + n \mu^2\right]}{n}\\ & = \frac{\sum_{i=1}^{n}E[X_i^2] - 2 n \mu E[M_n] + n \mu^2}{n}\\ & = \frac{n\left(var(X_i) + \left(E[X_i]\right)^2\right) - 2 n \mu^2 + n \mu^2}{n}\\ & = \frac{n \sigma^2 + n \mu^2 - 2 n \mu^2 + n \mu^2}{n}\\ & = \sigma^2. \end{aligned} E[Sn2]=E[ni=1n(Xiμ)2]=nE[i=1n(Xi22Xiμ+μ2)]=nE[i=1nXi22nMnμ+nμ2]=ni=1nE[Xi2]2nμE[Mn]+nμ2=nn(var(Xi)+(E[Xi])2)2nμ2+nμ2=nnσ2+nμ22nμ2+nμ2=σ2.

故此时 S n 2 S_n^2 Sn2是一个无偏估计. 通过对自由度的理解,我们能够建立更好的数学直觉,判断出何时为 n − 1 n-1 n1,何时为 n n n,甚至 n + 1 n+1 n+1. 尽管严谨的证明不能只依赖于数学直觉,但对我们学习更多的估计量(统计量)以及推断它们的性质是大有脾益的.

总结

我们从样本均值和样本方差的计算公式为切入点,探究其为何会如此定义,之后更一般地介绍了估计量与无偏性,明确样本方差定义之优是因为修改后的样本均值是无偏的估计量,最后从自由度的角度再次思考分母 n − 1 n-1 n1的含义,有助于培养我们的数学直觉,更好地通过自由度理解其他复杂估计量(统计量)的系数.

参考文献

[1] [美]伯特瑟卡斯(Bertsekas, D. P.), [美]齐齐克利斯(Tsitsiklis, J. N.). 概率导论[M]. 郑忠国, 童行伟译. 北京:人民邮电出版社, 2016.
[2] 陈希孺. 概率论与数理统计[M]. 合肥:中国科学技术大学出版社, 2009.
[3] 茆诗松, 程依明, 濮晓龙. 概率论与数理统计[M]. 北京:高等教育出版社, 2019.

  • 6
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 3
    评论
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值