按照直观的理解,在给定一系列样本值的时候,计算样本均值和样本方差所除以的应该是样本数 n n n,而事实上我们计算样本均值的时候是除以 n n n,计算样本方差的时候是除以 n − 1 n-1 n−1. 这个反直觉的计算公式曾一度令我困惑不已,好在接触到数理统计课程,终于使我醍醐灌顶. 于是我结合[1, 2, 3]的相关部分,以初学者的角度学习并总结成此文,希望能为有类似困惑的同学提供参考. 因本人水平有限,文章难免有不足之处,烦请读者指出,联系方式:penguinpi@163.com.
样本均值与样本方差
对于给定的若干个样本
X
1
,
X
2
,
⋯
,
X
n
X_1, X_2, \cdots, X_n
X1,X2,⋯,Xn,假设它们是独立同分布的,且对于每个
X
i
(
i
=
1
,
2
,
⋯
,
n
)
X_i(i = 1, 2, \cdots, n)
Xi(i=1,2,⋯,n),其均值为
μ
\mu
μ,方差为
σ
2
\sigma^2
σ2. 当我们不确定
μ
\mu
μ和
σ
2
\sigma^2
σ2的具体值的时候,我们希望通过这
n
n
n个样本来计算样本均值
M
n
M_n
Mn和样本方差
S
n
2
S_n^2
Sn2,并尽可能地逼近真实值. 根据均值和方差的概念,直观上我们会这样计算样本均值和样本方差:
M
n
=
X
1
+
X
2
+
⋯
+
X
n
n
,
S
n
2
=
∑
i
=
1
n
(
X
i
−
M
n
)
2
n
.
M_n = \frac{X_1 + X_2 + \cdots + X_n}{n},\\ S_n^2 = \frac{\sum_{i=1}^{n}\left(X_i - M_n\right)^2}{n}.
Mn=nX1+X2+⋯+Xn,Sn2=n∑i=1n(Xi−Mn)2.
然而,与直觉相违背的是,把样本方差定义为
S
n
2
S_n^2
Sn2并不是最佳方案,更优的样本方差定义应该是将分母的
n
n
n改为
n
−
1
n-1
n−1,这里我们记作
S
^
n
2
\hat{S}_n^2
S^n2,即
S
^
n
2
=
∑
i
=
1
n
(
X
i
−
M
n
)
2
n
−
1
,
\hat{S}_n^2 = \frac{\sum_{i=1}^{n}\left(X_i - M_n\right)^2}{n - 1},
S^n2=n−1∑i=1n(Xi−Mn)2,
我的困惑正是从这个
n
−
1
n-1
n−1开始. 好在我们可以从理论上讨论
S
n
2
S_n^2
Sn2和
S
^
n
2
\hat{S}_n^2
S^n2分别回归到什么值,由此分析修改前后带来的影响,从而理解为什么作此修改. 换句话说,我们可以对两种不同方式定义的样本方差求期望,以检验到底哪一个更加合适. 不妨先看看直观定义的样本方差的期望
E
[
S
n
2
]
=
E
[
∑
i
=
1
n
(
X
i
−
M
n
)
2
n
]
=
E
[
∑
i
=
1
n
(
X
i
−
M
n
)
2
]
n
=
E
[
∑
i
=
1
n
(
X
i
2
−
2
X
i
M
n
+
M
n
2
)
]
n
=
E
[
∑
i
=
1
n
X
i
2
−
2
n
M
n
2
+
n
M
n
2
]
n
=
∑
i
=
1
n
E
[
X
i
2
]
−
n
E
[
M
n
2
]
n
=
n
E
[
X
i
2
]
−
n
E
[
M
n
2
]
n
=
E
[
X
i
2
]
−
E
[
M
n
2
]
,
\begin{aligned} E[S_n^2] & = E\left[\frac{\sum_{i=1}^{n}(X_i - M_n)^2}{n}\right]\\ & = \frac{E\left[\sum_{i=1}^{n}(X_i - M_n)^2\right]}{n}\\ & = \frac{E\left[\sum_{i=1}^{n}(X_i^2 - 2X_iM_n + M_n^2)\right]}{n}\\ & = \frac{E\left[\sum_{i=1}^{n}X_i^2 - 2nM_n^2 + nM_n^2\right]}{n}\\ & = \frac{\sum_{i=1}^{n}E[X_i^2] - nE[M_n^2]}{n}\\ & = \frac{nE[X_i^2] - nE[M_n^2]}{n}\\ & = E[X_i^2] - E[M_n^2], \end{aligned}
E[Sn2]=E[n∑i=1n(Xi−Mn)2]=nE[∑i=1n(Xi−Mn)2]=nE[∑i=1n(Xi2−2XiMn+Mn2)]=nE[∑i=1nXi2−2nMn2+nMn2]=n∑i=1nE[Xi2]−nE[Mn2]=nnE[Xi2]−nE[Mn2]=E[Xi2]−E[Mn2],
根据随机变量的方差与矩的关系,有
v
a
r
(
X
)
=
E
[
X
2
]
−
(
E
[
X
]
)
2
,
var(X) = E[X^2] - (E[X])^2,
var(X)=E[X2]−(E[X])2,
且样本均值
M
n
M_n
Mn满足
E
[
M
n
]
=
E
[
X
1
+
X
2
+
⋯
+
X
n
n
]
=
E
[
X
1
]
+
E
[
X
2
]
+
⋯
+
E
[
X
n
]
n
=
n
μ
n
=
μ
,
v
a
r
(
M
n
)
=
v
a
r
(
X
1
+
X
2
+
⋯
+
X
n
n
)
=
v
a
r
(
X
1
)
+
v
a
r
(
X
2
)
+
⋯
+
v
a
r
(
X
n
)
n
2
=
n
σ
2
n
2
=
σ
2
n
,
E[M_n] = E\left[\frac{X_1 + X_2 + \cdots + X_n}{n}\right] = \frac{E[X_1] + E[X_2] + \cdots + E[X_n]}{n} = \frac{n\mu}{n} = \mu,\\ var(M_n) = var\left(\frac{X_1 + X_2 + \cdots + X_n}{n}\right) = \frac{var(X_1) + var(X_2) + \cdots + var(X_n)}{n^2} = \frac{n\sigma^2}{n^2} = \frac{\sigma^2}{n},
E[Mn]=E[nX1+X2+⋯+Xn]=nE[X1]+E[X2]+⋯+E[Xn]=nnμ=μ,var(Mn)=var(nX1+X2+⋯+Xn)=n2var(X1)+var(X2)+⋯+var(Xn)=n2nσ2=nσ2,
所以
E
[
S
n
2
]
=
(
v
a
r
(
X
i
)
+
(
E
[
X
i
]
)
2
)
−
(
v
a
r
(
M
n
)
+
(
E
[
M
n
]
)
2
)
=
(
σ
2
+
μ
2
)
−
(
σ
2
n
+
μ
2
)
=
n
−
1
n
σ
2
.
\begin{aligned} E[S_n^2] & = \left(var(X_i) + \left(E[X_i]\right)^2\right) - \left(var(M_n) + \left(E[M_n]\right)^2\right)\\ & = \left(\sigma^2 + \mu^2\right) - \left(\frac{\sigma^2}{n} + \mu^2\right)\\ & = \frac{n-1}{n}\sigma^2. \end{aligned}
E[Sn2]=(var(Xi)+(E[Xi])2)−(var(Mn)+(E[Mn])2)=(σ2+μ2)−(nσ2+μ2)=nn−1σ2.
果然,按照我们直觉定义出来的样本方差
S
n
2
S_n^2
Sn2是不会回归到真实方差
σ
2
\sigma^2
σ2的,其存在一定的偏差,尽管在样本数
n
n
n非常大的时候能忽略这个偏差. 不过我们很容易就可以避免这个理论上的偏差,只需要在上式两边同乘系数
n
/
(
n
−
1
)
n / (n-1)
n/(n−1),等式的右边仅有
σ
2
\sigma^2
σ2,等式左边正是修改后的样本方差
S
^
n
2
\hat{S}_n^2
S^n2.
与其说是计算公式,不如说是在直觉的基础上,根据理论推敲稍作修改得到的定义. 事实上,数学的定义并非天然形成,而是经过反复的推敲和修改,才得以成形.
估计量的无偏性
若我们进一步思考,所谓样本均值 M n M_n Mn,不过是将一系列的随机变量 X 1 , X 2 , ⋯ , X n X_1, X_2, \cdots, X_n X1,X2,⋯,Xn经过简单的加和求平均得到的,即从一些已知的随机变量通过一个映射得到的一个新的随机变量,我们将这个新的随机变量称作估计量,如果其具有统计意义,也称作统计量. 对于估计量,我们当然希望它越准确越好,也就是希望估计量能回归真实值,此时我们称这样的估计量是无偏的. 下面以 M n M_n Mn简单介绍估计量的相关术语[1].
- 估计量的期望值依赖于真实的参数,即 E [ M n ] E[M_n] E[Mn](也记作 E μ [ M n ] E_\mu[M_n] Eμ[Mn])依赖于真实的 μ \mu μ.
- 若 E μ [ M n ] = μ E_\mu[M_n] = \mu Eμ[Mn]=μ对于 μ \mu μ所有可能的取值都成立,则称 M n M_n Mn无偏.
- 若 lim n → ∞ E μ [ M n ] = μ \lim_{n\to\infty}E_\mu[M_n] = \mu limn→∞Eμ[Mn]=μ对于 μ \mu μ所有可能的取值都成立,则称 M n M_n Mn渐近无偏.
显然, M n M_n Mn是无偏的,而直觉定义的 S n 2 S_n^2 Sn2是渐进无偏的,经修改后的 S ^ n 2 \hat{S}_n^2 S^n2是无偏的. 无偏并不意味着估计量在任何时候都能给出正确无误的估计,而是在大量次数使用该估计量并取平均时,能以十足的把握无限逼近被估计的量. 如果没有无偏性,则无论使用多少次该估计量,其平均也会与真实值保持一定距离——这个距离就是系统误差[2]. 由此可见将 S ^ n 2 \hat{S}_n^2 S^n2定义为样本方差是多么明智的选择.
自由度的一种解释
通过前两节的讨论,我们对分母 n − 1 n-1 n−1的来龙去脉已经非常清楚了,但这究竟是巧合还是具有一定规律的呢?或许牵扯到自由度的概念,茆诗松老先生等人在书[3]中对自由度的概念最初是这么引入的
χ 2 ( n ) \chi^2(n) χ2(n)分布中的参数 n n n就体现在: n n n是独立的标准正态变量的个数,因此人们称这个参数 n n n为自由度.
而陈希孺老先生在书[2]中证明 S ^ n 2 \hat{S}_n^2 S^n2的无偏性之后这样解释道
在这里我们还可以对“自由度”这个概念赋予另一种解释:一共有 n n n个样本,有 n n n个自由度. 用 S 2 S^2 S2估计方差 σ 2 \sigma^2 σ2,自由度本应为 n n n. 但总体均值 μ \mu μ也未知,用 M n M_n Mn去估计,用掉了一个自由度,故只剩下 n − 1 n-1 n−1个自由度.
乍一看是比较抽象的,不妨再回顾我们是如何计算样本均值和样本方差的
{
M
n
=
X
1
+
X
2
+
⋯
+
X
n
n
S
^
n
2
=
∑
i
=
1
n
(
X
i
−
M
n
)
2
n
−
1
,
\left\{\begin{aligned} M_n & = \frac{X_1 + X_2 + \cdots + X_n}{n}\\ \hat{S}_n^2 & = \frac{\sum_{i=1}^{n}(X_i - M_n)^2}{n - 1} \end{aligned}\right.,
⎩⎪⎪⎨⎪⎪⎧MnS^n2=nX1+X2+⋯+Xn=n−1∑i=1n(Xi−Mn)2,
就像解方程组一样,我们先用一系列的样本“定住”了
M
n
M_n
Mn才得以计算
S
n
2
S_n^2
Sn2,而换个角度看,这一系列的样本
X
i
(
i
=
1
,
2
,
⋯
,
n
)
X_i(i= 1, 2, \cdots, n)
Xi(i=1,2,⋯,n)也同样被
M
n
M_n
Mn给限制住了. 也就是在已知
M
n
M_n
Mn和
n
−
1
n-1
n−1个样本值的情况下,剩余的
1
1
1个样本值已经被确定了. 由此自由度衰减为
n
−
1
n-1
n−1.
那么是不是当我们已知具体的
μ
\mu
μ,就不必用这些样本估计
M
n
M_n
Mn,进而不必用
M
n
M_n
Mn计算
S
n
2
S_n^2
Sn2,最终不会丢掉这个自由度,即可以用
S
n
2
S_n^2
Sn2作为真实方差
σ
2
\sigma^2
σ2的无偏估计量呢?答案是肯定的,如下
E
[
S
n
2
]
=
E
[
∑
i
=
1
n
(
X
i
−
μ
)
2
n
]
=
E
[
∑
i
=
1
n
(
X
i
2
−
2
X
i
μ
+
μ
2
)
]
n
=
E
[
∑
i
=
1
n
X
i
2
−
2
n
M
n
μ
+
n
μ
2
]
n
=
∑
i
=
1
n
E
[
X
i
2
]
−
2
n
μ
E
[
M
n
]
+
n
μ
2
n
=
n
(
v
a
r
(
X
i
)
+
(
E
[
X
i
]
)
2
)
−
2
n
μ
2
+
n
μ
2
n
=
n
σ
2
+
n
μ
2
−
2
n
μ
2
+
n
μ
2
n
=
σ
2
.
\begin{aligned} E[S_n^2] & = E\left[\frac{\sum_{i=1}^{n}(X_i - \mu)^2}{n}\right]\\ & = \frac{E\left[\sum_{i=1}^{n}(X_i^2 - 2 X_i \mu + \mu^2)\right]}{n}\\ & = \frac{E\left[\sum_{i=1}^{n}X_i^2 - 2 n M_n \mu + n \mu^2\right]}{n}\\ & = \frac{\sum_{i=1}^{n}E[X_i^2] - 2 n \mu E[M_n] + n \mu^2}{n}\\ & = \frac{n\left(var(X_i) + \left(E[X_i]\right)^2\right) - 2 n \mu^2 + n \mu^2}{n}\\ & = \frac{n \sigma^2 + n \mu^2 - 2 n \mu^2 + n \mu^2}{n}\\ & = \sigma^2. \end{aligned}
E[Sn2]=E[n∑i=1n(Xi−μ)2]=nE[∑i=1n(Xi2−2Xiμ+μ2)]=nE[∑i=1nXi2−2nMnμ+nμ2]=n∑i=1nE[Xi2]−2nμE[Mn]+nμ2=nn(var(Xi)+(E[Xi])2)−2nμ2+nμ2=nnσ2+nμ2−2nμ2+nμ2=σ2.
故此时 S n 2 S_n^2 Sn2是一个无偏估计. 通过对自由度的理解,我们能够建立更好的数学直觉,判断出何时为 n − 1 n-1 n−1,何时为 n n n,甚至 n + 1 n+1 n+1. 尽管严谨的证明不能只依赖于数学直觉,但对我们学习更多的估计量(统计量)以及推断它们的性质是大有脾益的.
总结
我们从样本均值和样本方差的计算公式为切入点,探究其为何会如此定义,之后更一般地介绍了估计量与无偏性,明确样本方差定义之优是因为修改后的样本均值是无偏的估计量,最后从自由度的角度再次思考分母 n − 1 n-1 n−1的含义,有助于培养我们的数学直觉,更好地通过自由度理解其他复杂估计量(统计量)的系数.
参考文献
[1] [美]伯特瑟卡斯(Bertsekas, D. P.), [美]齐齐克利斯(Tsitsiklis, J. N.). 概率导论[M]. 郑忠国, 童行伟译. 北京:人民邮电出版社, 2016.
[2] 陈希孺. 概率论与数理统计[M]. 合肥:中国科学技术大学出版社, 2009.
[3] 茆诗松, 程依明, 濮晓龙. 概率论与数理统计[M]. 北京:高等教育出版社, 2019.