上接物理实验引发的思考:总体标准偏差和样本标准偏差的区别是什么?标准偏差和标准误的区别是什么?,现在系统地学了概率论与数理统计,有了新的理解。
首先我们再回顾一些概念。设总体为 X X X,样本为 X 1 , X 2 , ⋯ , X n X_1,X_2,\cdots,X_n X1,X2,⋯,Xn,这些样本相互独立且与 X X X同分布。定义样本均值 X ˉ = ∑ i = 1 n X i n \bar{X}=\frac{\sum\limits_{i=1}^n X_i}{n} Xˉ=ni=1∑nXi,样本方差 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 = 1 n − 1 ( ∑ i = 1 n X i 2 − n X ˉ 2 ) S^2=\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\bar{X})^2=\frac{1}{n-1}\left(\sum\limits_{i=1}^nX_i^2-n\bar{X}^2\right) S2=n−11i=1∑n(Xi−Xˉ)2=n−11(i=1∑nXi2−nXˉ2),样本标准差 S = S 2 S=\sqrt{S^2} S=S2。为什么要除以 n − 1 n-1 n−1呢?我有两种思考方式。
第一种,想一个极端一点的情况。假如 n = 1 n=1 n=1,即只有一个样本的时候会发生什么呢?如果分母是 n − 1 n-1 n−1,那么因为 1 n − 1 \frac{1}{n-1} n−11不存在,所以样本方差也不存在,这与我们的认识是相符的——只有一个点不能反映样本分布的离散程度。但如果分母是 n n n会怎么样呢?此时样本方差应该为 1 1 ( X 1 − X ˉ ) 2 = ( X 1 − X 1 ) 2 = 0 \frac{1}{1}(X_1-\bar{X})^2=(X_1-X_1)^2=0 11(X1−Xˉ)2=(X1−X1)2=0。这显然是不对的,方差为 0 0 0说明这个随机变量只能取一个值,而只有一个样本并不能证明这一点。显然,当 n = 1 n=1 n=1的时候,我们希望方差不存在,所以分母取 n − 1 n-1 n−1是合情合理的。
第二种,我们考虑一下无偏性的定义。我们算样本方差
S
2
S^2
S2,最终目的是要估计总体方差
σ
2
\sigma^2
σ2,根据无偏性的定义,应该要求
E
(
S
2
)
=
σ
2
E(S^2)=\sigma^2
E(S2)=σ2,即要求
S
2
S^2
S2的期望是
σ
2
\sigma^2
σ2。假设
S
2
=
1
C
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
=
1
C
(
∑
i
=
1
n
X
i
2
−
n
X
ˉ
2
)
S^2=\frac{1}{C}\sum\limits_{i=1}^n(X_i-\bar{X})^2=\frac{1}{C}\left(\sum\limits_{i=1}^nX_i^2-n\bar{X}^2\right)
S2=C1i=1∑n(Xi−Xˉ)2=C1(i=1∑nXi2−nXˉ2),我们将证明:当
E
(
S
2
)
=
σ
2
E(S^2)=\sigma^2
E(S2)=σ2时,有
C
=
n
−
1
C=n-1
C=n−1。
E
(
S
2
)
=
E
[
1
C
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
]
=
1
C
E
[
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
]
=
n
C
E
[
(
X
i
−
X
ˉ
)
2
]
\begin{aligned} E(S^2)&=E\left[\frac{1}{C}\sum\limits_{i=1}^n(X_i-\bar{X})^2\right]\\ &=\frac{1}{C}E\left[\sum\limits_{i=1}^n(X_i-\bar{X})^2\right]\\ &=\frac{n}{C}E\left[(X_i-\bar{X})^2\right] \end{aligned}
E(S2)=E[C1i=1∑n(Xi−Xˉ)2]=C1E[i=1∑n(Xi−Xˉ)2]=CnE[(Xi−Xˉ)2]
其中
i
i
i可以是
1
,
2
,
⋯
,
n
1,2,\cdots,n
1,2,⋯,n中的任意一个数(反正都一样)。
那么
E
[
(
X
i
−
X
)
2
]
E\left[(X_i-X)^2\right]
E[(Xi−X)2]等于多少呢?我们知道,随机变量
Z
Z
Z的方差
D
(
Z
)
=
E
(
Z
2
)
−
[
E
(
Z
)
]
2
D(Z)=E(Z^2)-[E(Z)]^2
D(Z)=E(Z2)−[E(Z)]2,因此
E
[
(
X
i
−
X
ˉ
)
2
]
=
D
(
X
i
−
X
ˉ
)
+
[
E
(
X
i
−
X
ˉ
)
]
2
E\left[(X_i-\bar{X})^2\right]=D(X_i-\bar{X})+[E(X_i-\bar{X})]^2
E[(Xi−Xˉ)2]=D(Xi−Xˉ)+[E(Xi−Xˉ)]2。其中
E
(
X
i
−
X
ˉ
)
=
0
E(X_i-\bar{X})=0
E(Xi−Xˉ)=0,所以就变成了
E
[
(
X
i
−
X
ˉ
)
2
]
=
D
(
X
i
−
X
ˉ
)
E\left[(X_i-\bar{X})^2\right]=D(X_i-\bar{X})
E[(Xi−Xˉ)2]=D(Xi−Xˉ)。
而我们又知道
D
(
A
−
B
)
=
D
(
A
)
+
D
(
B
)
−
2
Cov
(
A
,
B
)
D(A-B)=D(A)+D(B)-2\text{Cov}(A,B)
D(A−B)=D(A)+D(B)−2Cov(A,B),其中
Cov
(
A
,
B
)
\text{Cov}(A,B)
Cov(A,B)表示
A
A
A和
B
B
B的协方差。那么
D
(
X
i
−
X
ˉ
)
=
D
(
X
i
)
+
D
(
X
ˉ
)
−
2
Cov
(
X
i
,
X
ˉ
)
D(X_i-\bar{X})=D(X_i)+D(\bar{X})-2\text{Cov}(X_i,\bar{X})
D(Xi−Xˉ)=D(Xi)+D(Xˉ)−2Cov(Xi,Xˉ)而
D
(
X
i
)
=
σ
2
D(X_i)=\sigma^2
D(Xi)=σ2,
D
(
X
ˉ
)
=
D
[
1
n
∑
i
=
1
n
X
i
]
=
1
n
2
n
D
(
X
i
)
=
σ
2
n
D(\bar{X})=D\left[\frac{1}{n}\sum\limits_{i=1}^nX_i\right]=\frac{1}{n^2}nD(X_i)=\frac{\sigma^2}{n}
D(Xˉ)=D[n1i=1∑nXi]=n21nD(Xi)=nσ2,现在就是要求
Cov
(
X
i
,
X
ˉ
)
\text{Cov}(X_i,\bar{X})
Cov(Xi,Xˉ)。
设总体的均值为
E
(
X
)
=
μ
E(X)=\mu
E(X)=μ,则
Cov
(
X
i
,
X
ˉ
)
=
E
(
X
i
X
ˉ
)
−
E
(
X
i
)
E
(
X
ˉ
)
=
E
[
1
n
∑
j
=
1
n
X
j
X
i
]
−
μ
2
=
1
n
[
∑
j
=
1
j
≠
i
n
E
(
X
j
X
i
)
+
E
(
X
i
2
)
]
−
μ
2
\begin{aligned} \text{Cov}(X_i,\bar{X})&=E(X_i\bar{X})-E(X_i)E(\bar{X})\\ &=E\left[\frac{1}{n}\sum\limits_{j=1}^nX_jX_i\right]-\mu^2\\ &=\frac{1}{n}\left[\sum\limits_{\underset{j\ne i}{j=1}}^nE(X_jX_i)+E(X_i^2)\right]-\mu^2 \end{aligned}
Cov(Xi,Xˉ)=E(XiXˉ)−E(Xi)E(Xˉ)=E[n1j=1∑nXjXi]−μ2=n1⎣⎢⎡j=ij=1∑nE(XjXi)+E(Xi2)⎦⎥⎤−μ2当
j
≠
i
j\ne i
j=i时,
E
(
X
j
X
i
)
=
E
(
X
j
)
E
(
X
i
)
=
μ
2
E(X_jX_i)=E(X_j)E(X_i)=\mu^2
E(XjXi)=E(Xj)E(Xi)=μ2,而
E
(
X
i
2
)
=
D
(
X
i
)
+
[
E
(
X
i
)
]
2
=
σ
2
+
μ
2
E(X_i^2)=D(X_i)+[E(X_i)]^2=\sigma^2+\mu^2
E(Xi2)=D(Xi)+[E(Xi)]2=σ2+μ2,故
Cov
(
X
i
,
X
ˉ
)
=
1
n
[
(
n
−
1
)
μ
2
+
σ
2
+
μ
2
]
−
μ
2
=
σ
2
n
\begin{aligned} \text{Cov}(X_i,\bar{X}) &=\frac{1}{n}\left[(n-1)\mu^2+\sigma^2+\mu^2\right]-\mu^2\\ &=\frac{\sigma^2}{n} \end{aligned}
Cov(Xi,Xˉ)=n1[(n−1)μ2+σ2+μ2]−μ2=nσ2因此
D
(
X
i
−
X
ˉ
)
=
D
(
X
i
)
+
D
(
X
ˉ
)
−
2
Cov
(
X
i
,
X
ˉ
)
=
n
−
1
n
σ
2
D(X_i-\bar{X})=D(X_i)+D(\bar{X})-2\text{Cov}(X_i,\bar{X})=\frac{n-1}{n}\sigma^2
D(Xi−Xˉ)=D(Xi)+D(Xˉ)−2Cov(Xi,Xˉ)=nn−1σ2令
E
(
S
2
)
=
σ
2
E(S^2)=\sigma^2
E(S2)=σ2,即
n
C
D
(
X
i
−
X
ˉ
)
=
σ
2
\frac{n}{C}D(X_i-\bar{X})=\sigma^2
CnD(Xi−Xˉ)=σ2,得
C
=
n
−
1
C=n-1
C=n−1。
从上面的推导中,我们观察出:导致
n
−
1
n-1
n−1出现的原因是
Cov
(
X
i
,
X
ˉ
)
\text{Cov}(X_i,\bar{X})
Cov(Xi,Xˉ)不为
0
0
0。这很好理解:
X
ˉ
\bar{X}
Xˉ的一部分就是
X
i
X_i
Xi,二者是有相关性的。试想一下,如果
X
i
X_i
Xi减的不是
X
ˉ
\bar{X}
Xˉ,而是
μ
\mu
μ,那么就不用减去协方差了,最后就得到
C
=
n
C=n
C=n。
综上,分母是
n
−
1
n-1
n−1而不是
n
n
n的原因是:我们无法获知总体均值
μ
\mu
μ,只能使用样本均值
X
ˉ
\bar{X}
Xˉ代替,而样本均值本身就是由各个
X
i
X_i
Xi组成的,
X
i
X_i
Xi围绕
X
ˉ
\bar{X}
Xˉ的离散程度会比围绕
μ
\mu
μ小一些,所以如果分母是
n
n
n就低估了方差值,应该变成
n
−
1
n-1
n−1从而使方差大一些。
其实在算 E ( S 2 ) E(S^2) E(S2)有更简单的方法——利用 S 2 = 1 C ( ∑ i = 1 n X i 2 − n X ˉ 2 ) S^2=\frac{1}{C}\left(\sum\limits_{i=1}^nX_i^2-n\bar{X}^2\right) S2=C1(i=1∑nXi2−nXˉ2)计算,但不直观,所以我们采用了更能反映问题本质的方法。