为什么样本方差的分母是n-1?
最简单的解释,因为计算均值已经用了n个数的平均来做估计,因此在求方差时,只有n-1个数和均值信息是不相关的。第n个数可以由前n-1个数和均值唯一确定,实际上没有包含新的可用信息。因此在计算方差时,要除以n-1,而非n。
更严格的证明如下。
设总体的均值为
μ
\mu
μ,标准差为
σ
\sigma
σ,均是未知的。对于独立同分布的n个样本
x
1
,
x
2
,
.
.
.
,
x
n
x_1,x_2,...,x_n
x1,x2,...,xn,根据均值和方差的定义,我们有:
E
(
x
i
)
=
μ
,
∀
i
=
1
,
.
.
.
,
n
E
[
(
x
i
−
μ
)
2
]
=
V
a
r
(
x
i
)
=
σ
2
,
∀
i
=
1
,
.
.
.
,
n
\begin{align} &E(x_i)=\mu,~\forall i=1,...,n \\ &E\left[(x_i-\mu)^2\right]=Var(x_i)=\sigma^2,~\forall i=1,...,n \end{align}
E(xi)=μ, ∀i=1,...,nE[(xi−μ)2]=Var(xi)=σ2, ∀i=1,...,n
为了估计总体的均值和方差,定义如下两个统计量:
- 样本均值
x ˉ = 1 n ∑ i = 1 n x i \bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i xˉ=n1i=1∑nxi
- 样本方差:
S 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 S^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2 S2=n−11i=1∑n(xi−xˉ)2
样本均值和方差均是统计量,也是随机变量。样本方差表示样本中变量到样本均值的平均距离。
对于样本均值 x ˉ \bar{x} xˉ,其期望满足:
E ( x ˉ ) = E ( 1 n ∑ i = 1 n x i ) = μ E(\bar{x})=E(\frac{1}{n}\sum_{i=1}^{n}x_i)=\mu E(xˉ)=E(n1∑i=1nxi)=μ
样本均值的期望等于总体均值,因而是一个无偏估计,其方差:
V
a
r
(
x
ˉ
)
=
E
(
x
ˉ
−
μ
)
2
=
V
a
r
(
1
n
∑
i
=
1
n
x
i
)
=
1
n
2
∑
i
=
1
n
V
a
r
(
x
i
)
=
σ
2
n
\begin{align} Var(\bar{x})&=E(\bar{x}-\mu)^2=Var( \frac{1}{n}\sum_{i=1}^{n}x_i) \\ &=\frac{1}{n^2}\sum_{i=1}^{n}Var(x_i) \\ &=\frac{\sigma^2}{n} \end{align}
Var(xˉ)=E(xˉ−μ)2=Var(n1i=1∑nxi)=n21i=1∑nVar(xi)=nσ2
可见,对样本均值估计的方差随着样本数的增加而减小,样本越多,样本均值越是集中在总体均值附近。
现在再看样本的方差,假设前面系数的分母是n-1,而不是n,则有:
1
n
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
=
1
n
∑
i
=
1
n
(
x
i
−
μ
+
μ
−
x
ˉ
)
2
=
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
+
2
n
∑
i
=
1
n
(
x
i
−
μ
)
(
μ
−
x
ˉ
)
+
1
n
∑
i
=
1
n
(
μ
−
x
ˉ
)
2
=
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
−
(
μ
−
x
ˉ
)
2
\begin{align} &\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 \\ &=\frac{1}{n}\sum_{i=1}^{n}\large(x_i-\mu+\mu-\bar{x})^2 \\ &=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2+\frac{2}{n}\sum_{i=1}^{n}(x_i-\mu)(\mu-\bar{x})+\frac{1}{n}\sum_{i=1}^{n}(\mu-\bar{x})^2 \\ &=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2-(\mu-\bar{x})^2 \end{align}
n1i=1∑n(xi−xˉ)2=n1i=1∑n(xi−μ+μ−xˉ)2=n1i=1∑n(xi−μ)2+n2i=1∑n(xi−μ)(μ−xˉ)+n1i=1∑n(μ−xˉ)2=n1i=1∑n(xi−μ)2−(μ−xˉ)2
它的期望为:
E
[
1
n
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
]
=
E
[
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
]
−
E
[
(
μ
−
x
ˉ
)
2
]
=
σ
2
−
1
n
σ
2
=
n
−
1
n
σ
2
\begin{align} &E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\right] \\ &=E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2\right]-E\left[(\mu-\bar{x})^2\right] \\ &=\sigma^2-\frac{1}{n}\sigma^2 \\ &=\frac{n-1}{n}\sigma^2 \end{align}
E[n1i=1∑n(xi−xˉ)2]=E[n1i=1∑n(xi−μ)2]−E[(μ−xˉ)2]=σ2−n1σ2=nn−1σ2
可见,分母为n时,样本方差总是比总体方差要小,由于低估了方差,因此需要将其放大一点,:
E
(
S
2
)
=
n
n
−
1
E
[
1
n
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
]
=
σ
2
\begin{align} &E(S^2)=\frac{n}{n-1}E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\right] \\ &=\sigma^2 \end{align}
E(S2)=n−1nE[n1i=1∑n(xi−xˉ)2]=σ2
乘以放大系数
n
n
−
1
\frac{n}{n-1}
n−1n,样本方差公式里系数的分母变成n-1,此时对总体方差的估计就是无偏的。
可以看到,样本方差等于总体方差减去样本均值的方差,如果用样本均值估计总体均值,对总体方差的估计是有偏差的,偏差就是样本均值的方差。随着样本总量n的增加,样本方差S会越来越接近总体方差 σ \sigma σ。当n很大时,用n或者n-1差别并不大,两者最终都会收敛到真实的总体方差。
需要注意的是,这里假设总体的均值和方差均是未知的。如果总体均值已知,即
x
ˉ
=
μ
\bar{x}=\mu
xˉ=μ,则有:
E
[
1
n
∑
i
=
1
n
(
x
i
−
x
ˉ
)
2
]
=
E
[
1
n
∑
i
=
1
n
(
x
i
−
μ
)
2
]
=
σ
2
\begin{align} &E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\right] =E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2\right]=\sigma^2 \end{align}
E[n1i=1∑n(xi−xˉ)2]=E[n1i=1∑n(xi−μ)2]=σ2
这是一个无偏估计。此时,计算样本方差的分母就是n,而不再是n-1,符合我们的直觉。