【fishing-pan:https://blog.csdn.net/u013921430 转载请注明出处】
相信在学习数理统计过程中,肯定很多人会下面这样的疑问
为什么样本方差是除以(n-1),而不是除以n呢?
那么今天就一起来看一下是为什么。
背景知识
为了方便后面的表述,我们用 X ˉ \bar{X} Xˉ 表示样本均值,用 S 2 S^{2} S2 表示样本方差,用 u u u 表示总体均值,用 σ 2 \sigma ^{2} σ2 表示总体方差。
总体方差
整体方差的求得过程如下;
σ
2
=
D
(
X
)
=
E
(
(
X
i
−
E
(
X
)
)
2
)
=
E
(
X
i
2
−
2
X
i
E
(
X
)
+
E
(
X
)
2
)
=
1
n
(
∑
i
=
1
n
(
X
i
2
)
−
2
∑
i
=
1
n
X
i
E
(
X
)
+
n
E
(
X
)
2
)
\begin{aligned} \sigma^{2} =D(X)&=E((X_{i}-E(X))^{2})\\ &=E(X_{i}^{2}-2X_{i}E(X)+E(X)^{2})\\ &=\frac{1}{n}(\sum_{i=1}^{n}(X_{i}^{2})-2\sum_{i=1}^{n}X_{i}E(X)+nE(X)^{2}) \end{aligned}
σ2=D(X)=E((Xi−E(X))2)=E(Xi2−2XiE(X)+E(X)2)=n1(i=1∑n(Xi2)−2i=1∑nXiE(X)+nE(X)2)
由于
∑
i
=
1
n
X
i
=
n
E
(
X
)
\sum_{i=1}^{n}X_{i}=nE(X)
∑i=1nXi=nE(X) ,所以可得;
σ
2
=
D
(
X
)
=
E
(
(
X
i
−
E
(
X
)
)
2
)
=
1
n
(
∑
i
=
1
n
(
X
i
2
)
−
n
E
(
X
)
2
)
=
E
(
X
2
)
−
E
(
X
)
2
\begin{aligned} \sigma^{2}=D(X) &=E((X_{i}-E(X))^{2})\\ &=\frac{1}{n}(\sum_{i=1}^{n}(X_{i}^{2})-nE(X)^{2})\\ &=E(X^{2})-E(X)^{2} \end{aligned}
σ2=D(X)=E((Xi−E(X))2)=n1(i=1∑n(Xi2)−nE(X)2)=E(X2)−E(X)2
样本方差
S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2} S2=n−11i=1∑n(Xi−Xˉ)2
中心极限定理
设从均值为
u
u
u,方差为
σ
2
\sigma^{2}
σ2 的一个任意总体中抽取容量为
n
n
n的样本,当n 充分大的时候,样本均值的抽样分布服从
N
(
u
,
σ
2
/
n
)
N(u,\sigma^{2}/n)
N(u,σ2/n) 的分布,即;
E
(
X
ˉ
)
=
u
D
(
X
ˉ
)
=
σ
2
/
n
\begin{aligned} E(\bar{X})&=u\\ D(\bar{X})&=\sigma ^{2}/n \end{aligned}
E(Xˉ)D(Xˉ)=u=σ2/n
无偏估计
如果
θ
^
\hat{\theta }
θ^ 的期望等于
θ
\theta
θ ,则称
θ
^
\hat{\theta }
θ^ 是
θ
\theta
θ 的无偏估计量,即
E
(
θ
^
)
=
θ
E(\hat{\theta })=\theta
E(θ^)=θ
例如样本均值
X
ˉ
\bar{X}
Xˉ 是总体均值的无偏估计。
E
(
X
ˉ
)
=
1
n
∑
i
=
1
n
E
(
X
i
)
=
E
(
X
)
=
u
E(\bar{X})=\frac{1}{n}\sum_{i=1}^{n}E(X_{i})=E(X)=u
E(Xˉ)=n1i=1∑nE(Xi)=E(X)=u
所有的前期准备工作就此结束了。
判断 S 2 S^{2} S2是否是 σ 2 \sigma ^{2} σ2的无偏估计
先假设
S
~
2
=
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
\tilde{S}^{2}=\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}
S~2=n1∑i=1n(Xi−Xˉ)2;那么求
E
(
S
~
2
)
E(\tilde{S}^{2})
E(S~2) ;
E
(
S
~
2
)
=
E
(
1
n
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
)
=
E
(
1
n
(
∑
i
=
1
n
X
i
2
−
n
X
ˉ
2
)
)
=
1
n
(
n
E
(
X
2
)
−
n
E
(
X
ˉ
2
)
)
\begin{aligned} E(\tilde{S}^{2})&=E(\frac{1}{n}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2})\\ &=E(\frac{1}{n}(\sum_{i=1}^{n}X_{i}^{2}-n\bar{X}^{2}))\\ &=\frac{1}{n}(nE(X^{2})-nE(\bar{X}^{2}))\\ \end{aligned}
E(S~2)=E(n1i=1∑n(Xi−Xˉ)2)=E(n1(i=1∑nXi2−nXˉ2))=n1(nE(X2)−nE(Xˉ2))
由于
σ
2
=
D
(
X
)
=
E
(
X
2
)
−
E
(
X
)
2
\sigma^{2}=D(X)=E(X^{2})-E(X)^{2}
σ2=D(X)=E(X2)−E(X)2 ,且样本均值服从
N
(
u
,
σ
2
/
n
)
N(u,\sigma^{2}/n)
N(u,σ2/n) 的分布所以;
E
(
S
~
2
)
=
E
(
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
)
=
E
(
1
n
(
∑
i
=
1
n
X
i
2
−
n
X
ˉ
2
)
)
=
1
n
(
n
E
(
X
2
)
−
n
E
(
X
ˉ
2
)
)
=
1
n
(
n
(
σ
2
+
u
2
)
−
n
(
D
(
X
ˉ
)
+
u
2
)
)
=
1
n
(
n
σ
2
+
n
u
2
−
σ
2
−
n
u
2
)
=
n
−
1
n
σ
2
\begin{aligned} E(\tilde{S}^{2})&=E(\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2})\\ &=E(\frac{1}{n}(\sum_{i=1}^{n}X_{i}^{2}-n\bar{X}^{2}))\\ &=\frac{1}{n}(nE(X^{2})-nE(\bar{X}^{2}))\\ &=\frac{1}{n}(n(\sigma ^{2}+u^{2})-n(D(\bar{X})+u^{2}))\\ &=\frac{1}{n}(n\sigma ^{2}+nu^{2}-\sigma ^{2}-nu^{2})\\ &=\frac{n-1}{n}\sigma ^{2} \end{aligned}
E(S~2)=E(n−11i=1∑n(Xi−Xˉ)2)=E(n1(i=1∑nXi2−nXˉ2))=n1(nE(X2)−nE(Xˉ2))=n1(n(σ2+u2)−n(D(Xˉ)+u2))=n1(nσ2+nu2−σ2−nu2)=nn−1σ2
所以,如果
S
~
2
\tilde{S}^{2}
S~2 除以
n
n
n的话,
S
~
2
\tilde{S}^{2}
S~2 不是
σ
2
\sigma ^{2}
σ2 的无偏估计量,进而对其进行修正。令
S
2
=
n
n
−
1
S
~
2
=
1
n
−
1
∑
i
=
1
n
(
X
i
−
X
ˉ
)
2
=
σ
2
S^{2}=\frac{n}{n-1}\tilde{S}^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}=\sigma^{2}
S2=n−1nS~2=n−11i=1∑n(Xi−Xˉ)2=σ2
从而使
S
2
S^{2}
S2 成为了
σ
2
\sigma ^{2}
σ2 的无偏估计量。这就是为什么样本方差除以的是(n-1)的原因,在实际运用中,可以用同一总体的不同样本的方差的均值来近似估计总体方差。而
S
~
2
\tilde{S}^{2}
S~2 是总体方差的渐进无偏估计量。
E ( S ~ 2 ) = ( n − 1 n σ 2 ) → σ 2 n → ∞ E(\tilde{S}^{2})=(\frac{n-1}{n}\sigma ^{2})\underset{n \to \infty }{\rightarrow\sigma ^{2}} E(S~2)=(nn−1σ2)n→∞→σ2
已完。。