【概率论】关于为什么样本标准偏差分母是n-1的进一步理解

上接物理实验引发的思考:总体标准偏差和样本标准偏差的区别是什么?标准偏差和标准误的区别是什么?,现在系统地学了概率论与数理统计,有了新的理解。


首先我们再回顾一些概念。设总体为 X X X,样本为 X 1 , X 2 , ⋯   , X n X_1,X_2,\cdots,X_n X1,X2,,Xn,这些样本相互独立且与 X X X同分布。定义样本均值 X ˉ = ∑ i = 1 n X i n \bar{X}=\frac{\sum\limits_{i=1}^n X_i}{n} Xˉ=ni=1nXi,样本方差 S 2 = 1 n − 1 ∑ i = 1 n ( X i − X ˉ ) 2 = 1 n − 1 ( ∑ i = 1 n X i 2 − n X ˉ 2 ) S^2=\frac{1}{n-1}\sum\limits_{i=1}^n(X_i-\bar{X})^2=\frac{1}{n-1}\left(\sum\limits_{i=1}^nX_i^2-n\bar{X}^2\right) S2=n11i=1n(XiXˉ)2=n11(i=1nXi2nXˉ2),样本标准差 S = S 2 S=\sqrt{S^2} S=S2 。为什么要除以 n − 1 n-1 n1呢?我有两种思考方式。

第一种,想一个极端一点的情况。假如 n = 1 n=1 n=1,即只有一个样本的时候会发生什么呢?如果分母是 n − 1 n-1 n1,那么因为 1 n − 1 \frac{1}{n-1} n11不存在,所以样本方差也不存在,这与我们的认识是相符的——只有一个点不能反映样本分布的离散程度。但如果分母是 n n n会怎么样呢?此时样本方差应该为 1 1 ( X 1 − X ˉ ) 2 = ( X 1 − X 1 ) 2 = 0 \frac{1}{1}(X_1-\bar{X})^2=(X_1-X_1)^2=0 11(X1Xˉ)2=(X1X1)2=0。这显然是不对的,方差为 0 0 0说明这个随机变量只能取一个值,而只有一个样本并不能证明这一点。显然,当 n = 1 n=1 n=1的时候,我们希望方差不存在,所以分母取 n − 1 n-1 n1是合情合理的。

第二种,我们考虑一下无偏性的定义。我们算样本方差 S 2 S^2 S2,最终目的是要估计总体方差 σ 2 \sigma^2 σ2,根据无偏性的定义,应该要求 E ( S 2 ) = σ 2 E(S^2)=\sigma^2 E(S2)=σ2,即要求 S 2 S^2 S2的期望是 σ 2 \sigma^2 σ2。假设 S 2 = 1 C ∑ i = 1 n ( X i − X ˉ ) 2 = 1 C ( ∑ i = 1 n X i 2 − n X ˉ 2 ) S^2=\frac{1}{C}\sum\limits_{i=1}^n(X_i-\bar{X})^2=\frac{1}{C}\left(\sum\limits_{i=1}^nX_i^2-n\bar{X}^2\right) S2=C1i=1n(XiXˉ)2=C1(i=1nXi2nXˉ2),我们将证明:当 E ( S 2 ) = σ 2 E(S^2)=\sigma^2 E(S2)=σ2时,有 C = n − 1 C=n-1 C=n1
E ( S 2 ) = E [ 1 C ∑ i = 1 n ( X i − X ˉ ) 2 ] = 1 C E [ ∑ i = 1 n ( X i − X ˉ ) 2 ] = n C E [ ( X i − X ˉ ) 2 ] \begin{aligned} E(S^2)&=E\left[\frac{1}{C}\sum\limits_{i=1}^n(X_i-\bar{X})^2\right]\\ &=\frac{1}{C}E\left[\sum\limits_{i=1}^n(X_i-\bar{X})^2\right]\\ &=\frac{n}{C}E\left[(X_i-\bar{X})^2\right] \end{aligned} E(S2)=E[C1i=1n(XiXˉ)2]=C1E[i=1n(XiXˉ)2]=CnE[(XiXˉ)2]
其中 i i i可以是 1 , 2 , ⋯   , n 1,2,\cdots,n 1,2,,n中的任意一个数(反正都一样)。
那么 E [ ( X i − X ) 2 ] E\left[(X_i-X)^2\right] E[(XiX)2]等于多少呢?我们知道,随机变量 Z Z Z的方差 D ( Z ) = E ( Z 2 ) − [ E ( Z ) ] 2 D(Z)=E(Z^2)-[E(Z)]^2 D(Z)=E(Z2)[E(Z)]2,因此 E [ ( X i − X ˉ ) 2 ] = D ( X i − X ˉ ) + [ E ( X i − X ˉ ) ] 2 E\left[(X_i-\bar{X})^2\right]=D(X_i-\bar{X})+[E(X_i-\bar{X})]^2 E[(XiXˉ)2]=D(XiXˉ)+[E(XiXˉ)]2。其中 E ( X i − X ˉ ) = 0 E(X_i-\bar{X})=0 E(XiXˉ)=0,所以就变成了 E [ ( X i − X ˉ ) 2 ] = D ( X i − X ˉ ) E\left[(X_i-\bar{X})^2\right]=D(X_i-\bar{X}) E[(XiXˉ)2]=D(XiXˉ)
而我们又知道 D ( A − B ) = D ( A ) + D ( B ) − 2 Cov ( A , B ) D(A-B)=D(A)+D(B)-2\text{Cov}(A,B) D(AB)=D(A)+D(B)2Cov(A,B),其中 Cov ( A , B ) \text{Cov}(A,B) Cov(A,B)表示 A A A B B B的协方差。那么 D ( X i − X ˉ ) = D ( X i ) + D ( X ˉ ) − 2 Cov ( X i , X ˉ ) D(X_i-\bar{X})=D(X_i)+D(\bar{X})-2\text{Cov}(X_i,\bar{X}) D(XiXˉ)=D(Xi)+D(Xˉ)2Cov(Xi,Xˉ) D ( X i ) = σ 2 D(X_i)=\sigma^2 D(Xi)=σ2 D ( X ˉ ) = D [ 1 n ∑ i = 1 n X i ] = 1 n 2 n D ( X i ) = σ 2 n D(\bar{X})=D\left[\frac{1}{n}\sum\limits_{i=1}^nX_i\right]=\frac{1}{n^2}nD(X_i)=\frac{\sigma^2}{n} D(Xˉ)=D[n1i=1nXi]=n21nD(Xi)=nσ2,现在就是要求 Cov ( X i , X ˉ ) \text{Cov}(X_i,\bar{X}) Cov(Xi,Xˉ)
设总体的均值为 E ( X ) = μ E(X)=\mu E(X)=μ,则 Cov ( X i , X ˉ ) = E ( X i X ˉ ) − E ( X i ) E ( X ˉ ) = E [ 1 n ∑ j = 1 n X j X i ] − μ 2 = 1 n [ ∑ j = 1 j ≠ i n E ( X j X i ) + E ( X i 2 ) ] − μ 2 \begin{aligned} \text{Cov}(X_i,\bar{X})&=E(X_i\bar{X})-E(X_i)E(\bar{X})\\ &=E\left[\frac{1}{n}\sum\limits_{j=1}^nX_jX_i\right]-\mu^2\\ &=\frac{1}{n}\left[\sum\limits_{\underset{j\ne i}{j=1}}^nE(X_jX_i)+E(X_i^2)\right]-\mu^2 \end{aligned} Cov(Xi,Xˉ)=E(XiXˉ)E(Xi)E(Xˉ)=E[n1j=1nXjXi]μ2=n1j=ij=1nE(XjXi)+E(Xi2)μ2 j ≠ i j\ne i j=i时, E ( X j X i ) = E ( X j ) E ( X i ) = μ 2 E(X_jX_i)=E(X_j)E(X_i)=\mu^2 E(XjXi)=E(Xj)E(Xi)=μ2,而 E ( X i 2 ) = D ( X i ) + [ E ( X i ) ] 2 = σ 2 + μ 2 E(X_i^2)=D(X_i)+[E(X_i)]^2=\sigma^2+\mu^2 E(Xi2)=D(Xi)+[E(Xi)]2=σ2+μ2,故 Cov ( X i , X ˉ ) = 1 n [ ( n − 1 ) μ 2 + σ 2 + μ 2 ] − μ 2 = σ 2 n \begin{aligned} \text{Cov}(X_i,\bar{X}) &=\frac{1}{n}\left[(n-1)\mu^2+\sigma^2+\mu^2\right]-\mu^2\\ &=\frac{\sigma^2}{n} \end{aligned} Cov(Xi,Xˉ)=n1[(n1)μ2+σ2+μ2]μ2=nσ2因此 D ( X i − X ˉ ) = D ( X i ) + D ( X ˉ ) − 2 Cov ( X i , X ˉ ) = n − 1 n σ 2 D(X_i-\bar{X})=D(X_i)+D(\bar{X})-2\text{Cov}(X_i,\bar{X})=\frac{n-1}{n}\sigma^2 D(XiXˉ)=D(Xi)+D(Xˉ)2Cov(Xi,Xˉ)=nn1σ2 E ( S 2 ) = σ 2 E(S^2)=\sigma^2 E(S2)=σ2,即 n C D ( X i − X ˉ ) = σ 2 \frac{n}{C}D(X_i-\bar{X})=\sigma^2 CnD(XiXˉ)=σ2,得 C = n − 1 C=n-1 C=n1
从上面的推导中,我们观察出:导致 n − 1 n-1 n1出现的原因是 Cov ( X i , X ˉ ) \text{Cov}(X_i,\bar{X}) Cov(Xi,Xˉ)不为 0 0 0。这很好理解: X ˉ \bar{X} Xˉ的一部分就是 X i X_i Xi,二者是有相关性的。试想一下,如果 X i X_i Xi减的不是 X ˉ \bar{X} Xˉ,而是 μ \mu μ,那么就不用减去协方差了,最后就得到 C = n C=n C=n
综上,分母是 n − 1 n-1 n1而不是 n n n的原因是:我们无法获知总体均值 μ \mu μ,只能使用样本均值 X ˉ \bar{X} Xˉ代替,而样本均值本身就是由各个 X i X_i Xi组成的, X i X_i Xi围绕 X ˉ \bar{X} Xˉ的离散程度会比围绕 μ \mu μ小一些,所以如果分母是 n n n就低估了方差值,应该变成 n − 1 n-1 n1从而使方差大一些。


其实在算 E ( S 2 ) E(S^2) E(S2)有更简单的方法——利用 S 2 = 1 C ( ∑ i = 1 n X i 2 − n X ˉ 2 ) S^2=\frac{1}{C}\left(\sum\limits_{i=1}^nX_i^2-n\bar{X}^2\right) S2=C1(i=1nXi2nXˉ2)计算,但不直观,所以我们采用了更能反映问题本质的方法。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值