为什么样本方差的分母是n-1

文章解释了为何样本方差的分母采用n-1,而不是n,是因为样本均值的计算已使用n个数,第n个数可由前n-1个数确定,导致n-1个独立观测值决定方差。随着样本量增大,样本方差趋近于总体方差,n-1确保了无偏估计。
摘要由CSDN通过智能技术生成

为什么样本方差的分母是n-1?

最简单的解释,因为计算均值已经用了n个数的平均来做估计,因此在求方差时,只有n-1个数和均值信息是不相关的。第n个数可以由前n-1个数和均值唯一确定,实际上没有包含新的可用信息。因此在计算方差时,要除以n-1,而非n。

更严格的证明如下。

设总体的均值为 μ \mu μ,标准差为 σ \sigma σ,均是未知的。对于独立同分布的n个样本 x 1 , x 2 , . . . , x n x_1,x_2,...,x_n x1,x2,...,xn,根据均值和方差的定义,我们有:
E ( x i ) = μ ,   ∀ i = 1 , . . . , n E [ ( x i − μ ) 2 ] = V a r ( x i ) = σ 2 ,   ∀ i = 1 , . . . , n \begin{align} &E(x_i)=\mu,~\forall i=1,...,n \\ &E\left[(x_i-\mu)^2\right]=Var(x_i)=\sigma^2,~\forall i=1,...,n \end{align} E(xi)=μ, i=1,...,nE[(xiμ)2]=Var(xi)=σ2, i=1,...,n
为了估计总体的均值和方差,定义如下两个统计量:

  1. 样本均值

x ˉ = 1 n ∑ i = 1 n x i \bar{x}=\frac{1}{n}\sum_{i=1}^{n}x_i xˉ=n1i=1nxi

  1. 样本方差:

S 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 S^2=\frac{1}{n-1}\sum_{i=1}^{n}(x_i-\bar{x})^2 S2=n11i=1n(xixˉ)2

样本均值和方差均是统计量,也是随机变量。样本方差表示样本中变量到样本均值的平均距离。

对于样本均值 x ˉ \bar{x} xˉ,其期望满足:

E ( x ˉ ) = E ( 1 n ∑ i = 1 n x i ) = μ E(\bar{x})=E(\frac{1}{n}\sum_{i=1}^{n}x_i)=\mu E(xˉ)=E(n1i=1nxi)=μ

样本均值的期望等于总体均值,因而是一个无偏估计,其方差:
V a r ( x ˉ ) = E ( x ˉ − μ ) 2 = V a r ( 1 n ∑ i = 1 n x i ) = 1 n 2 ∑ i = 1 n V a r ( x i ) = σ 2 n \begin{align} Var(\bar{x})&=E(\bar{x}-\mu)^2=Var( \frac{1}{n}\sum_{i=1}^{n}x_i) \\ &=\frac{1}{n^2}\sum_{i=1}^{n}Var(x_i) \\ &=\frac{\sigma^2}{n} \end{align} Var(xˉ)=E(xˉμ)2=Var(n1i=1nxi)=n21i=1nVar(xi)=nσ2
可见,对样本均值估计的方差随着样本数的增加而减小,样本越多,样本均值越是集中在总体均值附近。

现在再看样本的方差,假设前面系数的分母是n-1,而不是n,则有:
1 n ∑ i = 1 n ( x i − x ˉ ) 2 = 1 n ∑ i = 1 n ( x i − μ + μ − x ˉ ) 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 + 2 n ∑ i = 1 n ( x i − μ ) ( μ − x ˉ ) + 1 n ∑ i = 1 n ( μ − x ˉ ) 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 − ( μ − x ˉ ) 2 \begin{align} &\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2 \\ &=\frac{1}{n}\sum_{i=1}^{n}\large(x_i-\mu+\mu-\bar{x})^2 \\ &=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2+\frac{2}{n}\sum_{i=1}^{n}(x_i-\mu)(\mu-\bar{x})+\frac{1}{n}\sum_{i=1}^{n}(\mu-\bar{x})^2 \\ &=\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2-(\mu-\bar{x})^2 \end{align} n1i=1n(xixˉ)2=n1i=1n(xiμ+μxˉ)2=n1i=1n(xiμ)2+n2i=1n(xiμ)(μxˉ)+n1i=1n(μxˉ)2=n1i=1n(xiμ)2(μxˉ)2
它的期望为:
E [ 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ] = E [ 1 n ∑ i = 1 n ( x i − μ ) 2 ] − E [ ( μ − x ˉ ) 2 ] = σ 2 − 1 n σ 2 = n − 1 n σ 2 \begin{align} &E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\right] \\ &=E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2\right]-E\left[(\mu-\bar{x})^2\right] \\ &=\sigma^2-\frac{1}{n}\sigma^2 \\ &=\frac{n-1}{n}\sigma^2 \end{align} E[n1i=1n(xixˉ)2]=E[n1i=1n(xiμ)2]E[(μxˉ)2]=σ2n1σ2=nn1σ2
可见,分母为n时,样本方差总是比总体方差要小,由于低估了方差,因此需要将其放大一点,:
E ( S 2 ) = n n − 1 E [ 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ] = σ 2 \begin{align} &E(S^2)=\frac{n}{n-1}E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\right] \\ &=\sigma^2 \end{align} E(S2)=n1nE[n1i=1n(xixˉ)2]=σ2
乘以放大系数 n n − 1 \frac{n}{n-1} n1n,样本方差公式里系数的分母变成n-1,此时对总体方差的估计就是无偏的。

可以看到,样本方差等于总体方差减去样本均值的方差,如果用样本均值估计总体均值,对总体方差的估计是有偏差的,偏差就是样本均值的方差。随着样本总量n的增加,样本方差S会越来越接近总体方差 σ \sigma σ。当n很大时,用n或者n-1差别并不大,两者最终都会收敛到真实的总体方差。

需要注意的是,这里假设总体的均值和方差均是未知的。如果总体均值已知,即 x ˉ = μ \bar{x}=\mu xˉ=μ,则有:
E [ 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ] = E [ 1 n ∑ i = 1 n ( x i − μ ) 2 ] = σ 2 \begin{align} &E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\bar{x})^2\right] =E\left[\frac{1}{n}\sum_{i=1}^{n}(x_i-\mu)^2\right]=\sigma^2 \end{align} E[n1i=1n(xixˉ)2]=E[n1i=1n(xiμ)2]=σ2
这是一个无偏估计。此时,计算样本方差的分母就是n,而不再是n-1,符合我们的直觉。

  • 12
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值