样本方差(sample variance)的分母为什么是n-1

项目github地址:bitcarmanlee easy-algorithm-interview-and-practice
欢迎大家star,留言,一起学习进步

1.相关的数学符号

为了说明上述问题,先定义如下数学符号
总体的均值为 μ \mu μ
总体的方差为 σ 2 \sigma^2 σ2
样本为随机变量 x 1 , x 2 , ⋯   , x n x_1, x_2, \cdots, x_n x1,x2,,xn
样本的均值 x ˉ \bar x xˉ
样本的方差 s 2 s^2 s2

2.样本方差的定义

在各种概率统计的教材中,都有样本方差的定义:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^n(x_i - \bar x)^2 s2=n11i=1n(xixˉ)2
大家第一眼看到这个公式估计都会有疑问:为什么分母是n-1而不是n?教科书上的解释也很清楚但也很简单:样本方差中分母为n-1的目的是为了让方差的估计是无偏估计(unbiased estimator)。那么问题在于:
为什么分母为n-1的时候方差的估计是无偏估计?
从数学公式上说,要证明方差的估计是无偏估计,即
E ( s 2 ) = σ 2 E(s^2) = \sigma^2 E(s2)=σ2

3.公式推导

下面对公式进行一下简单推导
假设
s 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n} \sum_{i=1}^n(x_i - \bar x)^2 s2=n1i=1n(xixˉ)2
接下来推导

s 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 = 1 n ∑ i = 1 n ( ( x i − μ ) 2 − ( μ − x ˉ ) ) 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 n ∑ i = 1 n ( x i − μ ) ( μ − x ˉ ) + 1 n ∑ i = 1 n ( μ − x ˉ ) 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 − 2 ( x ˉ − μ ) ( μ − x ˉ ) + ( μ − x ˉ ) 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 − ( μ − x ˉ ) 2 ≤ 1 n ∑ i = 1 n ( x i − μ ) 2 ≤ σ 2 \begin{aligned} s^2 & = \frac{1}{n} \sum_{i=1}^n(x_i - \bar x)^2 = \frac{1}{n} \sum_{i=1}^n\left((x_i - \mu)^2 - (\mu - \bar x) \right) ^2 \\ & = \frac{1}{n} \sum_{i=1}^n(x_i - \mu)^2 - \frac{2}{n} \sum_{i=1}^n(x_i - \mu)(\mu - \bar x) + \frac{1}{n} \sum_{i=1}^n(\mu - \bar x)^2 \\ & = \frac{1}{n} \sum_{i=1}^n(x_i - \mu)^2 - 2(\bar x - \mu)(\mu - \bar x) + (\mu - \bar x)^2 \\ & = \frac{1}{n} \sum_{i=1}^n(x_i - \mu)^2 - (\mu - \bar x)^2 \\ & \leq \frac{1}{n} \sum_{i=1}^n(x_i - \mu)^2 \\ & \leq \sigma^2 \end{aligned} s2=n1i=1n(xixˉ)2=n1i=1n((xiμ)2(μxˉ))2=n1i=1n(xiμ)2n2i=1n(xiμ)(μxˉ)+n1i=1n(μxˉ)2=n1i=1n(xiμ)22(xˉμ)(μxˉ)+(μxˉ)2=n1i=1n(xiμ)2(μxˉ)2n1i=1n(xiμ)2σ2

从上面的推导可以看出,只有当 x ˉ = μ \bar x = \mu xˉ=μ时,等号才成立。否则一定有
s 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 < 1 n ∑ i = 1 n ( x i − μ ) 2 = σ 2 s^2 = \frac{1}{n} \sum_{i=1}^n(x_i - \bar x)^2 \lt \frac{1}{n} \sum_{i=1}^n(x_i - \mu)^2 = \sigma^2 s2=n1i=1n(xixˉ)2<n1i=1n(xiμ)2=σ2

在上述的不等式中, 1 n ∑ i = 1 n ( x i − μ ) 2 \frac{1}{n} \sum_{i=1}^n(x_i - \mu)^2 n1i=1n(xiμ)2是真正的方差。但是一般情况下,我们不知道整体的均值是多少,所以会通过样本的均值去代替整体的均值。从上面的推导过程来看,如果直接用样本的均值代替整体均值,对方差进行估计的时候会是有偏估计,会使估计的方差比真正的方差偏小。为了得到无偏估计的方差,所以要对上面的方差计算公式进行修正。最后修正的公式即为:
s 2 = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n-1} \sum_{i=1}^n(x_i - \bar x)^2 s2=n11i=1n(xixˉ)2

4.为什么修正以后的分母是n-1

由前面的推导可知
假设

s 2 = 1 n ∑ i = 1 n ( x i − x ˉ ) 2 s^2 = \frac{1}{n} \sum_{i=1}^n(x_i - \bar x)^2 s2=n1i=1n(xixˉ)2

s 2 = 1 n ∑ i = 1 n ( x i − μ ) 2 − ( μ − x ˉ ) 2 = V a r ( x ) − V a r ( x ˉ ) = σ 2 − 1 n σ 2 = n − 1 n σ 2 \begin{aligned} s^2 & = \frac{1}{n} \sum_{i=1}^n(x_i - \mu)^2 - (\mu - \bar x)^2 \\ & = Var(x) - Var(\bar x) \\ & = \sigma^2 - \frac{1}{n} \sigma^2 \\ & = \frac{n-1}{n} \sigma^2 \end{aligned} s2=n1i=1n(xiμ)2(μxˉ)2=Var(x)Var(xˉ)=σ2n1σ2=nn1σ2

V a r ( x ˉ ) = D ( 1 n ∑ i = 1 n x i ) = 1 n 2 ∑ i = 1 n D ( x i ) = 1 n 2 ⋅ n σ 2 = 1 n σ 2 \begin{aligned} Var(\bar x) = D(\frac{1}{n} \sum_{i=1}^n x_i) = \frac{1}{n^2} \sum_{i=1}^n D(x_i) = \frac{1}{n^2} \cdot n \sigma^2 = \frac{1}{n} \sigma^2 \end{aligned} Var(xˉ)=D(n1i=1nxi)=n21i=1nD(xi)=n21nσ2=n1σ2

所以有:
n n − 1 E ( s 2 ) = n n − 1 × n − 1 n D ( x ) = σ 2 \frac{n}{n-1} E(s^2) = \frac{n}{n-1} \times \frac{n-1}{n}D(x) = \sigma ^ 2 n1nE(s2)=n1n×nn1D(x)=σ2
最后可知样本方差修正以后的公式为:
s 2 = n n − 1 ( 1 n ∑ i = 1 n ( x i − x ˉ ) 2 ) = 1 n − 1 ∑ i = 1 n ( x i − x ˉ ) 2 \begin{aligned} s^2 & = \frac{n}{n-1} \left( \frac{1}{n} \sum_{i=1}^n(x_i - \bar x)^2 \right ) \\ & = \frac{1}{n-1} \sum_{i=1}^n(x_i - \bar x)^2 \end{aligned} s2=n1n(n1i=1n(xixˉ)2)=n11i=1n(xixˉ)2

  • 8
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值