为什么样本方差(sample variance)的分母是 n-1?

为什么样本方差(sample variance)的分母是 n-1?

本文转自:https://www.matongxue.com/madocs/607.html

先把问题完整的描述下。

如果已知随机变量X的期望为\mu,那么可以如下计算方差\sigma ^{2}

                                                                      \sigma ^{2}=E[(X-\mu )^{2}]

上面的式子需要知道X的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。

所以实践中常常采样之后,用下面这个S^{2}来近似\sigma ^{2}

                                                                     S^{2}=\frac{1}{n} \sum_{i=1}^{n}(X_{i}-\mu )^{2}

其实现实中,往往连X的期望\mu也不清楚,只知道样本的均值:

                                                                          \bar{X}=\frac{1}{n}\sum_{i=1}^{n}X_{i}

那么可以这样计算S^{2}

                                                                 S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{i}-\bar{X})^{2}

此时就有两个问题需要思考了:

  • 为什么可以用S^{2}来近似\sigma ^{2}
  • 为什么使用\bar{X}替代\mu之后,分母是n-1?

下面仔细分析细节,就可以弄清楚这两个问题。


举个例子,假设X服从这样一个正态分布:

                                                                     X\sim N(145,1,4^{2})

即,\mu =145,\sigma ^{2}=1.4^{2}=1.96,图形如下:

当然,现实中往往并不清楚 X服从的分布是什么,具体参数又是什么。所以下面用虚线来表明我们并不是真正知道X的分布:

 很幸运,我们知道\mu =145,因此对X采样,并通过:

                                                                            S^{2}=\frac{1}{n}\sum_{i=1}^{n}(X-\mu )^{2}

来估计\sigma ^{2}。其次采样计算出来的S^{2}

看起来要比\sigma ^{2}=1.96小。采样具有随机性,我们多采样几次, S^{2}会围绕\sigma ^{2}上下波动。所以可知:

                                

可推出:

                        

进而推出:

                    

如果用下面这个式子来估计:              

                                        

 那么S^{2}采样均值会服从一个偏离1.4^{2}的正态分布:

可见,此分布倾向于低估 \sigma ^{2}

具体小了多少,我们可以来计算一下:

其中:

所以我们接着算下去:

其中:

所以:

也就是说,低估了\frac{1}{n}\sigma ^{2},进行以下调整:

因此使用下面这个式子进行估计,得到的就是无偏估计: 

                                                                                   S^{2}=\frac{1}{n-1}\sum_{i=1}^{n}(X_{_{i}}-\bar{X})^{2}

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值