为什么样本方差(sample variance)的分母是 n-1?
本文转自:https://www.matongxue.com/madocs/607.html
先把问题完整的描述下。
如果已知随机变量的期望为,那么可以如下计算方差:
上面的式子需要知道的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。
所以实践中常常采样之后,用下面这个来近似:
其实现实中,往往连的期望也不清楚,只知道样本的均值:
那么可以这样计算:
此时就有两个问题需要思考了:
- 为什么可以用来近似?
- 为什么使用替代之后,分母是?
下面仔细分析细节,就可以弄清楚这两个问题。
举个例子,假设服从这样一个正态分布:
即,,图形如下:
当然,现实中往往并不清楚 服从的分布是什么,具体参数又是什么。所以下面用虚线来表明我们并不是真正知道的分布:
很幸运,我们知道,因此对采样,并通过:
来估计。其次采样计算出来的:
看起来要比小。采样具有随机性,我们多采样几次, 会围绕上下波动。所以可知:
可推出:
进而推出:
如果用下面这个式子来估计:
那么采样均值会服从一个偏离的正态分布:
可见,此分布倾向于低估 。
具体小了多少,我们可以来计算一下:
其中:
所以我们接着算下去:
其中:
所以:
也就是说,低估了,进行以下调整:
因此使用下面这个式子进行估计,得到的就是无偏估计: