设样本均值为,样本方差为,总体均值(期望)为,总体方差为,那么样本方差有如下公式:
如果已知随机变量 的期望为 ,那么可以如下计算总体方差 :
这是方差的定义,使用随机一个样本减去均值的平方。
上面的式子需要知道 的具体分布是什么(在现实应用中往往不知道准确分布),计算起来也比较复杂。
所以实践中常常采样之后,用下面这个 来近似 :
下面就是用所有样本减去平均值的平方之后加和再取平均,希望能接近方差。
其实现实中,往往连样本总体 的期望 也不清楚,只知道样本的均值:
那么可以这么来计算 :
那这里就有两个问题了:
- 为什么可以用 来近似 ?
- 为什么使用 替代 之后,分母是 ?
我们来仔细分析下细节,就可以弄清楚这两个问题。
举个例子,假设 服从这么一个正态分布:
即, ,图形如下:
很幸运的,我们知道 ,因此对 采样,并通过:
来估计 。某次采样计算出来的 :
用 作为 的一个估计量,算是可以接受的选择。
很容易算出:
因此,根据中心极限定理, 的采样均值会服从 的正态分布:
对于某次采样而言,当 时,下式取得最小值:
我们也是比较容易从图像中观察出这一点,只要 偏离 ,该值就会增大:
所以可知:
可推出:
进而推出:
如果用下面这个式子来估计:
那么 采样均值会服从一个偏离 的正态分布:
可见,此分布倾向于低估 。
具体小了多少,我们可以来算下:
其中:
所以我们接着算下去:
彻底理解样本方差为何除以n-1
设样本均值为,样本方差为,总体均值为,总体方差为,那么样本方差有如下公式:
很多人可能都会有疑问,为什么要除以n-1,而不是n,但是翻阅资料,发现很多都是交代到,如果除以n,对样本方差的估计不是无偏估计,比总体方差要小,要想是无偏估计就要调小分母,所以除以n-1,那么问题来了,为什么不是除以n-2、n-3等等。所以在这里彻底总结一下,首先交代一下无偏估计。
无偏估计
以例子来说明,假如你想知道一所大学里学生的平均身高是多少,一个大学好几万人,全部统计有点不现实,但是你可以先随机挑选100个人,统计他们的身高,然后计算出他们的平均值,记为。如果你只是把作为整体的身高平均值,误差肯定很大,因为你再随机挑选出100个人,身高平均值很可能就跟刚才计算的不同,为了使得统计结果更加精确,你需要多抽取几次,然后分别计算出他们的平均值,分别记为:然后在把这些平均值,再做平均,记为:,这样的结果肯定比只计算一次更加精确,随着重复抽取的次数增多,这个期望值会越来越接近总体均值,如果满足,这就是一个无偏估计,其中统计的样本均值也是一个随机变量,就是的一个取值。无偏估计的意义是:在多次重复下,它们的平均数接近所估计的参数真值。
介绍无偏估计的意义就是,我们计算的样本方差,希望它是总体方差的一个无偏估计,那么假如我们的样本方差是如下形式:
那么,我们根据无偏估计的定义可得:
由上式可以看出如果除以n,那么样本方差比总体方差的值偏小,那么该怎么修正,使得样本方差式总体方差的无偏估计呢?我们接着上式继续化简:
到这里得到如下式子,看到了什么?该怎修正似乎有点眉目。
如果让我们假设的样本方差乘以,即修正成如下形式,是不是可以得到样本方差是总体方差的无偏估计呢?
则:
因此修正之后的样本方差的期望是总体方差的一个无偏估计,这就是为什么分母为何要除以n-1。