方差的两个估计量
假设
是均值为
方差为
的
个独立同分布随机变量。现对方差
进行估计。一个自然的估计量应为:
上述估计量可看作是矩估计量。而在正态分布假定下,其也是极大似然估计量。但该估计量存在一个缺陷:它是有偏的。实际上,我们有
从而有
第一个不等式仅在
时取等号。
上述结果表明:
作为方差的估计,总是低估的。而低估是由于我们用样本均值去估计总体均值导致的。
进一步,可以将
精确计算出来。我们有:
这表明,只需对
乘以
,即可得无偏估计量:
上述
被称为样本方差,是我们对方差进行估计时默认采用的估计量。估计量
和
的区别仅在一个分母是
,一个是
。
尽管形式很自然但是有偏的,而
分母取为
,形式不太自然但是无偏的。
为什么无偏性重要?
对于参数
,若估计量
满足
,则称
是无偏的。如何理解
呢?根据大数定律,当
趋于
时,
这里
表示第
次采样时,
的估计值;
表示
次采样
的估计值的平均水平。若估计量是无偏的,当大量重复采样时,估计量的平均水平会收敛到待估的参数
。也就是说估计量
会围绕参数
上下波动。
举例来说,要估计40岁中国男性的平均身高
,我们不可能把所有40岁的中国男性的身高都进行测量,故采用抽样的方式,利用样本来推断总体。在每次采样中,我们抽取
个个体并求取他们身高的平均值
。在第
次采样,
的值可能比未知的
大。而在另一次采样中,
的值又比未知的
小。这表明
具有随机性,而随机性来自于抽样。抽样的不同导致估计结果不同,而对于某一次具体的抽样,
的随机性消除,退化为一个具体的数值。尽管
作为平均身高的估计具有随机性,但只要大量重复抽样得到的估计量围绕真值
上下波动,我们就认为是可以接受的。
对照到我们的人生,有时我们会倒霉,有时又会非常幸运,只要别一直倒霉,生活总是可以继续的。
作为方差的估计,估计量的实现值倾向于比真值低,也就是存在系统性偏差。这不是我们所乐见的。
样本方差真的就完美了吗?
样本方差(即分母取n-1)作为方差的估计量,似乎已被大家普遍接受。但它真的就完美了吗?实际上,对于估计量来讲,除了无偏性,还需考虑有效性,也就是估计量的波动性。
比如在上面平均身高的例子中,若
,即每次采样从人群中随机抽取一个人,用其身高值作为平均身高的替代。在某次采样中,我们可能抽到了姚明,这样就会明显高估人群的平均身高;而在下次采样中,我们可能抽到了王祖蓝,这样又拉低了平均身高。也就是说这种随机抽一个人的方式所得到的结果波动性非常大。为了减少波动性,可以增大每次采样的样本量。
在统计学中,一般用估计量的方差来评价估计量的波动性。下面讨论
和
的方差的差异。注意到
,从而
下图是
和
的方差之比随样本量的变化曲线图:
这表明,
对照的人生:有时过得特精彩,有时又特郁闷,人生大起大落太刺激。而
尽管相对倒霉的时候多点,但人生没有太大的起伏,过得也算平静。
均方误差
无偏性反映了估计量的系统偏差,而有效性反映了估计量的波动性。为将两者都考虑进来,定义均方误差
。注意到:
在正态假定下,
,从而有:
从而
和
的MSE之比为
.
样本量的影响
上述差异在样本量小时是比较明显的。无偏性和有效性更多强调的是有限样本下的性质。当样本量充分大时,
渐近无偏,而
和
的方差之比也趋于1。它们之间的差异就基本消除了。
总结
尽管
作为方差的估计已被普遍接受,但其并不一定是最优的。采用
作为分母主要是从无偏性的角度进行考虑。但除了无偏性,还应考虑有效性。
比
更有效。当样本量充分大时,不需要再纠结是用n-1作分母还是用n做分母。
如果觉得本文不错,请点赞关注!