估计的商是什么意思_方差的估计:分母用n还是n-1?

方差的两个估计量

假设

是均值为
方差为
个独立同分布随机变量。现对方差
进行估计。一个自然的估计量应为:

上述估计量可看作是矩估计量。而在正态分布假定下,其也是极大似然估计量。但该估计量存在一个缺陷:它是有偏的。实际上,我们有

0967cbc42e14216221532855e5834d2f.png

从而有

第一个不等式仅在

时取等号。

上述结果表明:

作为方差的估计,总是低估的。而低估是由于我们用样本均值去估计总体均值导致的。

进一步,可以将

精确计算出来。我们有:

这表明,只需对

乘以
,即可得无偏估计量:

上述

被称为样本方差,是我们对方差进行估计时默认采用的估计量。估计量
的区别仅在一个分母是
,一个是
尽管形式很自然但是有偏的,而
分母取为
,形式不太自然但是无偏的。

为什么无偏性重要?

对于参数

,若估计量
满足
,则称
是无偏的。如何理解
呢?根据大数定律,当
趋于
时,

这里

表示第
次采样时,
的估计值;
表示
次采样
的估计值的平均水平。若估计量是无偏的,当大量重复采样时,估计量的平均水平会收敛到待估的参数
。也就是说估计量
会围绕参数
上下波动。

举例来说,要估计40岁中国男性的平均身高

,我们不可能把所有40岁的中国男性的身高都进行测量,故采用抽样的方式,利用样本来推断总体。在每次采样中,我们抽取
个个体并求取他们身高的平均值
。在第
次采样,
的值可能比未知的
大。而在另一次采样中,
的值又比未知的
小。这表明
具有随机性,而随机性来自于抽样。抽样的不同导致估计结果不同,而对于某一次具体的抽样,
的随机性消除,退化为一个具体的数值。尽管
作为平均身高的估计具有随机性,但只要大量重复抽样得到的估计量围绕真值
上下波动,我们就认为是可以接受的。

对照到我们的人生,有时我们会倒霉,有时又会非常幸运,只要别一直倒霉,生活总是可以继续的。

作为方差的估计,估计量的实现值倾向于比真值低,也就是存在系统性偏差。这不是我们所乐见的。

样本方差真的就完美了吗?

样本方差(即分母取n-1)作为方差的估计量,似乎已被大家普遍接受。但它真的就完美了吗?实际上,对于估计量来讲,除了无偏性,还需考虑有效性,也就是估计量的波动性。

比如在上面平均身高的例子中,若

,即每次采样从人群中随机抽取一个人,用其身高值作为平均身高的替代。在某次采样中,我们可能抽到了姚明,这样就会明显高估人群的平均身高;而在下次采样中,我们可能抽到了王祖蓝,这样又拉低了平均身高。也就是说这种随机抽一个人的方式所得到的结果波动性非常大。为了减少波动性,可以增大每次采样的样本量。

在统计学中,一般用估计量的方差来评价估计量的波动性。下面讨论

的方差的差异。注意到
,从而

下图是

的方差之比随样本量的变化曲线图:

cd542d17b4d47e4f9defb8b150021e6b.png

这表明,

对照的人生:有时过得特精彩,有时又特郁闷,人生大起大落太刺激。而
尽管相对倒霉的时候多点,但人生没有太大的起伏,过得也算平静。

均方误差

无偏性反映了估计量的系统偏差,而有效性反映了估计量的波动性。为将两者都考虑进来,定义均方误差

。注意到:

531ad87e3f23434c0053512679251a05.png

在正态假定下,

,从而有:

从而

的MSE之比为
.

样本量的影响

上述差异在样本量小时是比较明显的。无偏性和有效性更多强调的是有限样本下的性质。当样本量充分大时,

渐近无偏,而
的方差之比也趋于1。它们之间的差异就基本消除了。

总结

尽管

作为方差的估计已被普遍接受,但其并不一定是最优的。采用
作为分母主要是从无偏性的角度进行考虑。但除了无偏性,还应考虑有效性。
更有效。当样本量充分大时,不需要再纠结是用n-1作分母还是用n做分母。

如果觉得本文不错,请点赞关注!

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值