最大似然估计的一些优点

最大似然估计的一些优点

主要内容:
- asymptotic correctness
- asymptotic normality
- efficiency

随机变量 X 服从分布p(x|θ) θ 为参数。在 n 次独立重复实验中产生观测值x1,,xn。可以选择 θ^ 作为 θ 的估计值,使似然函数 L(θ^)=ni=1p(xi|θ^) 达到最大值。

asymptotic correctness

随着样本数 n 增多,估计值θ^会最终趋向于真实值 θ
使似然函数达到最大值,等价于使

1nlogL(θ^)constant
达到最大值
1nlogL(θ^)constant=1ni=1nlogp(xi|θ^)p(x|θ)logp(x|θ)dxnp(x|θ)logp(x|θ^)dxp(x|θ)logp(x|θ)dx=p(x|θ)logp(x|θ^)p(x|θ)dx=D(p(x|θ)p(x|θ^))0

所以,只有在 θ^=θ 时,才能取到最大值。

asymptotic normality

估计 θ^=θ^(X1,,Xn) 的抽样分布服从正态分布。

由于 n 很大,θ^很接近 θ ,可以对等式进行泰勒展开。(网站崩溃了。。。下面的没有保存成功。。全要重新再写一遍。。。不过发现了之前的一个错误!)

0=ddθlogL(θ^)=i=1nddθlogp(Xi|θ^)=i=1nddθlogp(Xi|θ)+(θ^θ)i=1nd2dθ2logp(Xi|θ)+O((θθ^)2)=i=1nddθlogp(Xi|θ)+(θ^θ)np(x|θ)d2dθ2logp(x|θ)dx+O((θθ^)2)=i=1nddθlogp(Xi|θ)(θ^θ)nI+O((θθ^)2)

其中 I 为Fisher Information
(θ^θ)=1nIi=1nddθlogp(Xi|θ)+negligibleterms

根据中心极限定理,等式右边服从正态分布 N(0,1nI1)
均值:
μ=p(x|θ)(ddθlogp(x|θ))dx=ddθp(x|θ)dx=ddθp(x|θ)dx=ddθ1=0

方差:
σ2=(1nI)2nVar[ddθlogp(X|θ)]=(1nI)2np(x|θ)(ddθlogp(x|θ)μ)2dx=(1nI)2nI=1nI

因此 θ^N(θ,1nI1)

efficiency

最大似然估计在所有无偏估计中具有最小方差。
根据Cramer-Rao bound:

Var(θ^)1nI

其中 θ^ 是任意的无偏估计, I <script type="math/tex" id="MathJax-Element-28">I</script>是Fisher Information
所以,最大似然估计达到了下界。
参考资料

An Introduction to Maximum Likelihood Estimation and Information Geometry

  • 4
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值