最大似然估计的一些优点
主要内容:
- asymptotic correctness
- asymptotic normality
- efficiency
随机变量
X
服从分布
asymptotic correctness
随着样本数
n
增多,估计值
使似然函数达到最大值,等价于使
1nlogL(θ^)−constant
达到最大值
1nlogL(θ^)−constant=1n∑i=1nlogp(xi|θ^)−∫p(x|θ)logp(x|θ)dx⟶n→∞∫p(x|θ)logp(x|θ^)dx−∫p(x|θ)logp(x|θ)dx=∫p(x|θ)logp(x|θ^)p(x|θ)dx=−D(p(x|θ)∥p(x|θ^))≤0
所以,只有在 θ^=θ 时,才能取到最大值。
asymptotic normality
估计 θ^=θ^(X1,⋯,Xn) 的抽样分布服从正态分布。
由于
n
很大,
0=ddθlogL(θ^)=∑i=1nddθlogp(Xi|θ^)=∑i=1nddθlogp(Xi|θ)+(θ^−θ)∑i=1nd2dθ2logp(Xi|θ)+O((θ−θ^)2)=∑i=1nddθlogp(Xi|θ)+(θ^−θ)n∫p(x|θ)d2dθ2logp(x|θ)dx+O((θ−θ^)2)=∑i=1nddθlogp(Xi|θ)−(θ^−θ)nI+O((θ−θ^)2)
其中 I 为Fisher Information
根据中心极限定理,等式右边服从正态分布 N(0,1nI−1)
均值:
μ=∫p(x|θ)(ddθlogp(x|θ))dx=∫ddθp(x|θ)dx=ddθ∫p(x|θ)dx=ddθ1=0
方差:
σ2=(1nI)2nVar[ddθlogp(X|θ)]=(1nI)2n∫p(x|θ)(ddθlogp(x|θ)−μ)2dx=(1nI)2nI=1nI
因此 θ^∼N(θ,1nI−1)
efficiency
最大似然估计在所有无偏估计中具有最小方差。
根据Cramer-Rao bound:
Var(θ^)≥1nI
其中 θ^ 是任意的无偏估计, I <script type="math/tex" id="MathJax-Element-28">I</script>是Fisher Information
所以,最大似然估计达到了下界。
参考资料
An Introduction to Maximum Likelihood Estimation and Information Geometry