Maximizing likelihood is equivalent to minimizing KL-Divergence

Maximizing likelihood is equivalent to minimizing KL-Divergence

如题,现证明如下:

假设两个分布为 p ( x ∣ θ ∗ ) p(x|\theta^*) p(xθ) p ( x ∣ θ ) p(x|\theta) p(xθ),分别代表真实的数据分布和我们估计出来的数据分布,则:

  1. KL Divergence
    = D K L ( p ( x ∣ θ ∗ ) ∣ ∣ p ( x ∣ θ ) ) ) D_{KL}(p(x|\theta^*)||p(x|\theta))) DKL(p(xθ)p(xθ)))
    = E x ∼ p ( x ∣ θ ∗ ) [ l o g p ( x ∣ θ ∗ ) p ( x ∣ θ ) ] E_{x\sim p(x|\theta^*)}[log\frac{p(x|\theta^*)}{p(x|\theta)}] Exp(xθ)[logp(xθ)p(xθ)]
    = E x ∼ p ( x ∣ θ ∗ ) [ l o g p ( x ∣ θ ∗ ) ] − E x ∼ p ( x ∣ θ ∗ ) [ l o g p ( x ∣ θ ) ] E_{x\sim p(x|\theta^*)}[log p(x|\theta^*)]-E_{x\sim p(x|\theta^*)}[log p(x|\theta)] Exp(xθ)[logp(xθ)]Exp(xθ)[logp(xθ)]
    = − H ( p ( x ∣ θ ∗ ) ) − E x ∼ p ( x ∣ θ ∗ ) [ l o g p ( x ∣ θ ) ] -H(p(x|\theta^*))-E_{x\sim p(x|\theta^*)}[log p(x|\theta)] H(p(xθ))Exp(xθ)[logp(xθ)]

可以看出,此时第一项和参数 θ \theta θ无关了,所以
minimize KL Divergence
=minimize { − H ( p ( x ∣ θ ∗ ) ) − E x ∼ p ( x ∣ θ ∗ ) [ l o g p ( x ∣ θ ) ] } \{-H(p(x|\theta^*))-E_{x\sim p(x|\theta^*)}[log p(x|\theta)]\} {H(p(xθ))Exp(xθ)[logp(xθ)]}
=minimize [ − E x ∼ p ( x ∣ θ ∗ ) [ l o g p ( x ∣ θ ) ] ] [-E_{x\sim p(x|\theta^*)}[log p(x|\theta)]] [Exp(xθ)[logp(xθ)]]
=maximize [ E x ∼ p ( x ∣ θ ∗ ) [ l o g p ( x ∣ θ ) ] ] [E_{x\sim p(x|\theta^*)}[log p(x|\theta)]] [Exp(xθ)[logp(xθ)]]
=maxmize likelihood

得证。

这样,我们在做极大似然估计的时候,相当于获得了一个对真实分布的近似分布。

参考:https://wiseodd.github.io/techblog/2017/01/26/kl-mle/

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值