Maximizing likelihood is equivalent to minimizing KL-Divergence

最新推荐文章于 2022-02-11 14:52:40 发布

HeegerGAO

最新推荐文章于 2022-02-11 14:52:40 发布

阅读量261

点赞数

分类专栏：数学

本文链接：https://blog.csdn.net/weixin_40019546/article/details/107134805

版权

数学专栏收录该内容

1 篇文章 0 订阅

订阅专栏

Maximizing likelihood is equivalent to minimizing KL-Divergence

如题，现证明如下：

假设两个分布为 $p(x|\theta^*)$ 和 $p(x|\theta)$ ，分别代表真实的数据分布和我们估计出来的数据分布，则：

KL Divergence
= $D_{KL}(p(x|\theta^*)||p(x|\theta)))$
= $E_{x\sim p(x|\theta^*)}[log\frac{p(x|\theta^*)}{p(x|\theta)}]$
= $E_{x\sim p(x|\theta^*)}[log p(x|\theta^*)]-E_{x\sim p(x|\theta^*)}[log p(x|\theta)]$
= $-H(p(x|\theta^*))-E_{x\sim p(x|\theta^*)}[log p(x|\theta)]$

可以看出，此时第一项和参数 $\theta$ 无关了，所以
minimize KL Divergence
=minimize $\{-H(p(x|\theta^*))-E_{x\sim p(x|\theta^*)}[log p(x|\theta)]\}$
=minimize $[-E_{x\sim p(x|\theta^*)}[log p(x|\theta)]]$
=maximize $[E_{x\sim p(x|\theta^*)}[log p(x|\theta)]]$
=maxmize likelihood

得证。

这样，我们在做极大似然估计的时候，相当于获得了一个对真实分布的近似分布。

参考：https://wiseodd.github.io/techblog/2017/01/26/kl-mle/

HeegerGAO

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Maximizing likelihood is equivalent to minimizing KL-Divergence

Maximizing likelihood is equivalent to minimizing KL-Divergence如题，现证明如下：假设两个分布为p(x∣θ∗)p(x|\theta^*)p(x∣θ∗)和p(x∣θ)p(x|\theta)p(x∣θ)，分别代表真实的数据分布和我们估计出来的数据分布，则：KL Divergence= DKL(p(x∣θ∗)∣∣p(x∣θ)))D_{KL}(p(x|\theta^*)||p(x|\theta)))DKL(p(x∣θ∗)∣∣p(x∣θ)))
复制链接

扫一扫

专栏目录