![911a14d05120245451138088534a911e.png](https://i-blog.csdnimg.cn/blog_migrate/5eef1c7807a416804c719f121fb76b51.jpeg)
不少大厂曾在面试中问及,极大似然估计与最小化交叉熵损失或者KL divergence有何异同。其实上,二者完全等价,但为什么等价,我翻阅过不少博客,其实都没怎么讲清楚。在这些博客中,《Mr.陈同学:最小化交叉熵损失与极大似然》这篇讲的最好,但依然假定了数据的具体分布,也是大部分博客讲解最小化交叉熵损失与极大似然之间关系的切入角度,在我看来没有触及问题本质。本文将从更一般的角度推导极大似然估计与最小化交叉熵损失的相等性。
主要涉及公式推导,前方公式高能预警。
符号约定
1、无标签样本
样本集:
其中,单个样本:
数据的真实分布:用
模型近似的分布:用
2、有标签样本
样本集:
其中,单个样本:
数据的真实分布:用
模型近似的分布:用
无标签的极大似然估计
由极大似然估计的定义可知:
由于样本x是从
上式就是交叉熵损失,所以极大似然与最小化交叉熵损失完全等价。
添加一项与参数
上式就是KL散度,所以极大似然与最小化KL散度等价。
有标签的极大似然估计
对于有监督学习,一般直接建模的是条件概率,所采用的损失一般也是条件概率的交叉熵损失,也是与极大似然估计等价,且看推导。
由于
由于
先对y积分
上式方括号内就是条件交叉熵损失,所以如果直建模了条件概率,极大似然估计等同于条件交叉熵损失。
添加一项与参数
上式方括号内就是KL散度,所以如果直建模了条件概率,极大似然估计也等同于最小化KL散度等价。
推导完毕。能看到这里,恭喜你,说明你有成为大神的潜质。要想搞好机器学习,只求深度学习炼丹是远远不够的。
不妨扫码关注我的微信公众号「小纸屑」,一起全面学习AI知识:
![31a3fdf2e07ccdc30e31b09511e65642.png](https://i-blog.csdnimg.cn/blog_migrate/332ef53000341d9a14a98cc193f3f253.jpeg)