kl散度定义_极大似然估计与最小化交叉熵损失或者KL散度为什么等价?

911a14d05120245451138088534a911e.png

不少大厂曾在面试中问及,极大似然估计与最小化交叉熵损失或者KL divergence有何异同。其实上,二者完全等价,但为什么等价,我翻阅过不少博客,其实都没怎么讲清楚。在这些博客中,《Mr.陈同学:最小化交叉熵损失与极大似然》这篇讲的最好,但依然假定了数据的具体分布,也是大部分博客讲解最小化交叉熵损失与极大似然之间关系的切入角度,在我看来没有触及问题本质。本文将从更一般的角度推导极大似然估计与最小化交叉熵损失的相等性。

主要涉及公式推导,前方公式高能预警。

符号约定

1、无标签样本

样本集:

其中,单个样本:

,是个p维的随机变量。

数据的真实分布:用

表示

模型近似的分布:用

2、有标签样本

样本集:

其中,单个样本:

,是个p维的随机变量。y是个标量label。

数据的真实分布:用

表示

模型近似的分布:用

无标签的极大似然估计

由极大似然估计的定义可知:

由于样本x是从

采样得来,因此等同于

上式就是交叉熵损失,所以极大似然与最小化交叉熵损失完全等价。

添加一项与参数

完全无关的项,

上式就是KL散度,所以极大似然与最小化KL散度等价。

有标签的极大似然估计

对于有监督学习,一般直接建模的是条件概率,所采用的损失一般也是条件概率的交叉熵损失,也是与极大似然估计等价,且看推导。

由于

与参数
无关,因此有:

由于

采样得来,因此有:

先对y积分

上式方括号内就是条件交叉熵损失,所以如果直建模了条件概率,极大似然估计等同于条件交叉熵损失。

添加一项与参数

完全无关的项,

上式方括号内就是KL散度,所以如果直建模了条件概率,极大似然估计也等同于最小化KL散度等价。

推导完毕。能看到这里,恭喜你,说明你有成为大神的潜质。要想搞好机器学习,只求深度学习炼丹是远远不够的。

不妨扫码关注我的微信公众号「小纸屑」,一起全面学习AI知识:

31a3fdf2e07ccdc30e31b09511e65642.png
  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值