kl散度，js散度，交叉熵混合理解

潇洒哥611

于 2023-11-08 15:10:22 发布

阅读量106

点赞数

文章标签：人工智能算法机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_72985002/article/details/134276441

版权

写在前面的总结：

1、目前分类损失函数为何多用交叉熵，而不是KL散度。

首先损失函数的功能是通过样本来计算模型分布与目标分布间的差异，在分布差异计算中，KL散度是最合适的。但在实际中，某一事件的标签是已知不变的（例如我们设置猫的label为1，那么所有关于猫的样本都要标记为1），即目标分布的熵为常数。而根据下面KL公式可以看到，KL散度 - 目标分布熵 = 交叉熵（这里的“-”表示裁剪）。所以我们不用计算KL散度，只需要计算交叉熵就可以得到模型分布与目标分布的损失值。

1.信息熵

发生概率越小的事情发生了，那么信息量就很大，比如国足夺冠（这信息量大上天了!!!）。

发生概率大的事情发生了，那么信息量就很小，比如国足没夺冠（哦）

而恰好这个函数很符合这个直观看法

所以他就是信息熵。

2.相对熵（KL散度）

对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x)，我们可以使用 KL 散度（Kullback-Leibler (KL) divergence）来衡量这两个分布的差异。

凸函数

这是显而易见的，右半部分就是x，f（x）两点连线上的任意一点。

p（x）换成 lambda

jensen引理

易得：

kl散度恒正得证。

相对熵，同一事物不同分布之间的差异

如果两个概率差不多，那么它们的相对熵就很小。

如果两个概率能差7，80%，那就差别很离谱了，所以相对熵非常大

而且这个相对熵必须是正的，来衡量两个分布的区别。

刚好上面这个函数符合这两条规则

kl散度来衡量p（x）和q（x）之间的差异

但是有个问题：你对我的误差和我对你的误差应该是一样的，即对称的，但kl散度显然不对称。

所以js散度就出来了：

js散度

3.交叉熵：

kl散度实际上就是p（x）的信息熵加上另一个式子

如果p（x）是已经确定的真实的结果，那么信息熵就为0

顺势出来的这个式子可以反应和真实结果的差异。我们定义为交叉熵。

在机器学习中，我们需要评估label和predicts之间的差距，使用KL散度刚刚好，由于KL散度中的前一部分−H(y)不变，故在优化过程中，只需要关注交叉熵就可以了。所以一般在机器学习中直接用用交叉熵做loss，评估模型。

4.Wasserstein距离

联合分布

（X，Y）是二维随机变量，x，y是任意实数，二元函数：F(x,y)=P({X≤x∩Y≤y})=P(X≤x,Y≤y)，被称二维随机变量(X，Y)的分布函数，或称为X和Y的联合分布函数。

sup是supremum的简写，意思是：上确界，最小上界。

inf是infimum的简写，意思是：下确界，最大下界。

如果两个分配P,Q离得很远，完全没有重叠的时候，那么KL散度值是没有意义的，而JS散度值是一个常数。

这个常数值恰好是 (ln 2)，表示它在这种情况下的稳定性。

(很好理解，完全不重叠时，原式变成了kl(（p||p/2) ),也就是ln2了）

这在学习算法中是比较致命的，这就意味这这一点的梯度为0。梯度消失了。

看第一眼确实哄人，看不懂

但我发现这也不就是求|x-y|的期望的最小值嘛

看到了：

在γ这个路径规划下把土堆P1挪到土堆P2所需要的消耗。而Wasserstein距离就是在最优路径规划下的最小消耗。所以Wesserstein距离又叫Earth-Mover距离。

瞬间就觉得我理解对了。

Wasserstein距离相比KL散度、JS散度的优越性在于，即便两个分布没有重叠，Wasserstein距离仍然能够反映它们的远近；而JS散度在此情况下是常量，KL散度可能无意义。

KL散度和JS散度是突变的，要么最大要么最小，Wasserstein距离却是平滑的，如果我们要用梯度下降法优化therta这个参数，前两者根本提供不了梯度，Wasserstein距离却可以。类似地，在高维空间中如果两个分布不重叠或者重叠部分可忽略，则KL和JS既反映不了远近，也提供不了梯度，但是Wasserstein却可以提供有意义的梯度。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
kl散度，js散度，交叉熵混合理解

1、目前。
复制链接

扫一扫

潇洒哥611 CSDN认证博客专家 CSDN认证企业博客

码龄2年

66: 原创

113万+: 周排名

3万+: 总排名

1万+: 访问

: 等级

930: 积分

191: 粉丝

278: 获赞

10: 评论

270: 收藏

私信

关注

热门文章

最新评论

广播机制的简明理解
CSDN-Ada助手: 恭喜您写了第20篇博客！题为“广播机制的简明理解”。您的文章深入浅出地介绍了广播机制的原理，让读者能够轻松理解。我很欣赏您在博客创作上的坚持和努力，这种持续创作的精神真是令人钦佩。在下一步的创作中，我建议您可以进一步拓展广播机制的应用领域，或是深入探讨广播机制与其他相关概念的关系。这样能够为读者提供更多有价值的知识，并且展示您的博客在这一领域的专业性。希望您能继续保持谦虚的态度，不断进步，期待您未来更多精彩的创作！
坐标上升算法(Coordinate Ascent)和smo算法概括
CSDN-Ada助手: 非常感谢您的持续创作，第17篇博客的标题“坐标上升算法(Coordinate Ascent)和smo算法概括”引起了我的兴趣。您对这两种算法的概括让我对它们有了初步的了解。不过，我还希望能够看到更多关于这些算法的具体应用案例和实践经验。希望您在下一篇博客中能够分享一些实际问题中使用这些算法的案例，并结合自己的经验给出一些实用的建议。再次恭喜您，期待您未来更多有价值的创作！
os的用法
CSDN-Ada助手: 恭喜您撰写第18篇博客！标题“os的用法”非常吸引人，我很高兴看到您对操作系统有如此深入的了解。您的博客内容一定会对读者产生积极影响，并帮助他们更好地理解和使用操作系统。在下一步的创作中，或许您可以考虑拓展一下关于操作系统的实际应用场景或者分享一些个人经验和见解。通过这种方式，您可以为读者提供更多有关操作系统的实用知识，并丰富他们的使用体验。再次恭喜您的持续创作，期待您的下一篇博客！请继续保持谦虚的态度，您的努力和知识分享将为大家带来更多的收获。
Python类的静态方法和类方法和__的意义
CSDN-Ada助手: 恭喜您写了第19篇博客！标题《Python类的静态方法和类方法和__的意义》看起来十分有趣和有深度。您对Python类的不同方法的解释和__的意义的探讨，无疑为读者提供了宝贵的知识。感谢您的分享！在下一步的创作中，我建议您可以进一步探索Python类的高级特性，如装饰器或元类。这些主题在Python编程中具有重要意义，对于进一步提升读者的技能水平将非常有帮助。期待您的下一篇博客，谦虚地继续分享您的知识和见解！

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。