#本质上理解# 熵、交叉熵、KL散度的关系

最新推荐文章于 2024-07-19 16:29:56 发布

energy_百分百

最新推荐文章于 2024-07-19 16:29:56 发布

阅读量1.8k

点赞数

分类专栏：机器学习概率基础文章标签： kl散度交叉熵多分类机器学习神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/lch551218/article/details/112213069

版权

机器学习同时被 2 个专栏收录

72 篇文章 12 订阅

订阅专栏

12 篇文章 1 订阅

订阅专栏

文章目录

1. 三者的关系
2. 熵
3. 交叉熵
4. KL散度

1. 三者的关系

KL散度=交叉熵-熵
熵：可以表示一个事件A的自信息量，也就是A包含多少信息。
KL散度：可以用来表示从事件A的角度来看，事件B有多大不同，适用于衡量事件A，B之间的差异。
交叉滴：可以用来表示从事件A的角度来看，如何描述事件B，适用于衡量不同事件B之间的差异；
对于不同的事件B，计算事件AB的KL散度时都同时减去事件A的熵（KL散度=交叉熵-熵（A）），因此，如果只是比较不同B事件之间的差异，计算交叉熵和计算KL散度是等价的。
交叉熵、KL散度都不具备对称性

总结：KL散度可以被用于计算代价，而KL散度=交叉熵-熵，在特定情况下最小化KL散度等价于最小化交叉熵。交叉熵的运算更简单，所以用交叉熵来当做代价。

2. 熵

熵的公式如下：
在这里插入图片描述
其中p(x)表示x事件发生的概率

3. 交叉熵

从公式上来看，求A和B的交叉熵就是把事件A求熵公式中的部分统计量换成B的统计量，如果对A自己求交叉熵等价于求熵
在多分类问题中，损失函数（loss function）为交叉熵（cross entropy）损失函数。对于样本点(x,y)来说，y是真实的标签，在多分类问题中，其取值只可能为标签集合labels. 我们假设有K个标签值，且第i个样本预测为第k个标签值的概率为pi,k，即：
$p_{i,k} = \operatorname{Pr}(t_{i,k} = 1)$
一共有N个样本，则该数据集的损失函数为

$L_{\log}(Y, P) = -\log \operatorname{Pr}(Y|P) = - \frac{1}{N} \sum_{i=0}^{N-1} \sum_{k=0}^{K-1} y_{i,k} \log p_{i,k}$

最内层是第i个样本被分到第k类别的真实概率 * log（第i个样本被分到第k类别的预测概率）
外层首先对所有同一样本的所有类别求和，然后对所有样本求和，最后除以样本数量

4. KL散度

KL散度公式如下：
$D(p||q)=\sum_{x}p(x) \log p(x) - \sum_{x}p(x) \log q(x)$
等价于：
在这里插入图片描述

通过上述公式可知：KL散度=交叉熵-熵，KL散度在p(x)和q(x)相同时取到最小值0，两个概率分布越相似，则KL散度越小。
KL散度包含如下性质；

不对称性，即：
$D_{KL}(P||Q) \neq D_{KL}(Q||P)$
非负性，即：
$D_{KL}(P||Q) \geq 0$

参考文章->

energy_百分百

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

energy_百分百 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。