交叉熵、相对熵(KL散度)的数学原理及在机器学习中应用

最新推荐文章于 2025-03-24 16:56:17 发布

tyhj_sf

最新推荐文章于 2025-03-24 16:56:17 发布

阅读量2.3k

点赞数 2

分类专栏： ML理论系列文章标签：交叉熵 KL散度

本文链接：https://blog.csdn.net/tyhj_sf/article/details/84933972

版权

ML理论系列专栏收录该内容

24 篇文章

订阅专栏

本文深入解析信息量、熵、KL散度及交叉熵的概念，阐述它们在机器学习分类任务中的应用，特别是交叉熵作为损失函数的重要性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

1 引言

最近频繁使用交叉熵，虽然之前学习过，但感觉对交叉熵的认识还是不够全面，打算再详细的总结一下。搜索了一番资料发现已经有人对这一块的知识讲解非常全面，所以就不再重复细说，只总结一下我认为比较关键的知识脉络吧。
要全面地搞懂交叉熵得从这一条概念链条着手：信息量—>熵—>KL散度—>交叉熵

2 信息量

假设X是一个离散型随机变量，其取值集合为χ,概率分布函数 $p (x) = P (X = x), x \in χ$ ,则定义事件 $X=x_0$ 的信息量为
$I(x_0)=−log(p(x_0))$
至于信息量的计算公式为啥是这样？因为-logx这个函数的性质恰好是我们需要的，即随着x增大该函数不断减小，恰如信息量随着发生概率的增大而减小。
信息量描述的是一个事件发生的不确定性的大小。

3 熵

有了上面关于信息量的定义，我们就可以定义熵了，即：
$H(X)=−∑_{i=1}^np(x_i)log(p(x_i))$
为啥上面的式子是求和形式呢？
因为一个事件可能有很多种发生情况，每一种情况的发生都对应着一个发生概率，那么熵就是用来表示一个事件的信息量的期望。

4 KL散度

相对熵又称KL散度,如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x)，我们可以使用 KL 散度（Kullback-Leibler (KL) divergence）来衡量这两个分布的差异。
KL散度的计算公式：
$D_{KL}(p||q)=\sum_{i=1}^np(x_i)log(\frac{p(x_i)}{q(x_i)})$
其中，n为事件的所有可能性。
$D_{KL}$ 的值越小，表示q分布和p分布越接近。
在机器学习分类任务中（假设分为三类），P往往用来表示样本的真实分布，比如[1,0,0]表示当前样本属于第一类。Q用来表示模型所预测的分布，比如[0.7,0.2,0.1] 。

5 交叉熵

在机器学习分类任务中，我们需要评估label和predict之间的差距，使用KL散度刚刚好，即 $D_{KL}(y||y^{'})$ ，其中 $y$ 是label值， $y^{'}$ 是predict值。
但是为啥我们却普遍使用交叉熵呢，而不是使用KL散度呢？
因为根据前面KL散度的公式我们可以继续推导出如下过程：
$D_{KL}(p||q)=∑_{i=1}^{n}p(x_i)log(p(x_i))−∑_{i=1}^{n}p(x_i)log(q(x_i)) \\ =-H(p(x))+[−∑_{i=1}^{n}p(x_i)log(q(x_i))]$
加号的前一部分恰巧就是p的熵，加号的后一部分就是交叉熵，我们将其单独拎出来：
$H(p,q)=−∑_{i=1}^{n}p(x_i)log(q(x_i))$
其中p是样本的label真实概率值，q是对样本predict的概率值。
由于KL散度中的前一部分 $- H (p (x))$ 不变(因为样本的标签不变)，故在优化过程中，只需要关注交叉熵就可以了。所以一般在机器学习中直接用用交叉熵做loss，评估模型。