交叉熵损失函数总结: 定义、应用及求导-CSDN博客

本文链接：https://blog.csdn.net/kuweicai/article/details/106414179

本文详细介绍了交叉熵损失函数，从信息熵、相对熵的概念出发，解释了交叉熵的定义及其在分类任务中的应用。同时，文章还探讨了二分类和多分类任务下交叉熵损失函数的公式及求导过程，展示了它在反向传播中的优势。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

交叉熵损失函数总结: 定义、应用及求导

先说熵(entropie)，熵最早出现在热力学中，用于度量一个热力学系统的无序程度。后来熵被引入到信息论里面，表示对不确定性的测量。

为了弄清楚交叉熵，首先需要弄清楚交叉熵相关的几个概念。

1.1 信息量

信息量用于刻画消除随机变量X在x处的不确定性所需的信息量的大小。也就是说不确定性越高，信息量越大。信息量的数学表达式如下，其中 $p$ 为随机变量 $X$ 的概率分布，即 $p (x)$ 为随机变量 $X$ 在 $X = x$ 处的概率密度函数值。

$-\log{p(x)} = \log{\frac{1}{p(x)}}$

1.2 信息熵

信息熵也叫熵。上面的信息量定义了随机变量 $X$ 在一个点处的香农信息量，那么如何衡量随机变量 $X$ （或整个样本空间）的总体香农信息量呢？下面就要引出随机变量 $X$ 的信息熵的概念，或概率分布 $p$ 的信息熵。信息熵 $H (p)$ 是香农信息量 $I (x)$ 的数学期望，即所有 $X = x$ 处的香农信息量的和，由于每一个 $x$ 出现的概率不一样（用概率密度函数值 $p (x)$ 衡量），需要用 $p (x)$ 加权求和。因此信息熵是用于刻画消除随机变量 $X$ 的不确定性所需要的总体信息量的大小。其数学定义如下：

$E_{x~p}[I(x)] = -\sum_{i=1}^{N}p(x_i)\log{p(x_i)}$

1.3 相对熵

相对熵，又称KL散度（Kullback-Leibler divergence），是两个概率分布 p 和 q 之间的差异的非对称性的度量。在信息论中，相对熵等价于两个概率分布的信息熵的差值。

$\begin{aligned} D_{KL}(p,q) &= E_{x~p}[\log{\frac{p(x)}{q(x)}}] \\ &= E_{x~p}[\log{p(x) - \log{q(x)}}] \\ &= \sum_{i=1}^{N}p(x_i)[\log{p(x) - \log{q(x)}}] \end{aligned}$

1.4 交叉熵

交叉熵是 Shannon 信息论中的一个重要概念，主要用于度量两个概率分布间的差异性信息。在信息论中，交叉熵表示两个概率分布 p, q，其中 p 表示真实分布，q 表示拟合分布，在同一组事件中，其中用拟合分布 q 来表示某个事件发生所需要的平均比特数。
更进一步，假设 $q (x)$ 是用来拟合 $p (x)$ 的概率分布， $x$ 属于 $p$ 的样本空间，交叉熵用于衡量 $q$ 在拟合 $p$ 的过程中，用于消除不确定性而充分使用的信息量大小（理解为衡量 $q$ 为了拟合 $p$ 所付出的努力，另外注意交叉熵定义里的“充分使用”和信息熵定义里的“所需”的区别，“充分使用”不一定能达到全部，“所需”是指全部）。
由于在每一个点 $X = x$ 处 $q$ 的香农信息量为 $log{q(x)}$ ，也就是在点 $X = x$ 处， $q$ 消除不确定性而充分使用的信息量为 $log{q(x)}$ （理解为衡量 $q$ 在 $ X=x$ 处为了拟合 $p$ 所作的努力），那么就可以计算出在整个样本空间上 $q$ 消除不确定性而充分使用的总体信息量，即 $log{q(x)}$ 的数学期望，由于每个 $x$ 的权重为 $p (x)$ ，因此交叉熵 $H (p, q)$ 为：