大模型理论基础Task01-补充

qq_57067122

已于 2023-12-13 01:51:15 修改

阅读量881

点赞数 19

文章标签：机器学习

于 2023-12-13 01:47:45 首次发布

本文链接：https://blog.csdn.net/qq_57067122/article/details/134962256

版权

交叉熵和香农熵都是信息论中的重要概念，它们之间有密切的关系。

香农熵：如前所述，香农熵是用来量化一个随机变量的不确定性的。一个随机变量的香农熵越高，意味着它的不确定性越大，即它提供的信息量越多。
交叉熵：交叉熵是用来度量两个概率分布之间的差异的。具体来说，对于两个概率分布 $P$ 和 $Q$ ，交叉熵衡量的是当假定概率分布是 $Q$ 时，描述由 $P$ 产生的事件所需的平均比特数。其公式为：

$-\sum_{x} P(x) \log Q(x)$

其中， $P (x)$ 是随机变量 $X$ 在分布 $P$ 中取特定值 $x$ 的概率，而 $\log Q(x)$ 是分布 $Q$ 中对应于这些事件的自信息。

关系：

当 $P$ 和 $Q$ 相同时，交叉熵就等于香农熵。这是因为在这种情况下，用来编码事件的概率分布与实际发生事件的概率分布相同。
交叉熵和香农熵通常一起用于机器学习中的分类问题。在这种情况下， $P$ 表示真实标签的分布，而 $Q$ 表示模型预测的分布。交叉熵作为损失函数，目的是最小化预测分布与真实分布之间的差异。
另一个相关概念是相对熵（KL散度），它衡量的是当用模型 $Q$ 来近似真实分布 $P$ 时，所产生的信息损失。相对熵可以看作是交叉熵和香农熵之间的差异。

总的来说，交叉熵和香农熵在概念上是紧密相连的，它们都与衡量信息的不确定性和差异有关。

这句话指的是交叉熵 $H (p, q)$ 和熵 $H (p)$ 之间的一个重要关系，具体来说，是交叉熵的值不小于熵的值。这个属性源自信息论中的一些基本概念，特别是相对熵（也称为KL散度）的概念。

交叉熵 $H (p, q)$ 表示的是当使用概率分布 $q$ 来编码来自概率分布 $p$ 的事件时的平均编码长度（或者说信息量）。而熵 $H (p)$ 表示的是使用最优编码（即真实分布 $p$ 本身）来编码来自 $p$ 的事件时的平均编码长度。

相对熵（KL散度） $D_{KL}(p \parallel q)$ 表示的是使用分布 $q$ 来近似分布 $p$ 时的信息损失量，计算公式为：

$D_{KL}(p \parallel q) = \sum_{x} p(x) \log \frac{p(x)}{q(x)}$

这可以重写为：

$D_{KL}(p \parallel q) = H(p, q) - H(p)$

由于相对熵总是非负的（即 $D_{KL}(p \parallel q) \geq 0$ ），这意味着：

$\geq H(p)$

换句话说，使用任何不是完全匹配真实分布 $p$ 的分布 $q$ 来编码事件，都会导致额外的信息量（即更长的编码长度）。这就是说交叉熵的值至少和熵一样大，通常是更大的。这个性质在很多领域中都很重要，特别是在机器学习中，它解释了为什么优化交叉熵损失函数能够帮助模型学习接近真实的概率分布。

关注