交叉熵简介

最新推荐文章于 2024-08-09 13:44:55 发布

@迷途小书童

最新推荐文章于 2024-08-09 13:44:55 发布

阅读量2.1k

点赞数 1

分类专栏：深度学习与计算机视觉

本文链接：https://blog.csdn.net/qq_43660987/article/details/93587402

版权

深度学习与计算机视觉专栏收录该内容

9 篇文章 1 订阅

订阅专栏

1，信息论

1.1 信息量

机器学习的本质是信息论。在信息论中，首先我们引入了信息熵的概念。认为一切信息都是一个概率分布。所谓信息熵，就是这段信息的不确定性，即是信息量。如果一段信息，我无论怎么解读都正确，就没有信息量。如果一个信息，我正确解读的概率极低，就包含了极大信息量。
假设X是一个离散型随机变量，其取值集合为χ,概率分布函数为：
在这里插入图片描述
则定义事件X=x0的信息量为：

由于是概率所以p(x0)的取值范围是[0,1],绘制为图形如下：

即确定的事件没有信息，随机事件包含最多的信息。

1.2 信息熵

事件的概率分布和每个事件的信息量构成了一个随机变量，这个随机变量的均值（即期望）就是这个分布产生的信息量的平均值（即熵）。
举一个例子，假设你拿出了你的电脑，按下开关，会有三种可能性，下表列出了每一种可能的概率及其对应的信息量（对数均取自然对数）
在这里插入图片描述我们现在有了信息量的值，而熵用来表示所有信息量的期望，即：

其中n代表所有的n种可能性，所以上面的问题结果就是：

对于二项分布的问题，熵的计算方法可以简化为如下算式：

1.3 相对熵（KL散度）

相对熵又称KL散度,如果我们对于同一个随机变量 x 有两个单独的概率分布 P(x) 和 Q(x)，我们可以使用 KL 散度（Kullback-Leibler (KL) divergence）来衡量这两个分布的差异。
在机器学习中，P往往用来表示样本的真实分布，比如[1,0,0]表示当前样本属于第一类。Q用来表示模型所预测的分布，比如[0.7,0.2,0.1]
直观的理解就是如果用P来描述样本，那么就非常完美。而用Q来描述样本，虽然可以大致描述，但是不是那么的完美，信息量不足，需要额外的一些“信息增量”才能达到和P一样完美的描述。如果我们的Q通过反复训练，也能完美的描述样本，那么就不再需要额外的“信息增量”，Q等价于P。即如果用P来描述目标问题，而不是用Q来描述目标问题，得到的信息增量（相对熵）。
KL散度的计算公式：
在这里插入图片描述
n为事件的所有可能性。DKL的值越小，表示q分布和p分布越接近

1.4 交叉熵

对上式变形可以得到：
在这里插入图片描述
等式的前一部分恰巧就是p的熵，等式的后一部分，就是交叉熵：

在机器学习中，我们需要评估label和predicts之间的差距，使用KL散度刚刚好，即DKL(y||y^)，由于KL散度中的前一部分−H(y)不变，故在优化过程中，只需要关注交叉熵就可以了。所以一般在机器学习中直接用交叉熵做loss，评估模型。也就是交叉熵就是真值分布的熵与KL散度的和，而真值的熵是确定的，与模型的参数Θ无关，所以梯度下降求导时 ∇H(P,Q)=∇DKL(P||Q)，也就是说最小化交叉熵与最小化KL散度是一样的。
举个例子说明：在某音乐APP中，当用户听歌时，遇到喜欢的歌可能会点喜欢按钮。但我们并不能保证用户100%是因为喜欢这首歌才点喜欢按钮的。
我们对用户的心理作如下假设：1/2是真的喜欢，1/4是随便点的,1/4不喜欢
在这里插入图片描述

实际上用户的真实想法是：1/4是真的喜欢，1/2是随便点的,1/4不喜欢
在这里插入图片描述
先猜是不是喜欢，再猜是不是随便点的：

1/2概率一次猜中真的喜欢，1/4的概率两次猜中随便点的，1/4的概率两次猜中不喜欢。
信息熵为：
1/2 * 1 + 1/4 * 2 + 1/4 * 2 = 1.5
接下来我们会根据自己假设的概率分布进行错误的验证流程：
我们的猜测次数的期望会变成：
1/2 * 2 + 1/4 * 1 + 1/4 * 2 = 1.75
这个数字高于了我们前面计算的1.5。因为我们对用户的想法有了错误的判断。高于信息熵了，说明我心中的概率分布是错误的。交叉熵的意义在于，用这样一套模型来表示，我假设的概率分布与实际的概率分布相差有多远。用这样的一个量，来定义我预估事情的错误程度(loss)。

2，机器学习中交叉熵的应用

在线性回归问题中，常常使用MSE（Mean Squared Error）作为loss函数，比如：
在这里插入图片描述

这里的m表示m个样本的，loss为m个样本的loss均值。MSE在线性回归问题中比较好用，适用于预测数值，即回归问题模型。而交叉熵cee用于逻辑回归，适用于预测概率，即分类问题模型。

在机器学习中，通过最大似然估计方法使参数为Θ^的模型使预测值贴近真实数据的概率最大化，即：
在这里插入图片描述
实际操作中，连乘很容易出现最大值或最小值溢出，造成计算不稳定，由于log函数的单调性，所以将上式进行取对数取负，最小化负对数似然(NLL)的结果与原始式子是一样的，即：

对模型的预测值进行最大似然估计：
在这里插入图片描述
所以最小化NLL和最小化交叉熵最后达到的效果是一样的。

综上所述，从优化模型参数角度来说，最小化交叉熵，最大似然估计，KL散度这3种方式对模型参数的更新来说是一样的。从这点来看也解释了为什么在深度学习中交叉熵是非常常用的损失函数的原因了。

2.1 交叉熵在在单分类问题中的使用

这里的单类别是指，每一张图像样本只能有一个类别，比如只能是狗或只能是猫。交叉熵在单分类问题上的表达式为：
在这里插入图片描述
上式为一张样本的loss计算方法，其中n代表着n种类别。举例说明,比如有如下样本：

对应的标签和预测值：
在这里插入图片描述那么则有：

对应一个batch的loss就是：

m为当前batch的样本数。

2.2 交叉熵在多分类问题中的使用

这里的多类别是指，每一张图像样本可以有多个类别，比如同时包含一只猫和一只狗。和单分类问题的标签不同，多分类的标签是n-hot。比如下面这张样本图，即有青蛙又有老鼠，所以是一个多分类问题。
在这里插入图片描述
对应的标签和预测值：
值得注意的是，这里的Pred不再是通过softmax计算的了，这里采用的是sigmoid。将每一个节点的输出归一化到[0,1]之间。所有Pred值的和也不再为1。换句话说，就是每一个Label都是独立分布的，相互之间没有影响。所以交叉熵在这里是单独对每一个节点进行计算，每一个节点只有两种可能值，所以是一个二项分布。前面说过对于二项分布这种特殊的分布，熵的计算可以进行简化。同样的，交叉熵的计算也可以简化，即
在这里插入图片描述
注意，上式只是针对一个节点的计算公式。这一点一定要和单分类loss区分开来。例子中可以计算为：

单张样本的loss即为：

每一个batch的loss就是：

式中m为当前batch中的样本量，n为类别数。
参考博文链接：https://blog.csdn.net/tsyccnh/article/details/79163834