交叉熵损失计算过程

最新推荐文章于 2024-07-25 00:38:11 发布

Bailiwuyi

最新推荐文章于 2024-07-25 00:38:11 发布

阅读量4k

点赞数 2

文章标签： pytorch 计算机视觉

本文链接：https://blog.csdn.net/OHRadiance/article/details/124462671

版权

声明

1，本文整体偏向小白风。
2，尽量少贴公式，就讲下原理。我觉得讲清交叉熵根本不需要一堆公式和各种术语。

前言

交叉熵损失常用于分类任务。
优点是误差较大时，学习速度较快。
本文以pytorch中自带的实现函数为依据，解释下交叉熵损失的计算过程。

二分类任务单样本

以minst数据集识别为例，就是一个典型的多分类任务。
经过网上搜索，一通复制黏贴，网络计算，最终输出维度应该是10（对应十分类，下文用out指代输出）。此处，先简化下问题，假设现在只识别0和1，将问题简化为二分类任务。
那损失函数的入参就是out和label，label就是样本的标签。
再简化下例子，假设现在就一个样本。也就是说，现在任务成了，二分类任务的一个样本的输出。那输出应该是类似这样的

tensor[[0, 1.0]]

这个输出并不是概率值，而是计算值。那首先就需要将其归一化到0~1之间。

exp(0) / (exp(0)+exp(1.0))
exp(1.0) / (exp(0)+exp(1.0))

其实就是以自然数e为底数，做次方运算。
假设这个样本的标签是0
根据二分类交叉熵损失公式（百度下，网上很多）

-ln(yi*pi+(1-yi)(1-pi))
yi--第i个样本的标签值，此处假设的单样本，标签为0；
pi--第i个样本预测为正样本（也就是预测为1）的概率值，也就是--exp(1) / (exp(0)+exp(1.0))=2.7183/（1+2.7183）=0.7311；
此时，yi=0，则yi*pi+(1-yi)(1-pi) = 1-pi=1-0.7311=0.2689。
ln0.2689 = -1.313，取负值就是1.313。

以上结果可自行用pytorch验证下。

伪代码：cross(tensor[[0, 1.0]], tensor[0])

二分类多样本

好了，二分类任务的单样本，这个最简单的例子就完成了。
多样本呢？无非是计算所有样本后取平均值。easy，一笔带过。

多分类任务呢

网上也能找到多分类交叉熵损失函数计算公式。
但是，我觉得可以简化一下，多分类单样本的损失计算公式为：

-ln(pi[label-index])

也就是说，以标签值的index作为pi的index，从概率值数组拿出对应的概率值进行计算。
其实就是官方公式的变种。因为，官方公式中的Yi,k除了在标签值时取值为1，其余为0。那累加项其实就一项。
用人话说就是，假如一个样本要预测0-9，实际标签是0，那计算结果是0-9的十个概率值，可我肯定关心的是输出为0的概率值。那我只要把输出为0的概率值拿来计算就行了。
当然，官方公式那样写多半有其用意。随着学习深入，随缘探究吧。

小结

整体步骤归纳下：
1，对输出做归一化。貌似好像这一步就是softmax；
2，对标签值对应的概率值取对数，再取负值。
3，对各样本损失值取平均数；

扩展

计算过程很简单。
扣下细节。为什么要对概率值取对数，再取负数呢。

1，先说取负数。由于概率值永远小于1，softmax不可能计算出概率值等于1的。因为e的次方算不出0。进而，ln的曲线可以自己在纸上划一下，x取值小于1的情况下，lnx输出永远小于0。且x值越小，则计算结果越小，其绝对值越大。那我们肯定希望对实际标签的预测概率值越小，则误差越大。那取个负值，相当于取了其绝对值，也就顺理成章。
2，为什么要取对数。前面说了，交叉熵的优点就是“误差较大时，学习速度较快”。我们肯定希望离终点很远的时候步子能大一点，也就是误差计算结果能大一点。那只要把上面第一点说的那张图画出来，你看下x轴的步长映射都y轴上的步长变化，也就明白了–实现这一目的是利用了对数曲线的特性。

Bailiwuyi

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
交叉熵损失计算过程

声明1，本文整体偏向小白风。2，尽量少贴公式，就讲下原理。我觉得讲清交叉熵根本不需要一堆公式和各种术语。前言交叉熵损失常用于分类任务。优点是误差较大时，学习速度较快。本文以pytorch中自带的实现函数为依据，解释下交叉熵损失的计算过程。二分类任务单样本以minst数据集识别为例，就是一个典型的多分类任务。经过网上搜索，一通复制黏贴，网络计算，最终输出维度应该是10（对应十分类，下文用out指代输出）。此处，先简化下问题，假设现在只识别0和1，将问题简化为二分类任务。那损失函数的入参
复制链接

扫一扫