交叉熵损失计算过程

声明

1,本文整体偏向小白风。
2,尽量少贴公式,就讲下原理。我觉得讲清交叉熵根本不需要一堆公式和各种术语。

前言

交叉熵损失常用于分类任务。
优点是误差较大时,学习速度较快。
本文以pytorch中自带的实现函数为依据,解释下交叉熵损失的计算过程。

二分类任务单样本

以minst数据集识别为例,就是一个典型的多分类任务。
经过网上搜索,一通复制黏贴,网络计算,最终输出维度应该是10(对应十分类,下文用out指代输出)。此处,先简化下问题,假设现在只识别0和1,将问题简化为二分类任务。
那损失函数的入参就是out和label,label就是样本的标签。
再简化下例子,假设现在就一个样本。也就是说,现在任务成了,二分类任务的一个样本的输出。那输出应该是类似这样的

tensor[[0, 1.0]]

这个输出并不是概率值,而是计算值。那首先就需要将其归一化到0~1之间。

exp(0) / (exp(0)+exp(1.0))
exp(1.0) / (exp(0)+exp(1.0))

其实就是以自然数e为底数,做次方运算。
假设这个样本的标签是0
根据二分类交叉熵损失公式(百度下,网上很多)

-ln(yi*pi+(1-yi)(1-pi))
yi--第i个样本的标签值,此处假设的单样本,标签为0;
pi--第i个样本预测为正样本(也就是预测为1)的概率值,也就是--exp(1) / (exp(0)+exp(1.0))=2.7183/(1+2.7183)=0.7311;
此时,yi=0,则yi*pi+(1-yi)(1-pi) = 1-pi=1-0.7311=0.2689。
ln0.2689 = -1.313,取负值就是1.313。

以上结果可自行用pytorch验证下。

伪代码:cross(tensor[[0, 1.0]], tensor[0])

二分类多样本

好了,二分类任务的单样本,这个最简单的例子就完成了。
多样本呢?无非是计算所有样本后取平均值。easy,一笔带过。

多分类任务呢

网上也能找到多分类交叉熵损失函数计算公式。
但是,我觉得可以简化一下,多分类单样本的损失计算公式为:

-ln(pi[label-index])

也就是说,以标签值的index作为pi的index,从概率值数组拿出对应的概率值进行计算。
其实就是官方公式的变种。因为,官方公式中的Yi,k除了在标签值时取值为1,其余为0。那累加项其实就一项。
用人话说就是,假如一个样本要预测0-9,实际标签是0,那计算结果是0-9的十个概率值,可我肯定关心的是输出为0的概率值。那我只要把输出为0的概率值拿来计算就行了。
当然,官方公式那样写多半有其用意。随着学习深入,随缘探究吧。

小结

整体步骤归纳下:
1,对输出做归一化。貌似好像这一步就是softmax;
2,对标签值对应的概率值取对数,再取负值。
3,对各样本损失值取平均数;

扩展

计算过程很简单。
扣下细节。为什么要对概率值取对数,再取负数呢。

1,先说取负数。由于概率值永远小于1,softmax不可能计算出概率值等于1的。因为e的次方算不出0。进而,ln的曲线可以自己在纸上划一下,x取值小于1的情况下,lnx输出永远小于0。且x值越小,则计算结果越小,其绝对值越大。那我们肯定希望对实际标签的预测概率值越小,则误差越大。那取个负值,相当于取了其绝对值,也就顺理成章。
2,为什么要取对数。前面说了,交叉熵的优点就是“误差较大时,学习速度较快”。我们肯定希望离终点很远的时候步子能大一点,也就是误差计算结果能大一点。那只要把上面第一点说的那张图画出来,你看下x轴的步长映射都y轴上的步长变化,也就明白了–实现这一目的是利用了对数曲线的特性。

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值