交叉熵损失函数

交叉熵损失函数

1.表达式

(1)二分类

在二分的情况下,模型最后需要预测的结果只有两种情况,对于每个类别我们的预测得到的概率为p和 1-p ,此时表达式为:
在这里插入图片描述

(2)多分类

多分类的情况实际上就是对二分类的扩展:
在这里插入图片描述

2.函数性质

在这里插入图片描述
可以看出,该函数是凸函数,求导时能够得到全局最优值。

3.学习过程

交叉熵损失函数经常用于分类问题中,特别是在神经网络做分类问题时,也经常使用交叉熵作为损失函数,此外,由于交叉熵涉及到计算每个类别的概率,所以交叉熵几乎每次都和sigmoid(或softmax)函数一起出现。

整个模型预测、获得损失和学习的流程:

  • 神经网络最后一层得到每个类别的得分scores(也叫logits)
  • 该得分经过sigmoid(或softmax)函数获得概率输出;
  • 模型预测的类别概率输出与真实类别的one hot形式进行交叉熵损失函数的计算。

(1)二分类情况

在这里插入图片描述
如上图所示,求导过程可分成三个子过程,即拆成三项偏导的乘积:
在这里插入图片描述

计算第一项:

在这里插入图片描述

计算第二项:

这一项要计算的是sigmoid函数对于score的导数,先回顾一下sigmoid函数和分数求导的公式:
在这里插入图片描述

计算第三项:

一般来说,scores是输入的线性函数作用的结果,所以有:
在这里插入图片描述

计算结果:

在这里插入图片描述
可以看到,我们得到了一个非常漂亮的结果,所以,使用交叉熵损失函数,不仅可以很好的衡量模型的效果,又可以很容易的的进行求导计算。

4.优缺点

(1)优点

在用梯度下降法做参数更新的时候,模型学习的速度取决于两个值:一、学习率;二、偏导值。其中,学习率是我们需要设置的超参数,所以我们重点关注偏导值。从上面的式子中,我们发现,偏导值的大小取决于 x 3 x^{3} x3 [ σ ( s ) − y ] [\sigma(s)-y] [σ(s)y] ,我们重点关注后者,后者的大小值反映了我们模型的错误程度,该值越大,说明模型效果越差,但是该值越大同时也会使得偏导值越大,从而模型学习速度更快。所以,使用逻辑函数得到概率,并结合交叉熵当损失函数时,在模型效果差的时候学习速度比较快,在模型效果好的时候学习速度变慢。

(2)缺点

Deng在2019年提出了ArcFace Loss,并在论文里说了Softmax Loss的两个缺点:1、随着分类数目的增大,分类层的线性变化矩阵参数也随着增大;2、对于封闭集分类问题,学习到的特征是可分离的,但对于开放集人脸识别问题,所学特征却没有足够的区分性。 对于人脸识别问题,首先人脸数目(对应分类数目)是很多的,而且会不断有新的人脸进来,不是一个封闭集分类问题。

另外,sigmoid(softmax)+cross-entropy loss 擅长于学习类间的信息,因为它采用了类间竞争机制,它只关心对于正确标签预测概率的准确性,忽略了其他非正确标签的差异,导致学习到的特征比较散。基于这个问题的优化有很多,比如对softmax进行改进,如L-Softmax、SM-Softmax、AM-Softmax等。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值