交叉熵损失和二元交叉熵损失

一、什么是交叉熵损失(Cross Entropy Loss)

        交叉熵是信息论的概念。WIKIPEDIA给出的交叉熵定义如下

        上面的意思大概是说,给定两个概率分布pq,通过q来表示p的交叉熵为

其中\mathit{E_p}[\cdot ]是关于分布q的期望值算子。如果概率分布p和概率分布q是离散的,那么通过q来表示p的交叉熵为

        交叉熵刻画的是两个概率分布之间的距离。交叉熵越小,两个概率分布越接近。举个例子

        交叉熵损失定义为

其中,\bold{y}_i是标签值,y_i'是预测值。

        注意,这里的预测值一般是通过数据和模型参数经过某种可导的计算后所求得的结果。交叉熵损失通过梯度下降来不断地使预测值的分布接近标签值的分布,与此同时模型的参数也得到更新,而这就是机器学习中所谓的学习。

二、什么是二元交叉熵损失(Binary Cross Entropy Loss)

        二元交叉熵损失定义为

\mathrm{BCELoss}=-\frac{1}{n}\sum_{i=1}^{n}[y_i\cdot \mathrm{log}p(y_i=1)+(1-y_i)\cdot \mathrm{log}(1-p(y_i=1))]

其中\tiny y_i是第i个样本的二元标签值0或者1(ground truth),\tiny p(y_i=1)是模型对第i个样本的预测值,即模型预测第i个样本标签值为1的概率。

        可以轻易地分析出来,当标签值\tiny y_i=1时,\tiny 1-y_i=1-1=0;当标签值\tiny y_i=0时,\tiny 1-y_i=1-0=1。也就是说,在二元交叉熵损失函数第一项\tiny y_i\cdot \mathrm{log}p(y_i=1)和第二项\tiny (1-y_i)\cdot \mathrm{log}(1-p(y_i))之中,必定有一项的值为0。

        我们再来看第一项和第二项的函数图像(横坐标为\tiny p(y_i=1),纵坐标为第i个样本的\tiny \mathrm{BCELoss}):

        当标签值\tiny y_i=1时 ,\tiny \mathrm{BCELoss}=-\mathrm{log}p(y_i=1)如果\tiny p(y_i=1)接近1,\tiny \mathrm{BCELoss}接近0;如果\tiny p(y_i=1)接近0, \tiny \mathrm{BCELoss}则变得无穷大。

        当标签值\tiny y_i=0时,\tiny \mathrm{BCELoss}=-\mathrm{log}(1-p(y_i=1)),如果\tiny p(y_i=1)接近1,\tiny \mathrm{BCELoss}变得无穷大;如果\tiny p(y_i=1)接近0,\tiny \mathrm{BCELoss}接近0。 

        通过以上的简单分析,当预测值接近标签值时损失很小,当预测值远离标签值时损失很大,这一特性是有利于模型的学习的。

三、参考

        交叉熵损失函数

        Cross Entropy

        binary cross entropy in its core

  • 31
    点赞
  • 100
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 4
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 4
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

飞机火车巴雷特

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值