交叉熵损失和二元交叉熵损失

飞机火车巴雷特

已于 2023-09-20 13:44:22 修改

阅读量2.8w

点赞数 37

分类专栏：机器学习文章标签：损失函数

于 2022-04-10 11:58:28 首次发布

本文链接：https://blog.csdn.net/qq_36158230/article/details/124071087

版权

机器学习专栏收录该内容

33 篇文章

订阅专栏

本文介绍了交叉熵损失作为衡量两个概率分布接近程度的指标，它在机器学习中用于指导模型优化。二元交叉熵损失是交叉熵在二分类问题中的应用，其特点是当预测值接近真实标签时损失小，反之则大，有助于模型训练。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

一、什么是交叉熵损失(Cross Entropy Loss)

交叉熵是信息论的概念。WIKIPEDIA给出的交叉熵定义如下

上面的意思大概是说，给定两个概率分布p和q，通过q来表示p的交叉熵为

其中 $\mathit{E_p}[\cdot ]$ 是关于分布q的期望值算子。如果概率分布p和概率分布q是离散的，那么通过q来表示p的交叉熵为

交叉熵刻画的是两个概率分布之间的距离。交叉熵越小，两个概率分布越接近。举个例子

交叉熵损失定义为

其中， $\bold{y}_i$ 是标签值， $y_i'$ 是预测值。

注意，这里的预测值一般是通过数据和模型参数经过某种可导的计算后所求得的结果。交叉熵损失通过梯度下降来不断地使预测值的分布接近标签值的分布，与此同时模型的参数也得到更新，而这就是机器学习中所谓的学习。

二、什么是二元交叉熵损失(Binary Cross Entropy Loss)

二元交叉熵损失定义为

$\mathrm{BCELoss}=-\frac{1}{n}\sum_{i=1}^{n}[y_i\cdot \mathrm{log}p(y_i=1)+(1-y_i)\cdot \mathrm{log}(1-p(y_i=1))]$

其中 $\tiny y_i$ 是第i个样本的二元标签值0或者1（ground truth）， $\tiny p(y_i=1)$ 是模型对第i个样本的预测值，即模型预测第i个样本标签值为1的概率。

可以轻易地分析出来，当标签值 $\tiny y_i=1$ 时， $\tiny 1-y_i=1-1=0$ ；当标签值 $\tiny y_i=0$ 时， $\tiny 1-y_i=1-0=1$ 。也就是说，在二元交叉熵损失函数第一项 $\tiny y_i\cdot \mathrm{log}p(y_i=1)$ 和第二项 $\tiny (1-y_i)\cdot \mathrm{log}(1-p(y_i))$ 之中，必定有一项的值为0。

我们再来看第一项和第二项的函数图像（横坐标为 $\tiny p(y_i=1)$ ，纵坐标为第i个样本的 $\tiny \mathrm{BCELoss}$ ）：

当标签值 $\tiny y_i=1$ 时， $\tiny \mathrm{BCELoss}=-\mathrm{log}p(y_i=1)$ ，如果 $\tiny p(y_i=1)$ 接近1， $\tiny \mathrm{BCELoss}$ 接近0；如果 $\tiny p(y_i=1)$ 接近0， $\tiny \mathrm{BCELoss}$ 则变得无穷大。

当标签值 $\tiny y_i=0$ 时， $\tiny \mathrm{BCELoss}=-\mathrm{log}(1-p(y_i=1))$ ，如果 $\tiny p(y_i=1)$ 接近1， $\tiny \mathrm{BCELoss}$ 变得无穷大；如果 $\tiny p(y_i=1)$ 接近0， $\tiny \mathrm{BCELoss}$ 接近0。