【PyTorch 理论】交叉熵损失函数的理解

最新推荐文章于 2024-05-13 20:32:49 发布

满船清梦压星河HK

最新推荐文章于 2024-05-13 20:32:49 发布

阅读量2.2k

点赞数 20

分类专栏： PyTorch、python 文章标签： pytorch

本文链接：https://blog.csdn.net/qq_38253797/article/details/116225218

版权

10 篇文章 7 订阅

订阅专栏

一、交叉熵损失函数的数学原理

我们知道，在二分类问题模型，真实样本的标签为 [0，1]，分别表示负类和正类。模型的最后通常会经过一个 Sigmoid 函数，输出一个概率值，这个概率值反映了预测为正类的可能性：概率越大，可能性越大。

Sigmoid 函数的表达式和图形如下所示：

\frac{1}{ 1+e^{-s}}

在这里插入图片描述

其中 s 是模型上一层的输出，Sigmoid 函数有这样的特点：s = 0 时，g(s) = 0.5；s >> 0 时， g ≈ 1; s<<0时，g ≈ 0。显然，g(s) 将前一级的线性输出映射到 [0，1] 之间的数值概率上。这里的 g(s) 就是交叉熵公式中的模型预测输出。

预测输出 $\hat{y}$ 即 Sigmoid 函数的输出表征了当前样本标签为 1 的概率：

\hat{y} =P(y=1|x)

很明显，当前样本标签为 0 的概率就可以表达成：

1-\hat{y} =P(y=0|x)

再从极大似然性的角度出发，把上面两种情况整合到一起：

P(y|x)=\hat{y} ^y*(1-\hat{y})^{1-y}

不懂极大似然估计也没关系。我们可以这么来看：

\hat{y}+(1−y)log (1−\hat{y})]

以上，我们已经推导出了单个样本的损失函数，是如果是计算 N 个样本的总的损失函数，只要将 N 个 Loss 叠加起来就可以了：
在这里插入图片描述

这样，我们已经完整地实现了交叉熵损失函数的推导过程。

接下来，我们从图形的角度，分析交叉熵函数，加深大家的理解。
首先，还是写出单个样本的交叉熵损失函数：

\hat{y}+(1−y)log (1−\hat{y})]

我们知道，当 y = 1 时：

\hat{y}

这时候，L 与预测输出的关系如下图所示：
在这里插入图片描述

横坐标是预测输出，纵坐标是交叉熵损失函数 L。显然，预测输出越接近真实样本标签 1，损失函数 L 越小；预测输出越接近 0，L 越大。因此，函数的变化趋势完全符合实际需要的情况。
当 y = 0 时：

(1−\hat{y})

这时候，L 与预测输出的关系如下图所示：
在这里插入图片描述

同样，预测输出越接近真实样本标签 0，损失函数 L 越小；预测函数越接近 1，L 越大。函数的变化趋势也完全符合实际需要的情况。

从上面两种图，可以帮助我们对交叉熵损失函数有更直观的理解。无论真实样本标签 y 是 0 还是 1，L 都表征了预测输出与 y 的差距。

另外，重点提一点的是，从图形中我们可以发现：预测输出与 y 差得越多，L 的值越大，也就是说对当前模型的 “ 惩罚 ” 越大，而且是非线性增大，是一种类似指数增长的级别。这是由 log 函数本身的特性所决定的。这样的好处是模型会倾向于让预测输出更接近真实样本标签 y。

关注