深度学习中交叉熵损失函数详解

最新推荐文章于 2025-03-22 22:01:38 发布

恩泽君

最新推荐文章于 2025-03-22 22:01:38 发布

阅读量4k

点赞数 4

分类专栏：深度学习文章标签：神经网络深度学习

本文链接：https://blog.csdn.net/qq_42109740/article/details/105336014

版权

深度学习专栏收录该内容

6 篇文章

订阅专栏

深度学习中交叉熵损失函数背景，公式推导详解

首先，我们来看下交叉熵损失函数的表达式：
在这里插入图片描述
其中上面那个方程式是用于计算最后一层激活函数为softmax函数的交叉熵损失函数，下面这个是用于计算最后一层激活函数为sigmoid函数的交叉熵损失函数。
下面我将从为什么使用交叉熵函数、交叉熵函数数学推导、为什么对于sigmoid和softmax两个函数的交叉熵损失函数有差别这三个方面来讲讲我的理解：

一、为什么使用交叉熵误差函数

交叉熵损失函数是基于什么样的背景下提出来的呢？是怎么提出来的？要想清楚这些，首先我们回归到最原始的二次损失计算公式：
在这里插入图片描述
这是一个经典的损失函数，而对于神经网络在训练过程中的梯度更新，最后一层的网络参数W,b的偏导数由下面公式给出：

可以看到，其为含有激活函数的导数的一个乘积，当我们选用最经典的sigmoid函数时，我们发现其导数：
在这里插入图片描述
在|Z|值比较大的时候数值很小，这使得模型趋于饱和，学习速率这时候会变得很慢，那有什么办法可以解决这个问题呢？一个办法就是可不可以想个办法不要激活函数导数这一项，可不可以通过构建一个新的损失函数，最后得到的关于w的偏导数是（a-y）*x，（这个x表示输出层前一层神经元输出值）。这就是交叉熵损失函数的背景。

二、交叉熵损失函数数学推导

在这里插入图片描述
可以看到，其实这里计算得到的交叉熵损失函数对于所有的激活函数满足：激活函数导数=激活函数*（1-激活函数），都适用，也就是说最后的到的偏导数里面都没有激活函数的导数这一项，所以根据sigmoid和softmax函数的导数特性，他们呢都是满足这个要求的，也就是说都可以通过上面那个交叉熵函数技术损失函数的。