为什么sigmoid激活函数，使用交叉熵损失函数更好。详细推导过程：

最新推荐文章于 2023-07-16 12:26:25 发布

奔跑的汉堡包

最新推荐文章于 2023-07-16 12:26:25 发布

阅读量4.8k

点赞数 16

文章标签： sigmoid 交叉熵损失函数推导

本文链接：https://blog.csdn.net/qq_29679623/article/details/99441913

版权

sigmoid+交叉熵为什么更好，这是困扰了我大半天的问题，网上所有的教程都直接给出了最后一步的结果，我手推了好久，终于醒悟，下面附上详细的推导过程：

我们定义并简化一下公式：
1、网络的最后一层输出为： $z=(Wx^{}+b)$ 其中W为权重，b为偏置，严格来说里面的参数都是矩阵，不过我们计算就当作单独的参数，过程是一样的。
2、我们需要在输出后面加上sigmoid损失函数：
$g(z)=Sigmoid(z)=\frac{1}{1+e^{-z}}$
3、上式的a就是我们最终的输出值，与期望的输出值y，也就是真实值，共同计算损失函数。这里我们使用交叉熵损失函数：
$L=CE(a,y)=-[y\ln a+(1-y)\ln(1-a)]$

好了，这就是正向传播的一个输出，我们目的是反向传播得到W和b的梯度 $\frac{\partial L}{\partial W}$ , $\frac{\partial L}{\partial b}$ 由于 $\frac{\partial L}{\partial W}=\frac{\partial L}{\partial z}*x$ , $\frac{\partial L}{\partial b}=\frac{\partial L}{\partial z}$ ，所以我们就直接求 $\frac{\partial L}{\partial z}$ 。

首先，把z代入最后的损失函数里面,式中g(z)就是sigmoid激活函数： $L=CE(g(z),y)=-[y\ln g(z)+(1-y)\ln(1-g(z))]$
对z求偏导：
$\frac{\partial L}{\partial z}=-[\frac{y*g'(z)}{g(z)}+\frac{-(1-y)*g'(z)}{(1-g(z))}]$
里面两项合并：
$\frac{\partial L}{\partial z}=-[\frac{y*g'(z)*(1-g(z))-(1-y)*g'(z)*g(z))}{g(z)*(1-g(z))}]$
展开，合并之后，得到：
$\frac{\partial L}{\partial z}=\frac{(g(z)-y)*g'(z)}{g(z)*(1-g(z))}$
之前推到这一步，就进展不下去了。但是sigmoid还有一个重要的性质，那就是sigmoid函数的导数, $S i g m o i d^{'} (x) = S i g m o i d (x) * (1 - S i g m o i d (x))$ ，我们这里的g(z)函数就是Sigmoid，仔细看一下，这个式子的分母， $g (z) * (1 - g (z)) = g^{'} (z)$
所以最后得到的公式为： $\frac{\partial L}{\partial z}=g(z)-y$
使用sigmoid+交叉熵的计算过程，就可以完全省去计算Sigmoid梯度这一步，从而避免了Sigmoid本身弥散的致命缺点。

奔跑的汉堡包

关注

16
点赞
踩
23

收藏

觉得还不错? 一键收藏
3
评论
为什么sigmoid激活函数，使用交叉熵损失函数更好。详细推导过程：

sigmoid+交叉熵为什么更好，这是困扰了我大半天的问题，网上所有的教程都直接给出了最后一部的结果，我手推了好久，终于醒悟，下面附上详细的推导过程：首先，我们定义并简化一下公式：[a=\sum_{i=0}^{N} ( Wx^{i} + b)]&&L(a)=\sum_{i=0}^{N}&&...
复制链接

扫一扫