【2】深度神经网络的损失函数/激活函数

jho9o5

已于 2022-03-29 14:18:00 修改

阅读量1k

点赞数 2

分类专栏：深度学习文章标签：激活函数损失函数

于 2019-05-07 09:52:39 首次发布

本文为博主原创文章，未经博主允许不得转载。

本文链接：https://blog.csdn.net/jh1137921986/article/details/89915030

版权

1.平方差损失函数 && Sigmoid激活函数1.1 Sigmoid函数 Sigmoid函数的表达式为：σ(z)=11+e−z\sigma(z)=\frac{1}{1+e^{-z}}σ(z)=1+e−z1 对...

摘要由CSDN通过智能技术生成

文章目录

1.平方差损失函数 && Sigmoid激活函数

1.1 Sigmoid函数

Sigmoid函数的表达式为： $\sigma(z)=\frac{1}{1+e^{-z}}$ 对应的函数图像为：

观察图像可发现，Sigmoid函数将输入的实数值压缩到(0,1)的实数范围内。更进一步地说，Sigmoid函数将很大的负数变为了0，将很大的正数变为了1。

在以前，Sigmoid函数因为具有良好的神经元激活频率的解释（从完全不激活0到完全激活状态1），经常被用作神经网络的激活函数，然而现在不太受欢迎了，主要是因为以下三个缺点：

1.Sigmoid函数饱和时使梯度消失。Sigmoid神经元有一个不好的特性，就是当神经元的激活值在接近0或1处会饱和，在这些区域，会导致梯度几乎为0（从图像可以看到，导数值几乎为0）！回顾一下，在反向传播的时候，我们更新 $W^l和b^l$ 梯度时，都会乘上Sigmoid的梯度，如果这个Sigmoid的梯度非常小，那么就会导致相乘的最终结果为接近0，即导致梯度消失。（文章下面会有详细公式说明）

2.Sigmoid函数的输出不是零中心的，这没有满足我们想要的性质。在神经网络后面层中的神经元，得到的输入值（上一层的激活值）数据不是零中心的，如果输入的数据总是正数，那么关于w的梯度，在反向传播的过程中，将会要么全是正数，要么全是负数，导致梯度更新时，权重出现Z字型抖动，导致收敛的速度会变得很慢。不过如果采用批量梯度下降法时，整个批量的数据的梯度加起来，权重的更新会有不同的正负，收敛速度加快，因此相比于上个问题而言，这只是一个小问题。

3.Sigmoid函数中，涉及到指数运算，相比于其他的激活函数而言，这个计算起来较慢。

1.2 平方差损失函数在反向传播时的 $W^l和b^l$ 梯度更新式

根据上一节所学，可知梯度的计算如下：
$\begin{aligned} \frac{\partial J(W, b, a, y)}{\partial W^{l}} &=\frac{\partial J(W, b, a, y)}{\partial z^{l}} \frac{\partial z^{l}}{\partial W^{l}}=\delta^{l}\left(a^{l-1}\right)^{T} \\\\ \frac{\partial J(W, b, a, y)}{\partial b^{l}} &=\frac{\partial J(W, b, a, y)}{\partial z^{l}} \frac{\partial z^{l}}{\partial b^{L}}=\delta^{l} \end{aligned}$ 其中， $\delta^l$ 为：
$\delta^{l}=\delta^{l+1} \frac{\partial z^{l+1}}{\partial z^{l}}=\left(W^{l+1}\right)^{T} \delta^{l+1} \odot \sigma^{\prime}\left(z^{l}\right)$

最低0.47元/天解锁文章

jho9o5

关注

2
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
【2】深度神经网络的损失函数/激活函数

1.平方差损失函数 && Sigmoid激活函数1.1 Sigmoid函数       Sigmoid函数的表达式为：σ(z)=11+e−z\sigma(z)=\frac{1}{1+e^{-z}}σ(z)=1+e−z1       对...
复制链接

扫一扫