DNN的损失函数和激活函数

最新推荐文章于 2021-02-23 08:51:28 发布

kakak_

最新推荐文章于 2021-02-23 08:51:28 发布

阅读量605

点赞数

分类专栏： Deep Learning

本文链接：https://blog.csdn.net/kakak_/article/details/105494640

版权

Deep Learning 专栏收录该内容

4 篇文章 0 订阅

订阅专栏

均方差损失函数+Sigmoid激活函数

Sigmoid激活函数 $\sigma(z) = \frac{1}{1+e^{-z}}$ 在这里插入图片描述

对于Sigmoid，当𝑧的取值越来越大后，函数曲线变得越来越平缓，意味着此时的导数𝜎′(𝑧)也越来越小。同样的，当𝑧的取值越来越小时，也有这个问题。仅仅在𝑧取值为0附近时，导数𝜎′(𝑧)的取值较大。
均方差+Sigmoid的BP反向传播算法中，每一层向前递推都要乘以𝜎′(𝑧),得到梯度变化值。Sigmoid曲线意味着在大多数时候，梯度变化值都很小，导致𝑊, 𝑏更新到极值的速度较慢。（算法收敛速度较慢）

交叉熵损失函数+Sigmoid激活函数

CrossEntropy损失函数 $J (W, b, a, y) = - [y l n a + (1 - y) l n (1 - a)]$ $\delta^L = \frac{\partial J(W,b,a^L,y)}{\partial z^L} = -y\frac{1}{a^L}(a^L)(1-a^L) + (1-y) \frac{1}{1-a^L}(a^L)(1-a^L)= a^L-y$

使用交叉熵，得到的的 $\delta^l$ 梯度表达式没有了𝜎′(𝑧)，梯度为预测值和真实值的差距，这样求得的 $W^l,b^l$ 的梯度也不包含𝜎′(𝑧)，因此避免了反向传播收敛速度慢的问题。

对数似然损失函数和softmax激活函数

Softmax激活函数 $a_i = \frac{e^{z_i}}{\sum\limits_{j=1}^{n}e^{z_j}}$
对数似然损失函数 $J(W,b,a^L,y) = - \sum\limits_ky_klna_k^L$ 如果某一训练样本的输出为第i类，则 $y_i$ = 1，其余的𝑗≠𝑖都有 $y_j$ = 0。 $J(W,b,a^L,y) = - lna_i^L$ $\frac{\partial J(W,b,a^L,y)}{\partial w_{ij}^L}= \frac{\partial J(W,b,a^L,y)}{\partial a_i^L}\frac{\partial a_i^L}{\partial z_i^L}\frac{\partial z_i^L}{\partial w_{ij}^L}=(a_i^L -1) a_j^{L-1}$ $\frac{\partial J(W,b,a^L,y)}{\partial b_i^L} = a_i^L -1$

梯度爆炸梯度消失与ReLU激活函数

在反向传播算法过程中，由于使用了矩阵求导的链式法则，如果连乘的数字在每层都小于1，则梯度越往前乘越小，导致梯度消失，而如果连乘的数字在每层都大于1，则梯度越往前乘越大，导致梯度爆炸。
$\delta^l =\frac{\partial J(W,b,x,y)}{\partial z^l} = (\frac{\partial z^L}{\partial z^{L-1}}\frac{\partial z^{L-1}}{\partial z^{L-2}}...\frac{\partial z^{l+1}}{\partial z^{l}})^T\frac{\partial J(W,b,x,y)}{\partial z^L}$

如果样本导致每一层 $\frac{\partial z^{l+1}}{\partial z^{l}}$ 都小于1，则随着反向传播的进行， $\delta^l$ 会随着层数越来越小，甚至接近于0，导致梯度几乎消失，进而导致前面隐藏层的𝑊, 𝑏参数随着迭代的进行，几乎没有大的改变，不能收敛。这个问题目前没有完美的解决办法。
- 一个可能部分解决梯度消失问题的办法是使用ReLU（Rectified Linear Unit）激活函数 $\sigma(z) = max(0,z)$
对于梯度爆炸，则一般可以通过调整DNN模型中的初始化参数得以解决。