手推梯度消失和梯度爆炸问题

最新推荐文章于 2022-03-15 11:55:21 发布

苏学算法

最新推荐文章于 2022-03-15 11:55:21 发布

阅读量884

点赞数

分类专栏： python 算法深度学习文章标签：算法深度学习人工智能机器学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_41888257/article/details/107430710

版权

python 同时被 3 个专栏收录

234 篇文章 22 订阅

订阅专栏

172 篇文章 4 订阅

订阅专栏

36 篇文章 1 订阅

订阅专栏

采用 $s i g m o i d$ 为激活函数，当反向传播使用链式法则的时候会有连乘，就会出现梯度消失。

由于梯度消失现象，会导致靠近输入层的隐藏层权值更新缓慢或者更新停滞。这就导致在训练时，只等价于后面几层的浅层网络的学习。（因为推反向传播的时候才会用到链式法则，详细见后面推导）

解决办法

梯度消失和梯度爆炸本质上是一样的，都是因为网络层数太深而引发的梯度反向传播中的连乘效应。

解决梯度消失、爆炸主要有以下几种方案：

1. 换用Relu、LeakyRelu、Elu等激活函数

ReLu：让激活函数的导数为1
LeakyReLu：包含了ReLu的几乎所有有点，同时解决了 ReLu 中 0 区间带来的影响
ELU：和LeakyReLu一样，都是为了解决0区间问题，相对于来，elu计算更耗时一些（为什么）

具体可以看关于各种激活函数的解析与讨论

2. BatchNormalization （面试常考）

可参考 Batch Normalization（算法面试几乎必考）

3. ResNet残差结构、DenseNet

主要是 shortcut 这种操作，解决了梯度消失问题

4. LSTM结构

LSTM不太容易发生梯度消失，主要原因在于LSTM内部复杂的“门（gates）”，具体看LSTM基本原理解析

LSTM 超详细公式手推

5. 预训练加finetunning

此方法来自Hinton在06年发表的论文上，其基本思想是每次训练一层隐藏层节点，将上一层隐藏层的输出作为输入，而本层的输出作为下一层的输入，这就是逐层预训练。

训练完成后，再对整个网络进行“微调（fine-tunning）”。

此方法相当于是找局部最优，然后整合起来寻找全局最优，但是现在基本都是直接拿imagenet的预训练模型直接进行finetunning。

6. 梯度剪切（ Clip 操作）、正则

这个方案主要是针对梯度爆炸提出的，其思想是设值一个剪切阈值，如果更新梯度时，梯度超过了这个阈值，那么就将其强制限制在这个范围之内。这样可以防止梯度爆炸。

另一种防止梯度爆炸的手段是采用权重正则化，正则化主要是通过对网络权重做正则来限制过拟合，但是根据正则项在损失函数中的形式：

可以看出，如果发生梯度爆炸，那么权值的范数就会变的非常大，反过来，通过限制正则化项的大小，也可以在一定程度上限制梯度爆炸的发生。

7. 权重初始化时候的一些技巧

梯度消失推导：
在这里插入图片描述

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
手推梯度消失和梯度爆炸问题

采用 sigmoidsigmoidsigmoid 为激活函数，当反向传播使用链式法则的时候会有连乘，就会出现梯度消失。由于梯度消失现象，会导致靠近输入层的隐藏层权值更新缓慢或者更新停滞。这就导致在训练时，只等价于后面几层的浅层网络的学习。（因为推反向传播的时候才会用到链式法则，详细见后面推导）解决办法梯度消失和梯度爆炸本质上是一样的，都是因为网络层数太深而引发的梯度反向传播中的连乘效应。解决梯度消失、爆炸主要有以下几种方案：1. 换用Relu、LeakyRelu、Elu等激活函数ReL
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。