神经网络训练中的梯度消失与梯度爆炸

最新推荐文章于 2020-07-30 17:12:51 发布

贱小杜

最新推荐文章于 2020-07-30 17:12:51 发布

阅读量489

点赞数

分类专栏：计算机视觉论文

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_41088475/article/details/105774478

版权

计算机视觉论文专栏收录该内容

19 篇文章 17 订阅

订阅专栏

梯度消失会导致深层网络前面的层权值几乎不变，仍接近于初始化的权值，就等价于只有后几层的浅层网络的学习了。

层数比较多的神经网络模型在训练时也是会出现一些问题的，其中就包括梯度消失问题（gradient vanishing problem）和梯度爆炸问题（gradient exploding problem）。梯度消失问题和梯度爆炸问题一般随着网络层数的增加会变得越来越明显。
例如，对于下图所示的含有3个隐藏层的神经网络，梯度消失问题发生时，接近于输出层的hidden layer 3等的权值更新相对正常，但前面的hidden layer 1的权值更新会变得很慢，导致前面的层权值几乎不变，仍接近于初始化的权值，这就导致hidden layer 1相当于只是一个映射层，对所有的输入做了一个同一映射，这是此深层网络的学习就等价于只有后几层的浅层网络的学习了。
在这里插入图片描述

梯度消失和爆炸产生的原因

在这里插入图片描述

解决办法

其实梯度爆炸和梯度消失问题都是因为网络太深，网络权值更新不稳定造成的，本质上是因为梯度反向传播中的连乘效应。对于更普遍的梯度消失问题，可以考虑用ReLU激活函数取代sigmoid激活函数。另外，采用Resne残差结构。LSTM的结构设计也可以改善RNN中的梯度消失问题。

来源：
神经网络训练中的梯度消失与梯度爆炸 - PENG的文章 - 知乎
https://zhuanlan.zhihu.com/p/25631496

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。