神经网络梯度消失和梯度爆炸及解决办法

最新推荐文章于 2024-07-28 16:01:05 发布

Microstrong0305

最新推荐文章于 2024-07-28 16:01:05 发布

阅读量2.2w

点赞数 36

分类专栏：深度学习深度学习文章标签：深度学习激活函数神经网络梯度消失梯度爆炸

本文链接：https://blog.csdn.net/program_developer/article/details/80032376

版权

本文探讨了深度神经网络中常见的梯度消失和梯度爆炸问题，分析了它们的根本原因，特别是sigmoid激活函数在这些问题中的角色。提出了使用ReLU、Leaky ReLU、PReLU等激活函数以及Batch Normalization等方法作为解决方案。同时，比较了sigmoid、tanh与ReLU系列激活函数的优缺点，为选择激活函数提供了实践指导。

摘要由CSDN通过智能技术生成

关注微信公众号【Microstrong】,我现在研究方向是机器学习、深度学习，分享我在学习过程中的读书笔记！一起来学习，一起来交流，一起来进步吧！

本文同步更新在我的微信公众号中，公众号文章地址：https://mp.weixin.qq.com/s/6xHC5woJND14bozsBNaaXQ

（1）神经网络梯度消失与梯度爆炸

（2）几种激活函数的比较

推荐阅读：《神经网络激活函数的作用是什么？》

一、神经网络梯度消失与梯度爆炸

(1)简介梯度消失与梯度爆炸

层数比较多的神经网络模型在训练的时候会出现梯度消失(gradient vanishing problem)和梯度爆炸(gradient exploding problem)问题。梯度消失问题和梯度爆炸问题一般会随着网络层数的增加变得越来越明显。

例如，对于图1所示的含有3个隐藏层的神经网络，梯度消失问题发生时，靠近输出层的hidden layer 3的权值更新相对正常，但是靠近输入层的hidden layer1的权值更新会变得很慢，导致靠近输入层的隐藏层权值几乎不变，扔接近于初始化的权值。这就导致hidden layer 1 相当于只是一个映射层，对所有的输入做了一个函数映射，这时此深度神经网络的学习就等价于只有后几层的隐藏层网络在学习。梯度爆炸的情况是：当初始的权值过大，靠近输入层的hidden layer 1的权值变化比靠近输出层的hidden layer 3的权值变化更快，就会引起梯度爆炸的问题。