神经网络训练中的梯度消失与梯度爆炸

最新推荐文章于 2024-06-14 22:20:40 发布

南淮北安

最新推荐文章于 2024-06-14 22:20:40 发布

阅读量1k

点赞数

分类专栏：深度学习知识点笔记文章标签：神经网络训练中的梯度消失与梯度爆炸

原文链接：https://zhuanlan.zhihu.com/p/25631496

版权

深度学习知识点笔记专栏收录该内容

84 篇文章 416 订阅 ¥39.90 ¥99.00

订阅专栏

深度神经网络在训练时面临梯度消失和梯度爆炸问题，随着层数增加，这些问题愈发显著。梯度消失可能导致前面层权重几乎不更新，影响网络学习效果。为缓解这一问题，可以采用ReLU激活函数替代sigmoid，或者利用LSTM结构来改善RNN中的梯度消失问题。ReLU的导数特性有助于避免梯度消失和梯度爆炸现象。

摘要由CSDN通过智能技术生成

层数比较多的神经网络模型在训练时也是会出现一些问题的，其中就包括
梯度消失问题（gradient vanishing problem）和梯度爆炸问题（gradient exploding problem）。
梯度消失问题和梯度爆炸问题一般随着网络层数的增加会变得越来越明显。

例如，对于下图所示的含有 3 个隐藏层的神经网络，梯度消失问题发生时，接近于输出层的hidden layer 3等的权值更新相对正常，但前面的hidden layer 1的权值更新会变得很慢，导致前面的层权值几乎不变，仍接近于初始化的权值，这就导致hidden layer 1相当于只是一个映射层，对所有的输入做了一个同一映射，这是此深层网络的学习就等价于只有后几层的浅层网络的学习了。

在这里插入图片描述

其实梯度爆炸和梯度消失问题都是因为网络太深，网络权值更新不稳定造成的，本质上是因为梯度反向传播中的连乘效应。对于更普遍的梯度消失问题，可以考虑用ReLU激活函数取代sigmoid激活函数。另外，LSTM的结构设计也可以改善RNN中的梯度消失问题。