深度学习常见概念解释（一）—— 梯度消失和爆炸

天蓝今天不要咸鱼！

已于 2024-04-11 10:30:54 修改

阅读量2.5k

点赞数 36

文章标签：深度学习人工智能笔记

于 2024-04-08 07:14:28 首次发布

本文链接：https://blog.csdn.net/XISHI_TIANLAN/article/details/137488963

版权

深度学习常见概念整理

梯度消失
- 定义
- 原因
- 影响
- 应对策略
梯度爆炸
- 定义
- 原因
- 影响
- 应对策略
总结

因为最近在研究深度学习相关的内容，经常会看到一些常见的概念和定义，但是一直没能彻底理解，在该系列笔记里整理一下：

梯度消失

定义

梯度消失问题（Vanishing Gradient Problem）是神经网络，尤其是深层神经网络在训练过程中常见的一个问题。它指的是在神经网络的训练过程中，当误差梯度（gradient）被反向传播回网络的输入层时，梯度的值变得非常小，甚至接近于零，导致网络权重的更新非常缓慢或者几乎不更新，这使得网络很难继续学习或者完全无法收敛到一个好的解。

原因

梯度消失通常发生在使用传统的激活函数（如Sigmoid或Tanh）的深度网络中。这些激活函数的导数在输入值较大或较小时都非常接近于零。例如，Sigmoid函数的输出范围是(0,1)，其导数最大值为0.25，而当输入值远离零点时，导数迅速趋近于零。在深层网络中，这些小的梯度值被连乘，导致梯度在到达输入层时已经几乎为零。Sigmoid函数，Tanh函数公式，图像，还有它们分别的导数图像如下图一，二，三所示。
在这里插入图片描述