因为最近在研究深度学习相关的内容,经常会看到一些常见的概念和定义,但是一直没能彻底理解,在该系列笔记里整理一下:
梯度消失
定义
梯度消失问题(Vanishing Gradient Problem)是神经网络,尤其是深层神经网络在训练过程中常见的一个问题。它指的是在神经网络的训练过程中,当误差梯度(gradient)被反向传播回网络的输入层时,梯度的值变得非常小,甚至接近于零,导致网络权重的更新非常缓慢或者几乎不更新,这使得网络很难继续学习或者完全无法收敛到一个好的解。
原因
梯度消失通常发生在使用传统的激活函数(如Sigmoid或Tanh)的深度网络中。这些激活函数的导数在输入值较大或较小时都非常接近于零。例如,Sigmoid函数的输出范围是(0,1),其导数最大值为0.25,而当输入值远离零点时,导数迅速趋近于零。在深层网络中,这些小的梯度值被连乘,导致梯度在到达输入层时已经几乎为零。Sigmoid函数,Tanh函数公式,图像,还有它们分别的导数图像如下图一,二,三所示。