翻译自Nikhil Garg的Quora回答。
梯度消失是使用梯度下降方法的神经网络中出现的问题,其表现是,在反向回馈(backpropagation)中使整个网络难以调节前面几层的参数(Parameter)。当网络的层数越多时,梯度消失表现越明显。
这个问题不是神经网络所带来的,而是由特定的激活函数(activation function)采用梯度下降的方法所带来的。
问题
梯度下降方法通过参数的细小变化来影响整个神经网络的输出。但是如果参数的细小变化不能有效影响神经网络的输出(只带来非常小的改变),整个网络就不能有效的学习,这就是梯度消失问题。
在梯度消失的问题中,神经网络在最前面层的梯度变的非常小,即使前几层的参数变化很多,对神经网络的输出也影响不大。
原因
梯度消失问题取决于所选的激活函数,很多常用的激活函数如t(anh,sigmoid)通过非线性的方法将输入压缩到很小的范围内。例如:sigmoid函数( y = 1 / ( 1 + e ^ -x) )将输入压缩到(0,1)之间。所以即使很大的输入经过激活函数后也只有很小的输出,因此梯度很小。
(f1: sigmoid function)
当多层的非线性激活函数叠加在一起后,情况会变得更糟。例如第一层将一个大区间的输入映射到一个小的区间,下一层会将其映射到一个更小的区间,因此即使第一层的参数变化很大,也不会对影响整个输出。
解决方法
如何解决这样的问题呢?一个常用的方法就是通过Relu函数( y = max (0,x) )
(f2 : Relu function)