什么是梯度消失? 梯度消失是指当神经网络层数增多时,越靠近输入层的层之间的权重无法得到有效修正(导数趋于0),从而得到神经网络效果不好。 为什么会出现梯度消失? 由于反向传播算法,各层之间的权重系数是通过导数来修正的。而当网络层数增多时,由于链式法则,当导数值小于1时(如sigmoid函数),越靠近输入层的导数越接近0,从而权重系数无法得到有效修正。 如何解决梯度消失? 可以通过以下方式解决(还有其他方式,此处没有列出) 1.用其他激活函数,如relu 2.用残差网络等