梯度消失和梯度爆炸使得网络越深越难训练
我们都知道神经网络的计算过程依靠的是前向传播和误差反向传播。误差反向传播用于更新网络参数,但是由于误差反向传播主要依靠于链式求导法则,即就是某一层的参数调整是依赖于它后边所有层与误差的偏导数的,这就使得不同层的参数的训练速度不同。靠近输入层的网络层容易发生梯度消失/爆炸,可以简单理解为当各层的偏导数比较小时,反传至输入层时候梯度就会特别小(消失),反之就会特别大(爆炸),梯度非常大或者非常小就会使得网络参数更新速度过大/过小。
为加深原理上的理解,小伙伴们可以自己手动推一遍神经网络正向计算与误差反传过程。