随着神经网络层数的增加,会出现梯度消失或者梯度爆炸的问题,下面细说下问什么会出现:
文中出现的学习速率与深度学习中的定义的学习率(learning rate)有所区别,不要混淆,这只是为了解释问题构建的概念。
以上说的变化率,其实就是梯度
下面来看几组通过增加隐藏层层数后的每一层偏置的变化情况(从数学角度上在这里可以理解为在反向传播过程中每一次迭代对每一层偏置的求导结果变化情况,也就是梯度的大小变化情况,也就是需要更新的值的大小变化情况):
随着神经网络层数的增加,会出现梯度消失或者梯度爆炸的问题,下面细说下问什么会出现:
文中出现的学习速率与深度学习中的定义的学习率(learning rate)有所区别,不要混淆,这只是为了解释问题构建的概念。
以上说的变化率,其实就是梯度
下面来看几组通过增加隐藏层层数后的每一层偏置的变化情况(从数学角度上在这里可以理解为在反向传播过程中每一次迭代对每一层偏置的求导结果变化情况,也就是梯度的大小变化情况,也就是需要更新的值的大小变化情况):