梯度消失和梯度爆炸:
深度神经网络训练的时候,采用反向传播方式,该方式背后其实是链式求导,计算每层梯度的时候会涉及一些连成操作,因此如果网络过深,那么如果连乘的因子大部分小于1,最后乘积可能趋于0;另一方面,如果连乘的因子大部分大于1,最后乘积可能趋于无穷。这就是所谓的梯度消失和梯度爆炸。
深度学习中一些常见的问题
最新推荐文章于 2021-09-20 10:30:27 发布
梯度消失和梯度爆炸:
深度神经网络训练的时候,采用反向传播方式,该方式背后其实是链式求导,计算每层梯度的时候会涉及一些连成操作,因此如果网络过深,那么如果连乘的因子大部分小于1,最后乘积可能趋于0;另一方面,如果连乘的因子大部分大于1,最后乘积可能趋于无穷。这就是所谓的梯度消失和梯度爆炸。