梯度裁剪 深度学习中是通过梯度下降的方法进行模型的训练与学习,如果参数梯度小于1,则经过多次乘积之后参数梯度趋于0,这会导致模型参数得不到很充分的训练,这种现象叫做梯度消失;同样,如果参数梯度大于1,则经过多次成绩之后参数梯度趋于无穷大,这就会产生参数爆炸。 梯度裁剪是应对参数爆炸的一种方法,即将参数梯度的大小限制在一个最大值之内。