TensorFlow中的梯度裁剪

参考  Tensorflow中的梯度裁剪 - 云+社区 - 腾讯云

本文简单介绍梯度裁剪(gradient clipping)的方法及其作用,不管在 RNN 或者在其他网络都是可以使用的,比如博主最最近训练的 DNN 网络中就在用。

梯度裁剪一般用于解决 梯度爆炸(gradient explosion) 问题,而梯度爆炸问题在训练 RNN 过程中出现得尤为频繁,所以训练 RNN 基本都需要带上这个参数。常见的 gradient clipping 有两种做法

  1. 根据参数的 gradient 的值直接进行裁剪
  2. 根据若干参数的 gradient 组成的 vector 的 L2 norm 进行裁剪

第一种做法很容易理解,就是先设定一个 gradient 的范围如 (-1, 1), 小于 -1 的 gradient 设为 -1, 大于这个 1 的 gradient 设为 1.

第二种方法则更为常见,先设定一个 clip_norm, 然后在某一次反向传播后,通过各个参数的 gradient 构成一个 vector,计算这个 vector 的 L2 norm(平方和后开根号)记为 LNorm,然后比较 LNorm 和 clip_norm 的值,若 LNorm <= clip_norm 不做处理,否则计算缩放因子 scale_factor = clip_norm/LNorm ,然后令原来的梯度乘上这个缩放因子。这样做是为了让 gradient vector 的 L2 norm 小于预设的 clip_norm

关于 gradient clipping 的作用可更直观地参考下面的图,没有 gradient clipping 时,若梯度过大优化算法会越过最优点。

而在一些的框架中,设置 gradient clipping 往往也是在 Optimizer 中设置,如 tensorflow 中设置如下

optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate)
gvs = optimizer.compute_gradients(cost)
capped_gvs = [(tf.clip_by_value(grad, -1., 1.), var) for grad, var in gvs]
train_op = optimizer.apply_gradients(capped_gvs)

Keras 中设置则更为简单:

optimizer = optimizers.SGD(lr=0.001, momentum=0.9, clipnorm=1.),

  • 5
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Wanderer001

ROIAlign原理

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值