TensorFlow中的梯度裁剪

最新推荐文章于 2024-02-18 09:33:03 发布

Wanderer001

最新推荐文章于 2024-02-18 09:33:03 发布

阅读量1.9k

点赞数 5

分类专栏： TensorFlow 文章标签：计算机视觉深度学习机器学习

本文链接：https://blog.csdn.net/weixin_36670529/article/details/103929878

版权

TensorFlow 专栏收录该内容

222 篇文章 24 订阅

订阅专栏

参考 Tensorflow中的梯度裁剪 - 云+社区 - 腾讯云

本文简单介绍梯度裁剪(gradient clipping)的方法及其作用，不管在 RNN 或者在其他网络都是可以使用的，比如博主最最近训练的 DNN 网络中就在用。

梯度裁剪一般用于解决梯度爆炸(gradient explosion) 问题，而梯度爆炸问题在训练 RNN 过程中出现得尤为频繁，所以训练 RNN 基本都需要带上这个参数。常见的 gradient clipping 有两种做法

根据参数的 gradient 的值直接进行裁剪
根据若干参数的 gradient 组成的 vector 的 L2 norm 进行裁剪

第一种做法很容易理解，就是先设定一个 gradient 的范围如 (-1, 1), 小于 -1 的 gradient 设为 -1，大于这个 1 的 gradient 设为 1.

第二种方法则更为常见，先设定一个 clip_norm, 然后在某一次反向传播后，通过各个参数的 gradient 构成一个 vector，计算这个 vector 的 L2 norm（平方和后开根号）记为 LNorm，然后比较 LNorm 和 clip_norm 的值，若 LNorm <= clip_norm 不做处理，否则计算缩放因子 scale_factor = clip_norm/LNorm ，然后令原来的梯度乘上这个缩放因子。这样做是为了让 gradient vector 的 L2 norm 小于预设的 clip_norm。

关于 gradient clipping 的作用可更直观地参考下面的图，没有 gradient clipping 时，若梯度过大优化算法会越过最优点。

而在一些的框架中，设置 gradient clipping 往往也是在 Optimizer 中设置，如 tensorflow 中设置如下

optimizer = tf.train.AdamOptimizer(learning_rate=learning_rate)
gvs = optimizer.compute_gradients(cost)
capped_gvs = [(tf.clip_by_value(grad, -1., 1.), var) for grad, var in gvs]
train_op = optimizer.apply_gradients(capped_gvs)

Keras 中设置则更为简单：

optimizer = optimizers.SGD(lr=0.001, momentum=0.9, clipnorm=1.),

Wanderer001

关注

5
点赞
踩
5

收藏

觉得还不错? 一键收藏
打赏
0
评论
TensorFlow中的梯度裁剪

本文简单介绍梯度裁剪(gradient clipping)的方法及其作用，不管在 RNN 或者在其他网络都是可以使用的，比如博主最最近训练的 DNN 网络中就在用。梯度裁剪一般用于解决梯度爆炸(gradient explosion) 问题，而梯度爆炸问题在训练 RNN 过程中出现得尤为频繁，所以训练 RNN 基本都需要带上这个参数。常见的 gradient clipping 有两种做法根...
复制链接

扫一扫