tf.clip_by_global_norm详解

最新推荐文章于 2024-05-03 10:04:38 发布

若初雪舞

最新推荐文章于 2024-05-03 10:04:38 发布

阅读量2.4k

点赞数 6

分类专栏： LSTM（TensorFlow）文章标签：深度学习 python lstm

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_40486477/article/details/113745408

版权

LSTM（TensorFlow）专栏收录该内容

7 篇文章 1 订阅

订阅专栏

我的代码是：grads, _ = tf.clip_by_global_norm ( tf.gradients(self.cost, self.tvars ) , config.max_grad_norm )

Gradient Clipping的引入是为了处理梯度爆炸的问题。当在一次迭代中权重的更新过于迅猛的话，很容易导致“损失散度”。Gradient Clipping的直观作用就是让权重的更新限制在一个合适的范围。

主要过程：
（1）先设置一个clip_gradient（clip_norm或max_grad_norm）
（2）在前向传播与反向传播之后，我们会得到每个权重的梯度diff，（本文的梯度是由tf.gradients(self.cost, self.tvars)计算而来），这时不像通常那样直接使用这些梯度进行权重更新，而是先求所有权重梯度的平方和再求根号sumsq_diff（global_norm），若clip_gradient > global_norm ，就不进行截取，如果global_norm > clip_gradient，则求缩放因子scale_factor = clip_gradient / global_norm。这个scale_factor在(0,1)之间。
（3）最后将所有的权重梯度乘以这个缩放因子，这时得到的梯度才是最后的梯度信息。

这样就保证了在一次迭代更新中，所有权重的梯度的平方和在一个设定范围以内，这个范围就是clip_gradient。
函数返回截取过的梯度张量列表和一个所有张量的全局范数global_norm。
函数原型：tf.clip_by_global_norm(t_list, clip_norm, use_norm=None, name=None) ，t_list是梯度列表
t_list的更新公式：t_list[i] * clip_gradient / max(global_norm, clip_gradient)
global_norm = sqrt(sum([l2norm(t)**2 for t in t_list]))

PS:若global_norm=Infinity（无穷），则返回的梯度列表是nan，来提示有错误

关注

6
点赞
踩
3

收藏

觉得还不错? 一键收藏
打赏
0
评论
tf.clip_by_global_norm详解

我的代码是：grads, _ = tf.clip_by_global_norm ( tf.gradients(self.cost, self.tvars ) , config.max_grad_norm ) Gradient Clipping的引入是为了处理梯度爆炸的问题。当在一次迭代中权重的更新过于迅猛的话，很容易导致“损失散度”。Gradient Clipping的直观作用就是让权重的更新限制在一个合适的范围。主要过程：（1）先设置一个clip_gradient（clip_norm或max_.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

若初雪舞 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。