tf.clip_by_global_norm详解

我的代码是:grads, _ = tf.clip_by_global_norm ( tf.gradients(self.cost, self.tvars ) , config.max_grad_norm )  

Gradient Clipping的引入是为了处理梯度爆炸的问题。当在一次迭代中权重的更新过于迅猛的话,很容易导致“损失散度”。Gradient Clipping的直观作用就是让权重的更新限制在一个合适的范围。

主要过程:
(1)先设置一个clip_gradient(clip_norm或max_grad_norm)
(2)在前向传播与反向传播之后,我们会得到每个权重的梯度diff,(本文的梯度是由tf.gradients(self.cost, self.tvars)计算而来),这时不像通常那样直接使用这些梯度进行权重更新,而是先求所有权重梯度的平方和再求根号sumsq_diff(global_norm),若clip_gradient > global_norm ,就不进行截取,如果global_norm > clip_gradient,则求缩放因子scale_factor = clip_gradient / global_norm。这个scale_factor在(0,1)之间。
(3)最后将所有的权重梯度乘以这个缩放因子,这时得到的梯度才是最后的梯度信息。

 

  • 这样就保证了在一次迭代更新中,所有权重的梯度的平方和在一个设定范围以内,这个范围就是clip_gradient。
  • 函数返回截取过的梯度张量列表和一个所有张量的全局范数global_norm。
  • 函数原型:tf.clip_by_global_norm(t_list, clip_norm, use_norm=None, name=None) ,t_list是梯度列表
  • t_list的更新公式:t_list[i] * clip_gradient / max(global_norm, clip_gradient)
  • global_norm = sqrt(sum([l2norm(t)**2 for t in t_list])) 

PS:若global_norm=Infinity(无穷),则返回的梯度列表是nan,来提示有错误

  • 6
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

若初雪舞

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值