tf.clip_by_global_norm理解

最新推荐文章于 2022-11-02 17:02:56 发布

mstar1992

最新推荐文章于 2022-11-02 17:02:56 发布

阅读量3.4w

点赞数 24

分类专栏：深度学习 tensorflow

本文链接：https://blog.csdn.net/u013713117/article/details/56281715

版权

深度学习同时被 2 个专栏收录

23 篇文章 1 订阅

订阅专栏

tensorflow

14 篇文章 1 订阅

订阅专栏

Gradient Clipping的引入是为了处理gradient explosion或者gradients vanishing的问题。当在一次迭代中权重的更新过于迅猛的话，很容易导致loss divergence。Gradient Clipping的直观作用就是让权重的更新限制在一个合适的范围。

具体的细节是
１．在solver中先设置一个clip_gradient
２．在前向传播与反向传播之后，我们会得到每个权重的梯度diff，这时不像通常那样直接使用这些梯度进行权重更新，而是先求所有权重梯度的平方和sumsq_diff，如果sumsq_diff > clip_gradient，则求缩放因子scale_factor = clip_gradient / sumsq_diff。这个scale_factor在(0,1)之间。如果权重梯度的平方和sumsq_diff越大，那缩放因子将越小。
３．最后将所有的权重梯度乘以这个缩放因子，这时得到的梯度才是最后的梯度信息。

这样就保证了在一次迭代更新中，所有权重的梯度的平方和在一个设定范围以内，这个范围就是clip_gradient.

tf.clip_by_global_norm

tf.clip_by_global_norm(t_list, clip_norm, use_norm=None, name=None)

通过权重梯度的总和的比率来截取多个张量的值。
t_list 是梯度张量， clip_norm 是截取的比率, 这个函数返回截取过的梯度张量和一个所有张量的全局范数。

t_list[i] 的更新公式如下:

t_list[i] * clip_norm / max(global_norm, clip_norm)

其中global_norm = sqrt(sum([l2norm(t)**2 for t in t_list]))
global_norm 是所有梯度的平方和，如果 clip_norm > global_norm ，就不进行截取。
但是这个函数的速度比clip_by_norm() 要慢，因为在截取之前所有的参数都要准备好。其他实现的函数还有这些

mstar1992

关注

24
点赞
踩
62

收藏

觉得还不错? 一键收藏
4
评论
tf.clip_by_global_norm理解

Gradient Clipping的引入是为了处理gradient explosion或者gradients vanishing的问题。当在一次迭代中权重的更新过于迅猛的话，很容易导致loss divergence。Gradient Clipping的直观作用就是让权重的更新限制在一个合适的范围。具体的细节是１．在solver中先设置一个clip_gradient ２．在前向传播与反向传播之后
复制链接

扫一扫