TensorFlow-tf.clip_by_global_norm函数原理

最新推荐文章于 2024-12-06 19:25:49 发布

大师鲁

最新推荐文章于 2024-12-06 19:25:49 发布

阅读量2.7k

点赞数

CC 4.0 BY-SA版权

本文链接：https://blog.csdn.net/laolu1573/article/details/77193584

本文介绍了GradientClipping技术，用于解决训练过程中梯度爆炸问题。通过限制权重更新的幅度，确保模型稳定收敛。具体实现包括设置阈值、计算缩放因子等步骤。

Gradient Clipping的引入是为了处理gradient explosion（不是gradients vanishing）的问题。当在一次迭代中权重的更新过于迅猛的话，很容易导致loss divergence。Gradient Clipping的直观作用就是让权重的更新限制在一个合适的范围。

Gradient Clipping的具体细节是
１．在solver中先设置一个clip_gradient
２．在前向传播与反向传播之后，我们会得到每个权重的梯度diff，这时不像通常那样直接使用这些梯度进行权重更新，而是先求所有权重梯度的平方和sumsq_diff，如果sumsq_diff > clip_gradient，则求缩放因子scale_factor = clip_gradient / sumsq_diff。这个scale_factor在(0,1)之间。如果权重梯度的平方和sumsq_diff越大，那缩放因子将越小。
３．最后将所有的权重梯度乘以这个缩放因子，这时得到的梯度才是最后的梯度信息。