TensorFlow教程——梯度爆炸与梯度裁剪

最新推荐文章于 2025-05-21 12:58:24 发布

手撕机

最新推荐文章于 2025-05-21 12:58:24 发布

阅读量1.4w

点赞数 11

CC 4.0 BY-SA版权

分类专栏： TensorFlow 1.0 文章标签： TensorFlow 梯度裁剪 Gradient Clipping

原创文章，未经授权请勿转载。

本文链接：https://blog.csdn.net/guolindonggld/article/details/79547284

TensorFlow 1.0 专栏收录该内容

11 篇文章

订阅专栏

本文探讨了在深度学习中遇到的梯度爆炸问题及其对模型训练的影响，并介绍了梯度裁剪这一解决方案。通过限制梯度的大小可以有效避免梯度爆炸导致的训练不稳定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

在较深的网络，如多层CNN或者非常长的RNN，由于求导的链式法则，有可能会出现梯度消失（Gradient Vanishing）或梯度爆炸（Gradient Exploding ）的问题。（这部分知识后面补充）

原理

问题：为什么梯度爆炸会造成训练时不稳定而且不收敛？
梯度爆炸，其实就是偏导数很大的意思。回想我们使用梯度下降方法更新参数：

w 1 w 2 = w 1 - α \partial J ( w ) \partial w 1 = w 2 - α \partial J ( w ) \partial w 2 (1)

$\begin{equation} \begin{aligned} w_1 & = w_1-\alpha \frac{\partial J(\mathbf{w})}{\partial w_1} \\ w_2 & = w_2-\alpha \frac{\partial J(\mathbf{w})}{\partial w_2} \end{aligned} \end{equation}$

损失函数的值沿着梯度的方向呈下降趋势，然而，如果梯度（偏导数）很大话，就会出现函数值跳来跳去，收敛不到最值的情况，如图：

这里写图片描述

当然出现这种情况，其中一种解决方法是，将学习率 $\alpha$ 设小一点，如0.0001。

这里介绍梯度裁剪（Gradient Clipping）的方法，对梯度进行裁剪，论文提出对梯度的L2范数进行裁剪，也就是所有参数偏导数的平方和再开方。

让 $g_1=\frac{\partial J(\mathbf{w})}{\partial w_1}$ ， $g_2=\frac{\partial J(\mathbf{w})}{\partial w_2}$ ，设定裁剪阈值为 $c$ ， $\parallel \mathbf{g} \parallel _2 = \sqrt{g_1^2+g_2^2}$ 。

当 $\parallel \mathbf{g} \parallel _2$ 大于 $c$ 时：

g = \frac{c}{∥ g ∥_{2}} \cdot g

$\mathbf{g}=\frac{c}{\parallel \mathbf{g} \parallel _2 } \cdot \mathbf{g}$

当 $\parallel \mathbf{g} \parallel _2$ 小于等于 $c$ 时： $\mathbf{g}$ 不变。

其中， $\frac{c}{\parallel \mathbf{g} \parallel _2 }$ 是一个标量，大家有没有觉得这个跟学习率 $\alpha$ 很类似？

TensorFlow代码

方法一：

optimizer = tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.5)
grads = optimizer.compute_gradients(loss)
for i, (g, v) in enumerate(grads):
    if g is not None:
        grads[i] = (tf.clip_by_norm(g, 5), v)  # 阈值这里设为5
train_op = optimizer.apply_gradients(grads)

其中
optimizer.compute_gradients()返回的是正常计算的梯度，是一个包含(gradient, variable)的列表。

tf.clip_by_norm(t, clip_norm)返回裁剪过的梯度，维度跟t一样。

不过这里需要注意的是，这里范数的计算不是根据全局的梯度，而是一部分的。

方法二：

optimizer = tf.train.AdamOptimizer(learning_rate=0.001, beta1=0.5)
grads, variables = zip(*optimizer.compute_gradients(loss))
grads, global_norm = tf.clip_by_global_norm(grads, 5)
train_op = optimizer.apply_gradients(zip(grads, variables))

这里是计算全局范数，这才是标准的。不过缺点就是会慢一点，因为需要全部梯度计算完之后才能进行裁剪。