梯度裁剪torch.nn.utils.clip_grad_norm_

最新推荐文章于 2024-12-25 09:39:29 发布

funNLPer

最新推荐文章于 2024-12-25 09:39:29 发布

阅读量1.6k

点赞数 1

分类专栏： pytorch 文章标签：深度学习 pytorch 神经网络

本文链接：https://blog.csdn.net/orangerfun/article/details/120397129

版权

pytorch 专栏收录该内容

30 篇文章

订阅专栏

1. 作用

防止梯度爆炸，即设置一个梯度大小的上限，当梯度的范数大于上限时，将该参数的范数设置为上限。

补充：范数
最常用的是p-范数，若向量 $x=\left[x_{1}, x_{2}, \cdots, x_{n}\right]^{\mathrm{T}}$ ，则p范数定义如下
$\|x\|_{p}=\left(\left|x_{1}\right|^{p}+\left|x_{2}\right|^{p}+\cdots+\left|x_{n}\right|^{p}\right)^{\frac{1}{p}}$
L1范数： $\|x\| _1=\left|x_{1}\right|+\left|x_{2}\right|+\ldots+\left|x_{n}\right|$
L2范数： $\|\mathrm{x}\| _2=\left(\left|\mathrm{x}_{1}\right|^{2}+\left|\mathrm{x}_{2}\right|^{2}+\ldots+\left|\mathrm{x}_{\mathrm{n}}\right|^{2}\right) ^{1 / 2}$
无穷范数： $\|\mathrm{x}\| _\infty=\max \left(\left|\mathrm{x}_{1}\right|,\left|\mathrm{x}_{2}\right|, \ldots, \quad\left|\mathrm{x}_{\mathrm{n}}\right|\right)$
参考如何通俗易懂地解释「范数」？

2. 使用

 torch.nn.utils.clipgrad_norm(parameters, max_norm, norm_type=2)

parameter 希望实施梯度裁剪的可迭代网络参数
max_norm 该组网络参数梯度的范数上限
norm_type 范数类型 [ 0, 1, 2…, inf ]

torch.nn.utils.clipgrad_norm()的使用应该在loss.backward()之后，optimizer.step()之前

3. 实验

loss, logits = model(input_ids=input_ids, mc_token_ids=mc_ids, labels=label)
loss.backward()
train_loss += loss.item()
for p in model.parameters():
    print(p.grad.norm())
    torch.nn.utils.clip_grad_norm_(p, 1)
    print(p.grad.norm())
optimizer.step()
optimizer.zero_grad()

执行一个循环后输出：

tensor(15.3762, device='cuda:1')
tensor(1.0000, device='cuda:1')

当范数小于1时输出

tensor(0.8803, device='cuda:1')
tensor(0.8803, device='cuda:1')