【torch】|torch.nn.utils.clip_grad_norm_

最新推荐文章于 2024-05-28 16:44:20 发布

rrr2

最新推荐文章于 2024-05-28 16:44:20 发布

阅读量358

点赞数 1

分类专栏： pytorch学习文章标签：深度学习 python 人工智能

本文链接：https://blog.csdn.net/qq_35608277/article/details/125629201

版权

pytorch学习专栏收录该内容

42 篇文章 2 订阅

订阅专栏

在这里插入图片描述
梯度越大，total_norm值越大，进而导致clip_coef的值越小，最终也会导致对梯度的裁剪越厉害，很合理
norm_type不管取多少，对于total_norm的影响不是太大（1和2的差距稍微大一点），所以可以直接取默认值2
norm_type越大，total_norm越小（实验观察到的结论，数学不好，不会证明，所以本条不一定对）

...
loss = crit(...)

optimizer.zero_grad()
loss.backward()
torch.nn.utils.clip_grad_norm_(parameters=model.parameters(), max_norm=10, norm_type=2)
optimizer.step()
...

clip_coef越小，则对梯度的裁剪越厉害，即，使梯度的值缩小的越多
max_norm越小，clip_coef越小，所以，max_norm越大，对于梯度爆炸的解决越柔和，max_norm越小，对梯度爆炸的解决越狠.max_norm可以取小数

ref
https://blog.csdn.net/Mikeyboi/article/details/119522689

rrr2

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
【torch】|torch.nn.utils.clip_grad_norm_

梯度越大，total_norm值越大，进而导致clip_coef的值越小，最终也会导致对梯度的裁剪越厉害，很合理norm_type不管取多少，对于total_norm的影响不是太大（1和2的差距稍微大一点），所以可以直接取默认值2norm_type越大，total_norm越小（实验观察到的结论，数学不好，不会证明，所以本条不一定对）clip_coef越小，则对梯度的裁剪越厉害，即，使梯度的值缩小的越多max_norm越小，clip_coef越小，所以，max_norm越大，对于梯度爆炸的解决越柔和
复制链接

扫一扫