梯度裁剪Grandient Clipping

最新推荐文章于 2024-11-25 20:02:16 发布

开心邮递员

最新推荐文章于 2024-11-25 20:02:16 发布

阅读量1.2k

点赞数

文章标签： python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42187536/article/details/123848125

版权

神经网络是通过梯度下降来学习的。

梯度爆炸问题一般会随着网络层数的增加而变得越来越明显。如果发生梯度爆炸，那么就是学过了，会直接跳过最优解。因此需要梯度裁剪，避免模型越过最优点。

梯度裁剪有两种方法

确定一个范围，参数的gradient超过，直接裁剪。比较直接，对应于pytorch中的nn.utils.clip_grad_value(parameters, clip_value). 将所有的参数剪裁到 [ -clip_value, clip_value]
根据若干参数的gradient组成的vector的L2 Norm进行裁剪。更常见，对应于pytorch中clip_grad_norm_(parameters, max_norm, norm_type=2)。如果所有参数的gradient组成的向量的L2 norm 大于max norm，那么需要根据L2 norm/max_norm 进行缩放。从而使得L2 norm 小于预设的 clip_norm

梯度裁剪使用位置

在backward得到梯度之后，step()更新之前，使用梯度剪裁，在完成计算完梯度后，进行裁剪，然后进行网络更新的过程。

开心邮递员

博客等级

码龄7年

77
原创

210
点赞

498
收藏

118
粉丝

关注

私信

热门文章

最新评论

python相关符号含义汇总
CSDN-Ada助手: 哇, 你的文章质量真不错，值得学习！不过这么高质量的文章, 还值得进一步提升, 以下的改进点你可以参考下: (1)增加除了各种控件外，文章正文的字数；(2)增加条理清晰的目录；(3)使用更多的站内链接。
深度学习，训练集准确率高，但验证集准确率一直不上升，很低的问题
通信～小白: 你好，我的自己信号数据，尺寸必须是224的吗
SQL语言1
CSDN-Ada助手: 不知道 MySQL入门技能树是否可以帮到你：https://edu.csdn.net/skill/mysql?utm_source=AI_act_mysql
梯度反转层（Gradient reversal layer, GRL）
weixin_41672299: 你好，博主！我想请问一下你是否有尝试过将这个算法应用到源域和目标域一致的情况下呢，与不加DANN对比的结果如何呢？
梯度反转层（Gradient reversal layer, GRL）
谁知故人不识君: 就是原来的（没有GRL）的时候没有对抗关系，不满足生成器精度提高和域判别准确度越来越低这样的需求，所以需要引入GRL，这样每次梯度朝向成了特征层的分类精度是提高的，但是域判别的准确性确实下降的，满足分辨不清两个域的要求，形成对抗关系，这样的表述对吗？

大家在看

最新文章

目录

展开全部

收起

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。