梯度爆炸的解决办法：clip gradient

最新推荐文章于 2025-03-29 23:50:47 发布

小强的呼呼呼

最新推荐文章于 2025-03-29 23:50:47 发布

阅读量3.2w

点赞数 33

分类专栏：机器学习文章标签：梯度下降算法深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u010814042/article/details/76154391

版权

机器学习专栏收录该内容

10 篇文章

订阅专栏

1.梯度爆炸的影响

在一个只有一个隐藏节点的网络中，损失函数和权值w偏置b构成error surface，其中有一堵墙，如下所示

这里写图片描述

损失函数每次迭代都是每次一小步，但是当遇到这堵墙时，在墙上的某点计算梯度，梯度会瞬间增大，指向某处不理想的位置。如果我们使用缩放，可以把误导控制在可接受范围内，如虚线箭头所示

2.解决梯度爆炸问题的方法

通常会使用一种叫”clip gradients “的方法. 它能有效地权重控制在一定范围之内.
算法步骤如下。

首先设置一个梯度阈值：clip_gradient
在后向传播中求出各参数的梯度，这里我们不直接使用梯度进去参数更新，我们求这些梯度的l2范数
然后比较梯度的l2范数||g||与clip_gradient的大小
如果前者大，求缩放因子clip_gradient/||g||,　由缩放因子可以看出梯度越大，则缩放因子越小，这样便很好地控制了梯度的范围
最后将梯度乘上缩放因子便得到最后所需的梯度

3. 有无clip_gradient在GRU模型中的结果比较

无clip_gradient
　可以很清楚地发现在2000次迭代出发生了梯度爆炸，最终影响了训练的效果。
　
有clip_gradient
可以发现clip_gradient在前期有效了控制了梯度爆炸的影响，使得最终的loss能下降到满意的结果

小强的呼呼呼

博客等级

码龄12年

43
原创

73
点赞

134
收藏

42
粉丝

关注

私信

热门文章

分类专栏

概率与数理统计 1篇
机器学习 10篇
前端 1篇
Spark 2篇
Git 1篇
爬虫 3篇
Kaggle比赛 2篇
Tensorflow 4篇
python 12篇
nltk 1篇
linux 1篇
数据结构与算法 7篇

展开全部收起

最新评论

梯度爆炸的解决办法：clip gradient
lizijianlove: 大神可以提示下，在代码中该如何实现该算法呢？
python assert 断言详细用法格式
Tisfy: 正想看这样的文章，就遇到了它
Scrapy爬取图片并保存
Wang Mr.: 你这就不能有个完整地代码吗？
梯度爆炸的解决办法：clip gradient
I am zzxn 回复 Joe1Chief: loss暴增
Python中@staticmethod和@classmethod的区别和用法
xk-wang: 这个区别解释的不合理，你把代码改成下面的两个还是没区别。[code=python] # -*- coding: utf-8 -*- class Parent(object): @staticmethod def staticSayHello(anything): if anything == Boy: print("Boy classSayHello") elif anything == Girl: print("girl sayHello") @classmethod def classSayHello(anything): #这里是anything if anything == Boy: print("Boy classSayHello") elif anything == Girl: print("girl sayHello") class Boy(Parent): pass class Girl(Parent): pass if __name__ == '__main__': Boy.classSayHello() Girl.classSayHello() [/code]

大家在看

最新文章

目录

展开全部

收起

评论 6

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。