梯度爆炸的解决办法：clip gradient

最新推荐文章于 2022-05-22 11:17:32 发布

小南瓜^o^

最新推荐文章于 2022-05-22 11:17:32 发布

阅读量392

点赞数 1

分类专栏：深度学习

深度学习专栏收录该内容

4 篇文章 1 订阅

订阅专栏

转载：https://blog.csdn.net/u010814042/article/details/76154391

在一个只有一个隐藏节点的网络中，损失函数和权值w偏置b构成error surface，其中有一堵墙，如下所示

这里写图片描述

损失函数每次迭代都是每次一小步，但是当遇到这堵墙时，在墙上的某点计算梯度，梯度会瞬间增大，指向某处不理想的位置。如果我们使用缩放，可以把误导控制在可接受范围内，如虚线箭头所示

2.解决梯度爆炸问题的方法

通常会使用一种叫”clip gradients “的方法. 它能有效地权重控制在一定范围之内.
算法步骤如下。

首先设置一个梯度阈值：clip_gradient
在后向传播中求出各参数的梯度，这里我们不直接使用梯度进去参数更新，我们求这些梯度的l2范数
然后比较梯度的l2范数||g||与clip_gradient的大小
如果前者大，求缩放因子clip_gradient/||g||,　由缩放因子可以看出梯度越大，则缩放因子越小，这样便很好地控制了梯度的范围
最后将梯度乘上缩放因子便得到最后所需的梯度

3. 有无clip_gradient在GRU模型中的结果比较

无clip_gradient
　可以很清楚地发现在2000次迭代出发生了梯度爆炸，最终影响了训练的效果。
　
有clip_gradient
可以发现clip_gradient在前期有效了控制了梯度爆炸的影响，使得最终的loss能下降到满意的结果

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
梯度爆炸的解决办法：clip gradient

转载：https://blog.csdn.net/u010814042/article/details/76154391在一个只有一个隐藏节点的网络中，损失函数和权值w偏置b构成error surface，其中有一堵墙，如下所示损失函数每次迭代都是每次一小步，但是当遇到这堵墙时，在墙上的某点计算梯度，梯度会瞬间增大，指向某处不理想的位置。如果我们使用缩放，可以把误导控制在可接受范围内，...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。