数值稳定性的两个常见问题：梯度爆炸，梯度消失与解决方法

最新推荐文章于 2023-03-25 17:41:57 发布

FakeOccupational

最新推荐文章于 2023-03-25 17:41:57 发布

阅读量467

点赞数 1

分类专栏：深度学习文章标签：线性代数机器学习深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/ResumeProject/article/details/118468121

版权

深度学习专栏收录该内容

162 篇文章 16 订阅

订阅专栏

介绍

梯度爆炸：梯度迭代到NAN
梯度消失：梯度迭代到0

解决方法

梯度爆炸：

1、权重衰减
2、梯度截断

梯度消失：

1、选取更好的激活函数
如用relu代替sigmoid和tanh。

sigmoid函数的导数值范围为(0,0.25]，反向传播时会导致梯度消失 tanh函数的导数值范围为 (0,1]，相对范围较大，但仍会导致梯度消失 sigmoid函数不是0中心对称，输出均大于0 tanh函数是0中心对称，可以使网络收敛的更好
ReLU函数的导数,左侧为0，右侧为1，这就避免了小数的连乘，但反向传播中仍有权值的累乘，所以说ReLU函数不能说完全解决了“梯度消失”现象，只能说改善。恒为1的导数容易导致“梯度爆炸“，但设定合适的阈值可以解决这个问题。还有一点就是如果左侧恒为0的导数有可能导致把神经元学死，不过设置合适的步长（学习率）也可以有效避免这个问题的发生。

2、改变传播结构
RNN到LSTM，GRU
初始化合理的权重值：初始化权重，使每个神经元尽可能躲开梯度消失的区域，如避免取极大或极小值。
有研究表明，在RNN中使用ReLU函数配合将权值初始化到单位矩阵附近，可以达到接近LSTM网络的效果。

详细介绍

在这里插入图片描述

所有的h都是一个向量，向量关于向量的导数是一个矩阵
我们做了太多的矩阵乘法

在这里插入图片描述

FakeOccupational

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
数值稳定性的两个常见问题：梯度爆炸，梯度消失与解决方法

所有的h都是一个向量，向量关于向量的导数是一个矩阵我们做了太多的矩阵乘法
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。