梯度消失和梯度爆炸原因及其解决方案

Wanderer001

已于 2023-11-02 20:13:56 修改

阅读量478

点赞数

分类专栏： Pytorch 文章标签：计算机视觉深度学习机器学习

于 2022-04-11 11:57:43 首次发布

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_36670529/article/details/108631391

版权

本文探讨了深度学习中遇到的梯度消失和梯度爆炸问题，尤其是当网络层数增加时，Sigmoid激活函数导致的梯度消失问题以及权重初始化过大引起的梯度爆炸现象。解决方案包括采用ReLU激活函数、He初始化、批量规范化、梯度截断和使用更快的优化器，如LSTM。

摘要由CSDN通过智能技术生成

参考梯度消失和梯度爆炸原因及其解决方案 - 云+社区 - 腾讯云

当我们需要解决一个非常复杂的问题，例如在高分辨率图像中检测数百种类型的对象，我们可能需要训练一个非常深的DNN，可能需要几十层或者上百层，每层包含数百个神经元，通过成千上万个连接进行连接，我们会遇到以下问题：

首先，梯度消失或梯度爆炸

其次，训练缓慢

第三，训练参数大于训练集的风险

梯度消失的原因：

生物神经元似乎是用 Sigmoid（S 型）激活函数活动的，因此研究人员在很长一段时间内坚持 Sigmoid 函数。但事实证明，Relu 激活函数通常在 ANN 工作得更好。这是生物研究误导的例子之一。

当神经网络有很多层，每个隐藏层都使用Sigmoid函数作为激励函数时，很容易引起梯度消失的问题

我们知道Sigmoid函数有一个缺点：当x较大或较小时，导数接近0；并且Sigmoid函数导数的最大值是0.25

我们将问题简单化来说明梯度消失问题，假设输入只有

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
梯度消失和梯度爆炸原因及其解决方案

当我们需要解决一个非常复杂的问题，例如在高分辨率图像中检测数百种类型的对象，我们可能需要训练一个非常深的DNN，可能需要几十层或者上百层，每层包含数百个神经元，通过成千上万个连接进行连接，我们会遇到以下问题：首先，梯度消失或梯度爆炸其次，训练缓慢第三，训练参数大于训练集的风险梯度消失的原因：生物神经元似乎是用 Sigmoid（S 型）激活函数活动的，因此研究人员在很长一段时间内坚持 Sigmoid 函数。但事实证明，Relu 激活函数通常在 ANN 工作得更好。这是生物研究误导的例子之一
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

Wanderer001 ROIAlign原理

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。