梯度爆炸和梯度消失的原因以及解决方法

最新推荐文章于 2024-07-24 14:05:30 发布

masterleoo

最新推荐文章于 2024-07-24 14:05:30 发布

阅读量1.2k

点赞数 2

分类专栏：深度学习基础知识文章标签：机器学习深度学习人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_48086806/article/details/132336725

版权

深度学习基础知识专栏收录该内容

9 篇文章 1 订阅

订阅专栏

文章目录

1、原因：
2、解决方法

1、原因：

梯度消失和梯度爆炸的根本原因是因为在反向传播过程中，使用链式法则计算时，累积相乘效应导致梯度过大或者过小
主要原因有：

1）激活函数：例如sigmoid或者tanh激活函数，在输入或输出较大时，容易导致梯度消失
2）不合适的参数初始化策略：如果权重初始化过大或者过小，容易导致梯度消失和爆炸
3）网络层数过深：当网络层数增加时，梯度在反向传播过程中会逐步累积，可能会导致梯度消失和爆炸

2、解决方法

1）选择更合适的激活函数，例如ReLU
2）选择合适的权重初始化策略，例如Xavier，He初始化
3）使用BN层，对每层的输入的分布做归一化
4）使用残差网络：可以加深网络层数的同时，缓解梯度消失问题
5）使用梯度裁剪：防止梯度爆炸
6）使用更合适的优化器，例如Adam等

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
梯度爆炸和梯度消失的原因以及解决方法

梯度爆炸和梯度消失的原因以及解决方法
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。