梯度消失问题与如何选择激活函数

最新推荐文章于 2024-07-09 15:08:01 发布

Alice熹爱学习

最新推荐文章于 2024-07-09 15:08:01 发布

阅读量5.5k

点赞数 1

分类专栏： DeepLearning

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/aliceyangxi1987/article/details/81074207

版权

本文探讨了深度学习中梯度消失的现象，解释了其原因，特别是激活函数的选择对梯度消失的影响。梯度消失会导致前层神经元训练缓慢，甚至停滞不前。解决方案包括选择合适的激活函数，如ReLU及其变体，以及采用批规范化、残差结构等方法。文章还强调了在隐藏层避免使用sigmoid，推荐使用ReLU作为默认选择。

摘要由CSDN通过智能技术生成

本文结构：

什么是梯度消失？
梯度消失有什么影响？
是什么原因？
解决方案有哪些？
如何选择激活函数？

1. 什么是梯度消失？

梯度消失，常常发生在用基于梯度的方法训练神经网络的过程中。

当我们在做反向传播，计算损失函数对权重的梯度时，随着越向后传播，梯度变得越来越小，这就意味着在网络的前面一些层的神经元，会比后面的训练的要慢很多，甚至不会变化。

2. 有什么影响？

网络的前面的一些层是很重要的，它们负责学习和识别简单的模式，也是整个网络的基础，如果他们的结果不准确的话，那么后面层结果也会不准确。

而且用基于梯度的方法训练出参数，主要是通过学习参数的很小的变化对网络的输出值的影响有多大。如果参数的改变，网络的输出值贡献很小，那么就会很难学习参数，花费时间会非常长。

3. 梯度消失的原因？

在训练神经网络时，为了让损失函数越来越小，其中一种优化的方法是梯度下降。梯度下降法简单的来说就是在权重的负梯度方向更新权重，如下面这个公式所示，一直到梯度收敛为零。（当然在实际过程中，会通过设定一个超参数叫做最大跌代数来控制，如果迭代次数太小，结果就会不准确，如果迭代次数太大，那么训练过程会非常长。）

这里就需要计算参数的梯度，方法是用反向传播。

为了推导一下梯度消失的原因，我们来看一个最简单的神经网络的反向传播过程。

最低0.47元/天解锁文章

Alice熹爱学习

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
梯度消失问题与如何选择激活函数

本文结构：什么是梯度消失？梯度消失有什么影响？是什么原因？解决方案有哪些？如何选择激活函数？1. 什么是梯度消失？梯度消失，常常发生在用基于梯度的方法训练神经网络的过程中。当我们在做反向传播，计算损失函数对权重的梯度时，随着越向后传播，梯度变得越来越小，这就意味着在网络的前面一些层的神经元，会比后面的训练的要慢很多，甚至不会变化。2. 有什么...
复制链接

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。