Sigmoid作为激活函数导致的梯度消失问题

最新推荐文章于 2025-04-17 10:40:14 发布

蒹葭杰克

最新推荐文章于 2025-04-17 10:40:14 发布

阅读量1.7w

点赞数 15

分类专栏：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/feizxiang3/article/details/101294382

版权

人工智能专栏收录该内容

13 篇文章

订阅专栏

在神经网络中，使用sigmoid激活函数可能导致梯度消失，使网络难以训练。本文解释了梯度消失的原因，并介绍了如何通过选择不同的激活函数如ReLU，或使用batch normalization来解决这一问题。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

首先，问题描述：

当很多个使用sigmoid的Layers 加到神经网络中时，损失函数的梯度会接近0，这会导致 network难以训练。因为我们使用梯度乘以学习率来更新权值参数的。

那么为什么呢？

像sigmoid这样的激活函数，它把输入从一个大的空间压缩到一个只有0到1的范围内的很小的空间，作为下一层的输入。因此在输入层一个大的改变，通过sigmoid，最终到输出只有一个小的改变，也就是说导数变小了。
在这里插入图片描述
上图，蓝色实线是sigmoid函数形态，红色虚线是其导数的几何形态。我们可以看出，当输入值很大或很小时，也就是说当输入值向横轴的两端延伸时，导数接近于0

如果是只有几个sigmoid层的浅层神经网络,这并不会引起很大的问题。然而，当非常多的sigmoid层时，它会导致梯度太小而无法训练，这就是我们说的梯度消失。

神经网络的梯度通过反向传播来得到，简单的说，反向传播通过从最终层到初始层，误差逐层传播来得到梯度，通过链式求导法则，每一层的导数会乘到一起来计算初始层的导数。

然后，当n个隐层使用像sigmoid这样的激活函数时，会有n个非常小的导数值乘到一起，这样，随着我们逐层反向传播到初始层，梯度会呈指数级的下降。

显然极小的梯度值使得初始层的权值和偏置几乎无法有效的更新。而这些初始层，在识别输入数据的基础模式是至关重要的，它的不准确将导致整个神经网络的不准确。

解决方法

最简单的解决方法是使用另一种激活函数，比如 ReLU，它通常不会产生一个很小的导数
另外还有一个方法，是batch normalization
由前面的叙述，我们知道，梯度消失的产生，是因为sigmoid把输入从很大的空间映射到了一个很小的空间，尤其是当|X|很大的时候，它的导数都是接近0的。batch normalization 通过简单的标准化，来减轻该问题的产生，
在这里插入图片描述
我们可以看到，input标准化后，它会落在绿色的区域内，因此他的导数也不会太小。

评论 5

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。