【深度学习】ReLU激活函数的缺点

最新推荐文章于 2024-05-15 14:02:56 发布

Mister Zhu

最新推荐文章于 2024-05-15 14:02:56 发布

阅读量1.1w

点赞数 3

分类专栏：深度学习文章标签：深度学习神经网络人工智能

原文链接：https://www.cnblogs.com/Time-LCJ/p/9235711.html

版权

深度学习专栏收录该内容

15 篇文章 1 订阅

订阅专栏

关于ReLU的详细介绍可以参考：
ReLU激活函数 - 知乎

训练的时候很”脆弱”，很容易就”die”了，训练过程该函数不适应较大梯度输入，因为在参数更新以后，ReLU的神经元不会再有激活的功能，导致梯度永远都是零。
例如，一个非常大的梯度流过一个 ReLU 神经元，更新过参数之后，这个神经元再也不会对任何数据有激活现象了，那么这个神经元的梯度就永远都会是 0.
如果 learning rate 很大，那么很有可能网络中的 40% 的神经元都”dead”了。

原因：

假设有一个神经网络的输入W遵循某种分布，对于一组固定的参数（样本），w的分布也就是ReLU的输入的分布。假设ReLU输入是一个低方差中心在+0.1的高斯分布。

在这个场景下：

大多数ReLU的输入是正数，因此
大多数输入经过ReLU函数能得到一个正值（ReLU is open），因此
大多数输入能够反向传播通过ReLU得到一个梯度，因此
ReLU的输入（w）一般都能得到更新通过随机反向传播（SGD）

现在，假设在随机反向传播的过程中，有一个巨大的梯度经过ReLU，由于ReLU是打开的，将会有一个巨大的梯度传给输入（w）。这会引起输入w巨大的变化，也就是说输入w的分布会发生变化，假设输入w的分布现在变成了一个低方差的，中心在-0.1高斯分布。

在这个场景下：

大多数ReLU的输入是负数，因此大多数输入经过ReLU函数能得到一个0（ReLU is close）,因此大多数输入不能反向传播通过ReLU得到一个梯度，因此ReLU的输入w一般都得不到更新通过随机反向传播（SGD）

发生了什么？只是ReLU函数的输入的分布函数发生了很小的改变（-0.2的改变），导致了ReLU函数行为质的改变。我们越过了0这个边界，ReLU函数几乎永久的关闭了。更重要的是ReLU函数一旦关闭，参数w就得不到更新，这就是所谓的‘dying ReLU’。

（译者：下面有一段关于神经元死亡后能够复活的讨论，未翻译）

从数学上说，这是因为ReLU的数学公式导致的

r(x)=max(x,0)

导数如下

Δxr(x)=1(x>0)

所以可以看出，如果在前向传播的过程中ReLU is close，那么反向传播时，ReLU也是close的。

参考：

https://www.zhihu.com/question/59031444

https://www.jianshu.com/p/22d9720dbf1a

https://blog.csdn.net/disiwei1012/article/details/79204243

ReLU激活函数的缺点

标签：关于 orm 更新参考 pen 导数 article learning frame

原文地址：https://www.cnblogs.com/Time-LCJ/p/9235711.html

关注

3
点赞
踩
21

收藏

觉得还不错? 一键收藏
0
评论
【深度学习】ReLU激活函数的缺点

训练的时候很”脆弱”，很容易就”die”了，训练过程该函数不适应较大梯度输入，因为在参数更新以后，ReLU的神经元不会再有激活的功能，导致梯度永远都是零。例如，一个非常大的梯度流过一个 ReLU 神经元，更新过参数之后，这个神经元再也不会对任何数据有激活现象了，那么这个神经元的梯度就永远都会是 0.如果 learning rate 很大，那么很有可能网络中的 40% 的神经元都”dead”了。...
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。