'Dead ReLU Problem' 产生的原因

最新推荐文章于 2024-04-26 23:16:24 发布

javaduqing

最新推荐文章于 2024-04-26 23:16:24 发布

阅读量1.1w

点赞数 6

分类专栏：深入理解Python/机器学习/深度学习文章标签： ReLU 激活函数神经网络 Dead ReLu dying ReLu

深入理解Python/机器学习/深度学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

原文地址：https://www.quora.com/What-is-the-dying-ReLU-problem-in-neural-networks

译者话：看了一些激活函数优缺点的中文博客，很少有人去解释’Dead ReLU’现象，无奈只能去国外的论坛找答案了，于是就有这篇翻译，感觉挺有道理。

假设有一个神经网络的输入W遵循某种分布，对于一组固定的参数（样本），w的分布也就是ReLU的输入的分布。假设ReLU输入是一个低方差中心在+0.1的高斯分布。

在这个场景下：

大多数ReLU的输入是正数，因此
大多数输入经过ReLU函数能得到一个正值（ReLU is open），因此
大多数输入能够反向传播通过ReLU得到一个梯度，因此
ReLU的输入（w）一般都能得到更新通过随机反向传播（SGD）

现在，假设在随机反向传播的过程中，有一个巨大的梯度经过ReLU，由于ReLU是打开的，将会有一个巨大的梯度传给输入（w）。这会引起输入w巨大的变化，也就是说输入w的分布会发生变化，假设输入w的分布现在变成了一个低方差的，中心在-0.1高斯分布。

在这个场景下：

大多数ReLU的输入是负数，因此
大多数输入经过ReLU函数能得到一个0（ReLU is close）,因此
大多数输入不能反向传播通过ReLU得到一个梯度，因此
ReLU的输入w一般都得不到更新通过随机反向传播（SGD）

发生了什么？只是ReLU函数的输入的分布函数发生了很小的改变（-0.2的改变），导致了ReLU函数行为质的改变。我们越过了0这个边界，ReLU函数几乎永久的关闭了。更重要的是ReLU函数一旦关闭，参数w就得不到更新，这就是所谓的‘dying ReLU’。

（译者：下面有一段关于神经元死亡后能够复活的讨论，未翻译）

从数学上说，这是因为ReLU的数学公式导致的

$r(x) = max(x,0)$

导数如下

$\Delta_{x} r(x) = 1 (x>0)$

所以可以看出，如果在前向传播的过程中ReLU is close，那么反向传播时，ReLU也是close的。

我不确定ReLU dying在实际中是否经常发生，但是显然值得关注。希望你能明白为什么大的学习率可能是这里的罪魁祸首。在反向传播的过程中，大的梯度更新，可能会导致参数W的分布小于0。

关注

6
点赞
踩
32

收藏

觉得还不错? 一键收藏
7
评论
'Dead ReLU Problem' 产生的原因

原文地址：https://www.quora.com/What-is-the-dying-ReLU-problem-in-neural-networks译者话：看了一些激活函数优缺点的中文博客，很少有人去解释’Dead ReLU’现象，无奈只能去国外的论坛找答案了，于是就有这篇翻译，感觉挺有道理。假设有一个神经网络的输入W遵循某种分布，对于一组固定的参数（样本），w的分布也就是ReLU
复制链接

扫一扫

专栏目录

javaduqing CSDN认证博客专家 CSDN认证企业博客

码龄10年

146: 原创

10万+: 周排名

78万+: 总排名

36万+: 访问

: 等级

5428: 积分

149: 粉丝

326: 获赞

48: 评论

368: 收藏

私信

关注

热门文章

分类专栏

最新评论

2-3树插入、删除操作
别说了我很菜: 删除操作还是直接按照B树的操作吧，你这个我感觉更难理解
'Dead ReLU Problem' 产生的原因
小鱼爱吃草: 这不是误人子弟？？？大梯度是加大了无法更新的W的规模，到时出现了Dead ReLu Problem。
'Dead ReLU Problem' 产生的原因
小鱼爱吃草: W经过变更后，其高斯分布（正态分布）的状态已经确定了，更新的永远是一些没有死掉的W。当然，如果此时出现一个很小的梯度，那么将会拯救一些W，但是！！！！！本来梯度就是1，大梯度打死一片W，一次小梯度能救的过来吗？这种偶然的小梯度又能够发生多少次呢？
B树（B-树）插入、删除操作
XJ_靓仔: 谢谢，对我很有帮助
AQS同步队列与条件队列的关系
quge_name_harder: 我的理解：当一个线程调用await方法，进入阻塞状态后，会加入条件队列中，直到满足对应条件被唤醒。唤醒后从条件队列中移出。如果是独占锁，则加入到同步队列中，等待拿锁。如果是共享锁，直接去拿锁，拿不到再加入同步队列中

最新文章

目录

评论 7

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。