“dying ReLU“问题

最新推荐文章于 2022-10-08 23:01:17 发布

weixin_40675092

最新推荐文章于 2022-10-08 23:01:17 发布

阅读量673

点赞数

文章标签：神经网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_40675092/article/details/118225702

版权

一、RELU激活函数

relu函数：
$\max(x, 0)$
梯度：
$\nabla_xr(x) = \Bbb{1}\{x > 0\}$

二、RELU神经元坏死场景

假设一个神经网络的输入是X，X服从某个分布。R是一个激活函数为RELU的神经元。对于任意的参数更新，X的分布表示神经元R的输入数据的分布。假设神经元R开始输入是一个中心为+0.1的低方差高斯分布。

此时

R的大多数输入都是正数；
R中RULE函数被激活；
梯度通过R向后流动；
由于SGD后向传播，R的输入更新

现在假设一次backprop中一个很大的梯度流向R。R被激活，将这个非常大的梯度向后传递为R的输入。这导致计算R的输入的函数发生很大的改变。这表示R的输入数据的分布发生改变 ——现在是中心为-0.1的低方差高斯分布。
此时：

R的大多数输入为负；
R不被激活；
梯度无法从R向后传播；
R的输入不通过SGD backprop更新

R的输入的分布发生了一个微小的变化（跨越了0界），导致R的行为发生本质的变化。这是神经元R将总是不能被激活。

三、重激活

神经元R在某次前向传播时没有激活，SGD backprop时此神经元的参数 $W$ 没有更新，但是神经元的前一层的输出（即R所在层的输入在更新），下一次迭代时神经元R可能重新被激活。
神经元R中激活函数RELU的输入 $W X + b$ ，其中， $W$ 在神经元坏死时不更新，但 $X$ 一直在更新。当某次跟新后 $W X + b > 0$ 时，神经元R被激活。
但是，如果坏死的神经元在第一个隐藏层，那么这个神经元100%不可能被重新激活。

参考

What is the “dying ReLU” problem in neural networks?

weixin_40675092

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。