ReLU

最新推荐文章于 2023-06-01 13:45:25 发布

mingyuewu

最新推荐文章于 2023-06-01 13:45:25 发布

阅读量4.2k

点赞数 6

本文链接：https://blog.csdn.net/qq_44817119/article/details/102997527

版权

ReLU

Relu(rectified liner unit) 线性修正单元

在深度神经网络中，通常使用一种叫**修正线性单元(Rectified linear unit，ReLU）**作为神经元的激活函数。ReLU起源于神经科学的研究：2001年，Dayan、Abott从生物学角度模拟出了脑神经元接受信号更精确的激活模型，如下图：

其中横轴是时间(ms)，纵轴是神经元的放电速率(Firing Rate)。同年，Attwell等神经科学家通过研究大脑的能量消耗过程，推测神经元的工作方式具有稀疏性和分布性；2003年Lennie等神经科学家估测大脑同时被激活的神经元只有1~4%，这进一步表明了神经元的工作稀疏性。而对于ReLU函数而言，类似表现是如何体现的？其相比于其他线性函数(如purlin)和非线性函数(如sigmoid、双曲正切)又有何优势？

简单之美

首先，我们来看一下ReLU激活函数的形式，如下图：

这里写图片描述

从上图不难看出，ReLU函数其实是分段线性函数，把所有的负值都变为

0，而正值不变，这种操作被成为单侧抑制。可别小看这个简单的操作，正因为有

了这单侧抑制，才使得神经网络中的神经元也具有了稀疏激活性。尤其体现在深

度神经网络模型(如CNN)中，

&&&当模型增加N层之后，理论上ReLU神经元的激活率将降低2的N次方倍。这里

或许有童鞋会问：ReLU的函数图像为什么一定要长这样？反过来，或者朝下延伸

行不行？其实还不一定要长这样。只要能起到单侧抑制的作用，

无论是镜面翻转还是180度翻转，最终神经元的输出也只是相当于加上了一个常数

项系数，并不影响模型的训练结果。之所以这样定，或许是为了契合生物学角

度，便于我们理解吧。

那么问题来了：这种稀疏性有何作用？换句话说，我们为什么需要让神经元稀疏？不妨举栗子来说明。当看名侦探柯南的时候，我们可以根据故事情节进行思考和推理，这时用到的是我们的大脑左半球；而当看蒙面唱将时，我们可以跟着歌手一起哼唱，这时用到的则是我们的右半球。左半球侧重理性思维，而右半球侧重感性思维。也就是说，当我们在进行运算或者欣赏时，都会有一部分神经元处于激活或是抑制状态，可以说是各司其职。再比如，生病了去医院看病，检查报告里面上百项指标，但跟病情相关的通常只有那么几个。

与之类似，当训练一个深度分类模型的时候，和目标相关的特征往往也就那么几个，因此通过ReLU实现稀疏后的模型能够更好地挖掘相关特征，拟合训练数据。

ReLU VS sigmoid 、线性函数

对于线性函数而言，ReLU的表达能力更强，尤其体现在深度网络中；

对于非线性函数而言，ReLU由于非负区间的梯度为常数，因此不存在梯度消失问题(Vanishing Gradient Problem)，使得模型的收敛速度维持在一个稳定状态。这里稍微描述一下什么是梯度消失问题：&&&当梯度小于

1时，预测值与真实值之间的误差每传播一层会衰减一次，如果在深层模型中使用sigmoid作为激活函数，这种现

象尤为明显，将导致模型收敛停滞不前。

$sigmoid=\frac{1}{1-e^{-z}}$ 在这里插入图片描述
sigmiod 函数
把我们计算的结果当成自变量放进去，让它的值域变为0~1之间
è¿éåå¾çæè¿°

ReLU与softplus函数与前图中的传统sigmoid系激活函数相比，主要变化有三点：

①单侧抑制 ②相对宽阔的兴奋边界 ③稀疏激活性（重点，可以看到红框里前端状态完全没有激活

@@@my thinking 不同的输入激活不同的区域，maybe就像我们大脑里不同的神经元一样专业分工，各司其职

ReLU 函数使不同的输入激活不同的区域，即稀疏激活性，总不能有个啥输入，全部细胞都一起来干活吧，杂七杂八的，容易把活干砸了。@@@

mingyuewu

关注

6
点赞
踩
27

收藏

觉得还不错? 一键收藏
2
评论
ReLU

ReLURelu(rectified liner unit) 线性修正单元在深度神经网络中，通常使用一种叫**修正线性单元(Rectified linear unit，ReLU）**作为神经元的激活函数。ReLU起源于神经科学的研究：2001年，Dayan、Abott从生物学角度模拟出了脑神经元接受信号更精确的激活模型，如下图：其中横轴是时间(ms)，纵轴是神经元的放...
复制链接

扫一扫