ReLu(Rectified Linear Units)激活函数

传统 Sigmoid 系激活函数

这里写图片描述
传统神经网络中最常用的两个激活函数,Sigmoid 系(Logistic-Sigmoid、Tanh-Sigmoid)被视为神经网络的核心所在。
从数学上来看,非线性的 Sigmoid 函数对中央区的信号增益较大,对两侧区的信号增益小,在信号的特征空间映射上,有很好的效果。
从神经科学上来看,中央区酷似神经元的兴奋态,两侧区酷似神经元的抑制态,因而在神经网络学习方面,可以将重点特征推向中央区,将非重点特征推向两侧区。
无论是哪种解释,看起来都比早期的线性激活函数(y=x);阶跃激活函数(-1/1,0/1) 高明了不少。

近似生物神经激活函数:Softplus&ReLu

2001 年,神经科学家 Dayan、Abott 从生物学角度,模拟出了脑神经元接受信号更精确的激活模型,这个模型对比 Sigmoid 系主要变化有三点:①单侧抑制 ②相对宽阔的兴奋边界 ③稀疏激活性(重点,可以看到红框里前端状态完全没有激活)
这里写图片描述
同年,Charles Dugas 等人在做正数回归预测论文中偶然使用了 Softplus 函数,Softplus 函数是 Logistic-Sigmoid函数原函数。Softplus(x)=log( 1+exp(x) )按照论文的说法,一开始想要使用一个指数函数(天然正数)作为激活函数来回归,但是到后期梯度实在太大,难以训练,于是加了一个 log 来减缓上升趋势。
加了 1 是为了保证非负性。同年,Charles Dugas 等人在 NIPS 会议论文中又调侃了一句,Softplus 可以看作是强制非负校正函数 max(0,x)平滑版本。
偶然的是,同是 2001 年,ML 领域的 Softplus/Rectifier 激活函数与神经科学领域的提出脑神经元激活频率函数有神似的地方,这促成了新的激活函数的研究。

ReLu 的贡献

1 缩小做和不做非监督预训练的代沟
ReLu 的使用,使得网络可以自行引入稀疏性。这一做法,等效于无监督学习的预训练。
当然,效果肯定没预训练好。论文中给出的数据显示,没做预训练情况下,ReLu 激活网络遥遥领先其它激活函数。甚至出现了比普通激活函数预训练后更好的奇葩情况。当然,在预训练后,ReLu 仍然有提升空间。从这一层面来说,ReLu 缩小了非监督学习和监督学习之间的代沟。当然,还有更快的训练速度。

2 更快的特征学习
在 MNIST+LeNet4 中,ReLu+Tanh 的组合在 epoch 50 左右就能把验证集错误率降到 1.05%
但是,全 Tanh 在 epoch 150 时,还是 1.37%,这个结果 ReLu+Tanh 在 epoch 17 时就能达到了。
该图来自 AlexNet 的论文对 ReLu 和普通 Sigmoid 系函数做的对比测试,可以看到,ReLu 的使用,使得学习周期大大缩短。综合速率和效率,DL 中大部分激活函数应该选择 ReLu。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值