【深度学习】深入理解ReLU(Rectifie Linear Units)激活函数

本文深入探讨ReLU激活函数,分析其在深度学习中的重要性。从传统激活函数如Sigmoid的优缺点出发,讨论ReLU如何通过引入稀疏性解决梯度消失问题,提升模型训练速度。ReLU的贡献包括自动引入稀疏性,加速特征学习,以及在某些情况下优于预训练的效果。在Theano中,ReLU可通过T.maximum(0,x)实现。" 118056844,11081338,单链表插入操作详解,"['数据结构', '链表', '指针']
摘要由CSDN通过智能技术生成

论文参考:Deep Sparse Rectifier Neural Networks (很有趣的一篇paper)

Part 0:传统激活函数、脑神经元激活频率研究、稀疏激活性

0.1  一般激活函数有如下一些性质:

  1. 非线性: 当激活函数是线性的,一个两层的神经网络就可以基本上逼近所有的函数。但如果激活函数是恒等激活函数的时候,即f(x)=x,就不满足这个性质,而且如果MLP(多层感知机)使用的是恒等激活函数,那么其实整个网络跟单层神经网络是等价的;
  2. 可微性: 当优化方法是基于梯度的时候,就体现了该性质;
  3. 单调性: 当激活函数是单调的时候,单层网络能够保证是凸函数;
  4. f(x)≈x: 当激活函数满足这个性质的时候,如果参数的初始化是随机的较小值,那么神经网络的训练将会很高效;如果不满足这个性质,那么就需要详细地去设置初始值;
  5. 输出值的范围: 当激活函数输出值是有限的时候,基于梯度的优化方法会更加稳定,因为特征的表示受有限权值的影响更显著;当激活函数的输出是无限的时候,模型的训练会更加高效,不过在这种情况小,一般需要更小的Learning Rate。

0.2  传统Sigmoid系激活函数

传统神经网络中最常用的两个激活函数,Sigmoid系(Logistic-Sigmoid、Tanh-Sigmoid)被视为神经网络的核心所在。

从数学上来看,非线性的Sigmoid函数对中央区的信号增益较大,对两侧区的信号增益小,在信号的特征空间映射上,有很好的效果。

从神经科学上来看,中央区酷似神经元的兴奋态,两侧区酷似神经元的抑制态,因而在神经网络学习方面,可以将重点特征推向中央区,将非重点特征推向两侧区。

无论是哪种解释,看起来都比早期的线性激活函数(y=x),阶跃激活函数(-1/1,0/1)高明了不少。

0.3  近似生物神经激活函数:Softplus&ReLu 

2001年,神经科学家Dayan、Abott从生物学角度,模拟出了脑神经元接受信号更精确的激活模型,该模型如左图所示:

这个模型对比Sigmoid系主要变化有三点:① 单侧抑制   ② 相对宽阔的兴奋边界   ③ 稀疏激活性 (重点,可以看到红框里前端状态完全没有激活)

同年,Charles Dugas等人在做正数回归预测

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值