常用的激活函数对比

42 篇文章 11 订阅
33 篇文章 6 订阅

神经网络中激活函数的主要作用是提供网络的非线性建模能力,如不特别说明,激活函数一般而言是非线性函数。假设一个示例神经网络中仅包含线性卷积和全连接运算,那么该网络仅能够表达线性映射,即便增加网络的深度也依旧还是线性映射,难以有效建模实际环境中非线性分布的数据。加入(非线性)激活函数之后,深度神经网络才具备了分层的非线性映射学习能力。因此,激活函数是深度神经网络中不可或缺的部分。

在ICML2016的一篇论文Noisy Activation Functions中,作者将激活函数作出了形象的定义,如下图所示:
这里写图片描述

在实际的应用中,我们需要先了解以下概念:

  • 饱和

    当一个激活函数h(x)满足 limn+h(x)=0 时,我们称之为右饱和
    当一个激活函数h(x)满足 limnh(x)=0 时,我们称之为左饱和
    当一个激活函数,既满足左饱和又满足又饱和时,我们称之为饱和

  • 硬饱和与软饱和

    对任意的x,如果存在常数c,当 x > c 时恒有 h(x)=0 则称其为右硬饱和
    对任意的x,如果存在常数c,当 x < c 时恒有 h(x)=0 则称其为左硬饱和
    若既满足左硬饱和,又满足右硬饱和,则称这种激活函数为硬饱和
    如果只有在极限状态下偏导数等于0的函数,称之为软饱和

从定义来看,几乎所有的连续可导函数都可以用作激活函数。但目前常见的多是分段线性和具有指数形状的非线性函数。下文将依次对它们进行总结。

Sigmoid

Sigmoid 是使用范围最广的一类激活函数,具有指数函数形状 。正式定义为:

f(x)=11+ex

这里写图片描述

可见,sigmoid 在定义域内处处可导,根据上述对饱和的定义,其可被定义为软饱和激活函数。

Sigmoid 的软饱和性,使得深度神经网络在二三十年里一直难以有效的训练,是阻碍神经网络发展的重要原因。具体来说,由于在后向传递过程中,sigmoid向下传导的梯度包含了一个f’(x) 因子(sigmoid关于输入的导数),因此一旦输入落入饱和区,f’(x) 就会变得接近于0,导致了向底层传递的梯度也变得非常小。此时,网络参数很难得到有效训练。这种现象被称为梯度消失。一般来说, sigmoid 网络在 5 层之内就会产生梯度消失现象。

这里给出一个关于梯度消失的通俗解释:

Sigmoid 函数能将负无穷到正无穷的数映射到0和1之间,并且对这个函数求导的结果是 f(x)=f(x)(1f(x)) 。因此两个0到1之间的数相乘,得到的结果就会变得很小了。神经网络的反向传播是逐层对函数偏导相乘,因此当神经网络层数非常深的时候,最后一层产生的偏差就因为乘了很多的小于1的数而越来越小,最终就会变为0,从而导致层数比较浅的权重没有更新。

最后总结一下 Sigmoid 函数的优缺点:

优点:

  1. Sigmoid 函数的输出映射在(0,1)之间,单调连续,输出范围有限,优化稳定,可以用作输出层。它在物理意义上最为接近生物神经元。
  2. 求导容易。

缺点:

  1. 由于其软饱和性,容易产生梯度消失,导致训练出现问题。
  2. 其输出并不是以0为中心的。
Tanh

f(x)=1e2x1+e2x

函数位于[-1, 1]区间上,对应的图像是:
这里写图片描述

同样的,Tanh 激活函数也具有软饱和性。Tanh 网络的收敛速度要比 Sigmoid 快。因为 Tanh 的输出均值比 Sigmoid 更接近 0,SGD 会更接近 natural gradient(一种二次优化技术),从而降低所需的迭代次数。

总结一下 Tanh 激活函数的优缺点:

优点:

  1. 比Sigmoid函数收敛速度更快。
  2. 相比Sigmoid函数,其输出以0为中心。

缺点:

还是没有改变Sigmoid函数的最大问题——由于饱和性产生的梯度消失。

ReLU

ReLU 是近几年非常受欢迎的激活函数。被定义为:
这里写图片描述
其对应的函数图像为:
这里写图片描述

可见,ReLU 在x<0 时硬饱和。由于 x>0时导数为 1,所以,ReLU 能够在x>0时保持梯度不衰减,从而缓解梯度消失问题。但随着训练的推进,部分输入会落入硬饱和区,导致对应权重无法更新。这种现象被称为“神经元死亡”。

最后总结一下 ReLU 函数的优缺点:

优点:

  1. 相比起Sigmoid和tanh,ReLU在SGD中能够快速收敛。据称,这是因为它线性、非饱和的形式。
  2. Sigmoid和tanh涉及了很多很expensive的操作(比如指数),ReLU可以更加简单的实现。
  3. 有效缓解了梯度消失的问题。
  4. 在没有无监督预训练的时候也能有较好的表现。
  5. 提供了神经网络的稀疏表达能力。

缺点:

随着训练的进行,可能会出现神经元死亡,权重无法更新的情况。如果发生这种情况,那么流经神经元的梯度从这一点开始将永远是0。也就是说,ReLU神经元在训练中不可逆地死亡了。

LReLU 与 PReLU

PReLU 是 ReLU 和 LReLU 的改进版本,具有非饱和性:
这里写图片描述

下面给出 LReLU 的函数图像:
这里写图片描述

ai 比较小且固定的时候,我称之为 LReLU。LReLU 最初的目的是为了避免梯度消失。但在一些实验中,我们发现 LReLU 对准确率并没有太大的影响。很多时候,当我们想要应用 LReLU 时,我们必须要非常小心谨慎地重复训练,选取出合适的 a,LReLU 的表现出的结果才比 ReLU 好。因此有人提出了一种自适应地从数据中学习参数的 PReLU。

PReLU是LReLU的改进,可以自适应地从数据中学习参数。PReLU具有收敛速度快、错误率低的特点。PReLU可以用于反向传播的训练,可以与其他层同时优化。

ELU

ELU 融合了sigmoid和ReLU,具有左侧软饱性。其正式定义为:
这里写图片描述

这里写图片描述

右侧线性部分使得ELU能够缓解梯度消失,而左侧软饱能够让ELU对输入变化或噪声更鲁棒。ELU的输出均值接近于零,所以收敛速度更快。

激活函数选用总结

在进行深度学习的研究中,如何选择激活函数,仍需依靠实验指导。一般来说,在分类问题上建议首先尝试 ReLU,其次ELU,这是两类不引入额外参数的激活函数。

该博文主要参考资料:
1.深度学习中的激活函数导引
2.浅谈深度学习中的激活函数

  • 9
    点赞
  • 48
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
实习(调研)报告 一 课题调研 本课题为《双色球福彩彩票预测系统》,在社会及彩票部门了解广大彩民们的相关需求 ,进行初步调研,并在双色球专业玩家的博客、论坛、贴吧等查找相关资料,深入分析预 测系统要实现的功能。 二 课题的来源及意义 福彩,即福利彩票,顾名思义,它的发行是为了社会的福利,帮助需要帮助的地方或 个人。每期的营业额会留下45%用来投入社会,剩下的55%用来回报彩民。 国家发行彩票的目的是筹集社会公众资金,资助福利、体育等社会公众事业发展,中 国人民银行是彩票的主管机关。彩票的发行须经中国人民银行审核同意后报国务院批准 ,并由人民银行批准的彩票发行机构发行,其它任何部门无权批准发行彩票。 中国福利彩票"双色球"是一种由中国福利彩票发行管理中心统一组织发行,在全国销 售联合发行的"乐透型"福利彩票。采用计算机网络系统发行销售,每周周二、周四、周 日晚21:30开奖,并在中国教育电视台一套进行现场直播。参与"双色球"销售的省级福 利彩票发行中心在中国福彩中心的直接领导下,负责对本地区的"双色球"销售活动实施 具体的组织和管理。"双色球"彩票实行自愿购买,凡购买者均被视为同意并遵守本规则 。 凡未经批准擅自印刷、发行彩票和发行变相彩票的,以及违反批准的规模和办法发行 彩票的,视情节轻重,依法追究经济和刑事责任。目前,可以在全国发行的彩票只有中 国体育彩票和中国福利彩票。 随着福利彩票事业的发展,人们对其投资的热情也越来越高。同时,彩民为了获得巨额 回报,根据自己的经验研究出一些预测方法,而一些彩票专家也给出了自己的观点,预测下 一期的中奖号码。但这些彩票分析预测技术还处于探索与发展的阶段,并没有一个有效的 预测方法。此系统采用科学的预测手段,根据玩家总结的诸多规律,结合数学分析、周 易分析,科学有效的为玩家提高中奖机率。 三 国内外发展状况 随着彩票产业不断的发展,以及整个彩票市场的日趋规范,"满足彩民服务需求,完 善内部预测机制,适应号码变化快速决策"从而提高彩民的预测准确度,已经成为广大彩 民的一种共识。 自1984年新中国首次发行彩票,进人新世纪以来,我国彩票事业发展极为迅速,截止至 2006年,我国彩票总销量达到3678亿元。在销量迅速增长的同时,一个重要的问题逐渐凸 显出来,即人们购买彩票的心态是否理性。尽管彩票中奖号码随机决定,是不可预测的,但 受部分媒体和发行者的误导性宣传以及自己对一夜暴富的渴望,人们购买彩票时都抱有这 样一个心态,即认为能够通过某些"秘岌"或"绝招"能找到中奖号码的规律,或者认为他们 主观选择的号码要比机器选择的中奖概率大,这种现象被称为"投注者控制幻觉"。特别是 少数控制幻觉程度严重的人们,往往将彩票视为一种投资品,梦想通过购买彩票来盈利甚 至发大财,这是一种极不理性的行为。这一点,对于乐透型彩票表现得尤为充分。 彩票作为一种特殊的融资手段,在国外已有较为成功的运作经验,这些国家发行的彩 票已成为其国家经费的主要来源。中外彩票购买者普遍地具有控制幻觉心态,都表现出热 号码现象、赌徒谬误、热手效应和随机偏差等形式,并且这些心态都是持久性的,但是控 制幻觉程度和表现形式又有一定的差别。在不同地区有一定程度上的差异;中外彩票购 买者心态有许多共同之处,而不同的文化背景又导致了一些差异;国外彩民们采用二项式 钟形分布法、线性回归方法和综合归纳法等方法,研发对应方法的预测系统;利用BP神 经网络及算法,根据双色球福彩的游戏规则,确定输入层和输出层的神经网络结构,在 三方面对 BP 网络进行设计:隐含层和输出层是否使用相同的激活函数;隐含层数;隐含层节点的最 佳个数。通过对学习和预测结果的对比分析,得出隐含层和输出层使用不同的激活函数 ;选择三层 BP 网络;确定隐含层的节点数,从而确定了适合双色球福彩预测的 BP 网络结构;数据挖掘法也是国外彩民常用的预测方法,Apriori 算法是所有关联规则挖掘算法的核心算法。利用 Apriori 算法对彩票数字组合进行挖掘,找出相对频繁出现的数字组合。此种方法具有一定的理 论意义,为彩票数字组合的预测提供了一种研究思路和分析方法,科学有效的为玩家提 高中奖机率。 四 本课题的研究目的 本系统将是功能简单、操作简单而又实用的双色球福彩彩票预测系统,在系统的设计 中采用模块化设计方法,即按照功能,将整个系统划分为几个相对独立的算法功能模块 ,让更多喜欢福彩双色球的玩家通过本软件把握更准确的机遇。本软件以双色球的玩法 为基准,模拟双色球分析方式的思维开发,是一款十分实用的双色球彩票预测系统。 五 本课题的研究内容 双色球福彩彩票预测系统主要是通过往期中奖号码的规律进行预测,往期中奖号码将 红色号码和蓝色号码归类储存,随时可以在文件中查阅并添加。广大彩民可利用双色球

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值