深度学习激活函数论文总结

(一)Empirical Evaluation of Rectified Activations in Convolution Network (2015)

  • 摘要

本文研究了不同类型的修正线性激活函数(ReLU)在卷积神经网络中的性能表现,包括标准的ReLU、带泄漏的ReLU、参数化的ReLU和一种新的随机泄漏的ReLU(RReLU)。作者在标准的图像分类任务上评估了这些激活函数的性能,实验表明,在ReLU中为负部分引入非零斜率可以持续改善结果,与普遍认为稀疏是ReLU性能良好的关键的看法不同。此外,在小规模数据集上,确定负斜率或学习负斜率都容易过拟合,而使用随机负斜率则更为有效。通过使用RReLU,在不进行多次测试或集成的情况下,作者在CIFAR-100测试集上实现了75.68%的准确率。

  • 引言
    卷积神经网络(CNN)在各种计算机视觉任务中取得了巨大的成功,例如图像分类(Krizhevsky等,2012;Szegedy等,2014)、目标检测(Girshick等,2014)和跟踪(Wang等,2015)。尽管CNN网络非常深,但现代深度学习系统的一个关键特征是使用非饱和激活函数(例如ReLU)来替代其饱和的对应函数(例如sigmoid、tanh)。使用非饱和激活函数的优点有两个方面:第一,解决所谓的“梯度爆炸/消失”问题;第二,加速收敛速度。在所有这些非饱和激活函数中,最著名的是修正线性单元(ReLU)(Nair和Hinton,2010;Sun等,2014)。简单来说,它是一个分段线性函数,将负部分裁剪为零,保留正部分。通过ReLU传递后,激活值变得稀疏,这是ReLU性能优越的原因之一(Glorot等,2011;Sun等,2014)。本文想探讨两个问题:第一,是否稀疏性是影响ReLU性能最重要的因素?第二,是否可以设计更好的非饱和激活函数来超越ReLU?

(二)Deep Learning with S-Shaped Rectified Linear Activation Units (2016)

  • 摘要

本文提出了一种新的S形修正线性激活单元(SReLU),用于学习凸函数和非凸函数,模拟心理物理学和神经科学中的两个基本定律(Weber-Fechner定律和Stevens定律)提供的多种函数形式。具体来说,SReLU由三个分段线性函数组成,由四个可学习参数公式化。SReLU通过反向传播与整个深度网络的训练一起学习。在训练阶段,为了在不同的层中初始化SReLU,我们提出了一种“冻结”方法,在最初的几个训练时期将SReLU降解为预定义的带泄漏的修正线性单元,然后自适应地学习好的初始值。SReLU可以普遍地用于现有的深度网络中,具有可以忽略的额外参数和计算成本。在包括CIFAR10、CIFAR100、MNIST和ImageNet等各种规模的基准测试中,通过对两个流行的CNN架构(Network in Network和GoogLeNet)进行实验,结果表明,与其他激活函数相比,SReLU可以取得显着的改进

  • 引言

最近有一些其他的激活函数被提出来来提高CNN的性能。Leaky ReLU(LReLU)为负部分分配了一个非零斜率。Parametric ReLU(PReLU)需要学习负部分,而不是使用预定义值。Adaptive Piecewise Linear Activation(APL)将几个共享支点线性函数相加。Maxout激活函数通过计算每个神经元的k个线性函数的最大值来逼近任意凸函数作为输出。尽管上述激活函数在CNN中表现良好,但它们都存在一个缺陷,即它们有限的学习非线性变换的能力。例如,ReLU、LReLU、PReLU和Maxout都无法学习非凸函数,因为它们本质上都是凸函数。尽管APL可以逼近非凸函数,但它要求所有组件函数中最右侧的线性函数具有单位斜率和偏差0,这是不恰当的约束,会削弱其表示能力。

本文中提出了一种新的激活单元,称为S型修正线性单元(SReLU),受到心理物理学和神经科学中基本的Webner-Fechner定律和Stevens定律的启发。这两个定律描述了物理刺激强度与其感知强度之间的关系。Webner-Fechner定律指出,感知强度s是刺激强度p乘以一个模态和特定维度的常数k的对数函数,即s=klogp。在SReLU中,包含了三个分段线性函数,由四个可学习参数来定义其函数形式。SReLU通过反向传播算法与整个深度网络一起进行训练,可以在现有的深度网络中普遍使用,计算成本低,参数量小。实验表明,在CIFAR10、CIFAR100、MNIST和ImageNet等基准数据集上,SReLU的性能表现优于其他激活函数。

(三)BRIDGING NONLINEARITIES AND STOCHASTIC REGULARIZERS WITH GAUSSIAN ERROR LINEAR UNITS (2017)

  • 摘要、

本文提出了一种高性能的神经网络激活函数——高斯误差线性单元(Gaussian Error Linear Unit,GELU)。GELU非线性是一个随机正则化器的期望转换,该正则化器随机地将恒等映射或零映射应用于神经元的输入。这种随机正则化器类似于使用dropout的非线性,但它消除了传统非线性的需要。GELU和随机正则化器之间的连接提出了一种新的非线性的概率理解。我们对GELU非线性进行了实证评估,并发现在所有任务上都能提高性能,相比ReLU和ELU激活函数。

  • 引言

本文讨论了神经网络中的激活函数选择问题。早期的人工神经元使用的是二元阈值单元,后来出现了使用sigmoid激活的神经元,使得神经元具有“发放率”解释,并能够使用反向传播进行训练。但随着网络的加深,sigmoid激活的训练效果变得不那么有效,非平滑、非概率的ReLU成为更好的工程解决方案。近期的一种修改称为ELU允许ReLU类似的非线性输出负值,有时可以提高训练速度。激活函数选择一直是神经网络中必要的架构决策,因为深层非线性分类器可以很好地拟合数据,所以网络设计者经常面临着包括随机正则化器(如在隐藏层中添加噪声或应用dropout)的选择,这种选择与激活函数不同。一些随机正则化器可以使网络像伪集合一样运行,可以带来显著的精度提高。非线性和dropout因此一起决定一个神经元的输出,但两个创新一直保持着独立。此外,流行的随机正则化器无论输入是什么都会发挥作用,而非线性则通过这种正则化器得到帮助。

本文介绍了一种自适应随机正则化器,可以更加概率化地考虑神经元的输出,从而实现了随机正则化器与非线性的结合。使用这种随机正则化器,我们可以训练不带任何非线性的网络,并且达到与激活函数结合dropout的性能相当的水平。这与其他没有非线性的随机正则化器不同,它们只产生正则化的线性分类器。此外,作者通过对该随机正则化器的期望变换得到了一种新的非线性函数,这种函数在计算机视觉、自然语言处理和自动语音识别等任务中可以与ReLU或ELU等模型相匹敌甚至超过。

(四)Deep Neural Networks with Elastic Rectified Linear Units for Object Recognition

  • 摘要

本文提出了一种新的弹性修正线性单元(EReLU)和弹性参数修正线性单元(EPReLU),用于处理输入的正部分,可以改善深度神经网络的拟合效果,而且没有额外的参数和过拟合的风险。EPReLU进一步提高了网络性能,我们还提出了一种新的训练策略,用于训练具有EPReLU的深度神经网络。实验结果表明,EReLU和EPReLU在四个基准测试中均取得了良好的效果。

关键词:深度神经网络,弹性修正线性单元(EReLU),弹性参数修正线性单元(EPReLU),非饱和非线性激活函数。

  • 引言

深度神经网络 (DNNs) 在各种计算机视觉任务中带来了巨大的性能提升,包括图像分类、目标检测和图像检索。这种成功主要归因于三个方面的进步:更强大的网络结构、更好的训练策略和有效的规范化技术。其中,非饱和非线性激活函数是可行的深度神经网络的一个重要步骤。ReLU 能够快速训练深度神经网络,这种快速学习对于在大型数据集上训练大型模型的性能具有巨大影响。最近,有更多的研究关注于非饱和非线性激活函数的研究,这些方法可以分为两个方面。一方面,一些方法专注于负部分,使用固定的、可学习的或随机的系数来控制负部分的斜率。另一方面,一些其他方法采用更复杂的分段线性函数,由几个可学习参数来处理整个输入。

本文提出了一种新型的弹性修正线性单元(Elastic Rectified Linear Unit,EReLU)和弹性参数修正线性单元(Elastic Parametric Rectified Linear Unit,EPReLU),用于加强神经网络的稳健性和进一步提高准确性。EReLU 可以让输入的正部分在训练过程中波动在一个适度的范围内,从而增强网络模型的鲁棒性。EPReLU 是将 EReLU 和参数修正线性单元(Parametric Rectified Linear Unit,PReLU)结合起来,分别处理正负部分。同时,文中还提出了一种新的训练策略来训练带有 EPReLU 的深度神经网络。本文的贡献和优点包括:1)提出了 EReLU 和 EPReLU,增强了神经网络的稳健性和准确性;2)提出了一种复合激活策略 EPReLU,进一步提高了网络的准确性;3)提出了一种新的训练策略,用于训练带有 EPReLU 的深度神经网络。本文的结构包括相关工作综述、方法介绍、实验结果和结论。

(五)Deep Sparse Rectifier Neural Networks

  • 摘要

本文指出,虽然逻辑Sigmoid神经元比双曲正切神经元更符合生物学上的可行性,但后者在训练多层神经网络时效果更好。研究表明,整流神经元是更好的生物神经元模型,即使在零点处存在硬非线性和不可微性,也能产生稀疏表示,其中具有真正的零点,这似乎非常适合自然稀疏数据。深度整流器网络即使在纯监督任务中使用大型标记数据集也能达到最佳性能,无需进行无监督预训练,尽管它们可以利用额外的未标记数据进行半监督设置。因此,这些结果可以被视为尝试理解训练深度但纯监督神经网络的困难程度以及缩小具有和不具有无监督预训练的神经网络之间性能差距的新里程碑。

  • 引言

计算机科学中的机器学习旨在获得计算效率高、能够对新例子泛化良好的学习器,而计算神经科学中的目标是从神经科学数据中抽象出原则性的解释和预测,为未来的生物实验提供指导。两者的共同点尤其值得研究,可以指向大脑的计算机制,进而提高人工智能的研究。本文通过使用线性分段激活函数max(0,x)(也称为修正线性单元函数)来弥合计算神经科学模型和机器学习神经网络模型之间的两个常见差距。实验结果表明,这种激活函数在深度架构中具有良好的训练行为,即神经网络的隐藏层数为3层或更多层。

近期在统计机器学习方面的理论和实证研究已经表明,深度架构的学习算法的重要性。这在一定程度上受到哺乳动物视觉皮层的观察的启发,该视觉皮层由一系列的处理单元组成,每个单元都与原始视觉输入的不同表示相关联。这在灵长类动物的视觉系统中尤为明显(Serre等人,2007),其处理步骤为:检测边缘、基本形状,并逐渐向上移动,直到逐渐更复杂的视觉形状。有趣的是,发现深度架构中学习到的特征与在这两个步骤(视觉皮层的V1和V2区域)中观察到的特征相似(Lee等人,2008),并且在更高层中对于变化因素(如相机移动)具有越来越强的不变性(Goodfellow等人,2009)。
在深度网络训练方面,2006年出现了一个被认为是突破的进展,即深度置信网络的引入(Hinton等人,2006),更普遍地,每层使用无监督学习进行初始化的想法(Bengio等人,2007; Ranzato等人,2007)。一些作者试图理解为什么这种无监督过程有帮助(Erhan等人,2010),而其他人则研究为什么深度神经网络的原始训练过程失败了(Bengio和Glorot,2010)。从机器学习的角度来看,本文在这些研究方向上提供了额外的结果。我们提出探索在深度人工神经网络中使用修正非线性作为替代超越函数或Sigmoid函数的方法,此外还使用L1正则化器在激活值上以促进稀疏性并防止可能出现的无界激活数值问题。Nair和Hinton(2010)在受限玻尔兹曼机的上下文中对此类单元的影响呈现出有希望的结果,与基于逻辑Sigmoid激活的图像分类任务相比。我们的工作将其扩展为使用去噪自编码器(Vincent等人,2008)进行预训练的情况,并对比了修正激活函数与超越函数在图像分类基准测试中的表现,以及针对情感分析的原创推导。我们在图像和文本数据上的实验表明,当人工神经元要么关闭,要么在大部分线性区域运行时,训练效果更好。令人惊讶的是,修正激活允许深度网络在没有无监督预训练的情况下达到最佳性能。因此,我们的工作提出了一个新的贡献,以理解和弥合有无监督预训练的深度网络之间的性能差距(Erhan等人,2010; Bengio和Glorot,2010)。然而,修正网络可以从半监督学习的背景下进行无监督预训练中受益,因为在这种情况下提供了大量未标记的数据。此外,由于修正单元自然地导致稀疏网络,并且在其主要操作区域中更接近生物神经元的响应,因此本文还在激活函数和稀疏性方面部分地弥合了机器学习/神经科学的差距。

  • 1
    点赞
  • 7
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值