【论文阅读笔记】Comparing Deep Learning Activation Functions Across NLP tasks

      本文是发布在arxiv 2019.1的文章,文章通过对比实验对NLP中的激活函数及其性能进行总结,结果比较有意思,可以用于指导NLP中的优化。下面对本文内容进行概述: 

      激活函数在神经网络中起着至关重要的作用,因为它们是非线性的,被认为是深度学习成功的原因。目前最流行的激活函数之一是ReLU,但目前出现的几个变种,包括LReLU函数和swish。本文先对8个不同NLP任务中的21个激活函数进行了大规模比较,发现了在所有任务中执行 penalized tanh function.表现最稳定,从其他的对比实验结果,作者认为它可取代LSTM中的sigmoid和tanh门,在具有挑战性的NLP任务中比标准选择提高2个百分点的性能。

     本文使用的激活函数除了下表中的在Ramachandran et al. (2017)中提到的外,还有14个:tanh, sin, relu , lrelu-0.01, lrelu-0.30, maxout-2, maxout-3, maxout-4, prelu, linear , elu , cube, penalized tanh, selu。

作者在这21个函数上进行了3大类的NLP对比实验:

使用的网络模型及选择的超参数为:

 

 

原文大部分内容均为实验描述,这里不展开讲,个人觉得实验结果比较有意思,这里小结一下:

1.ReLu及其变种函数(以及类似形状的swish函数)成为每项任务的佼佼者,但它们的性能是不稳定的,不能预先预测。相比之下,饱和区受损的tanh函数表现得更稳定,并且有很高的概率在不同的任务以及不同的超参数选择中表现良好。在超参数优化代价较高的情况下,这种方法显得尤为重要。当超参数优化代价较低时,建议将激活函数作为另一个超参数来考虑,并在表5中列出的函数范围内与maxout一起进行选择。

2.penalized tanh的另一个主要优点是,它还可以扮演门的角色(因为它的范围有限),因此可以用于更复杂的神经网络单元,如LSTMs,在复杂的网络结构中,ReLu及类似函数性能恶化。在这种情况下,在LSTM细胞中用penalized tanh替换sigmoid和tanh会导致具有挑战性的NLP序列标记任务性能提升2个百分点。

3.除了swish, Ramachandran et al.(2017)等人新发现的激活函数都没有进入实验的的top表现结果中,意味着在未来的多任务应用中应该对激活函数进行自动搜索选择最优的。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值