【论文阅读笔记】Comparing Deep Learning Activation Functions Across NLP tasks_关于深度学习激活函数的英文论文-CSDN博客

本文链接：https://blog.csdn.net/cskywit/article/details/86741779

研究对比了21种激活函数在8个NLP任务上的表现，发现penalizedtanh函数在所有任务中表现最稳定，尤其适合用于LSTM门控，提升复杂NLP任务性能。ReLu及其变种在多数任务中表现优异但不稳定，而tanh函数则在不同超参数选择下表现出良好的稳定性。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本文是发布在arxiv 2019.1的文章，文章通过对比实验对NLP中的激活函数及其性能进行总结，结果比较有意思，可以用于指导NLP中的优化。下面对本文内容进行概述：

激活函数在神经网络中起着至关重要的作用，因为它们是非线性的，被认为是深度学习成功的原因。目前最流行的激活函数之一是ReLU，但目前出现的几个变种，包括LReLU函数和swish。本文先对8个不同NLP任务中的21个激活函数进行了大规模比较，发现了在所有任务中执行 penalized tanh function.表现最稳定，从其他的对比实验结果，作者认为它可取代LSTM中的sigmoid和tanh门，在具有挑战性的NLP任务中比标准选择提高2个百分点的性能。

本文使用的激活函数除了下表中的在Ramachandran et al. (2017)中提到的外，还有14个：tanh, sin, relu , lrelu-0.01, lrelu-0.30, maxout-2, maxout-3, maxout-4, prelu, linear , elu , cube, penalized tanh, selu。

作者在这21个函数上进行了3大类的NLP对比实验：

使用的网络模型及选择的超参数为：

原文大部分内容均为实验描述，这里不展开讲，个人觉得实验结果比较有意思，这里小结一下：

1.ReLu及其变种函数(以及类似形状的swish函数)成为每项任务的佼佼者，但它们的性能是不稳定的，不能预先预测。相比之下，饱和区受损的tanh函数表现得更稳定，并且有很高的概率在不同的任务以及不同的超参数选择中表现良好。在超参数优化代价较高的情况下，这种方法显得尤为重要。当超参数优化代价较低时，建议将激活函数作为另一个超参数来考虑，并在表5中列出的函数范围内与maxout一起进行选择。

2.penalized tanh的另一个主要优点是，它还可以扮演门的角色(因为它的范围有限)，因此可以用于更复杂的神经网络单元，如LSTMs，在复杂的网络结构中，ReLu及类似函数性能恶化。在这种情况下，在LSTM细胞中用penalized tanh替换sigmoid和tanh会导致具有挑战性的NLP序列标记任务性能提升2个百分点。

3.除了swish, Ramachandran et al.(2017)等人新发现的激活函数都没有进入实验的的top表现结果中，意味着在未来的多任务应用中应该对激活函数进行自动搜索选择最优的。