本文首先盘点了传统的激活函数以及注意力机制,然后解读了一种注意力机制下的新型激活函数,也就是自适应参数化修正线性单元(Adaptively Parametric Rectifier Linear Unit,APReLU)。
1. 激活函数
激活函数是人工神经网络的核心部分,其用处是实现人工神经网络的非线性化。我们首先来介绍几种最常见的激活函数,即Sigmoid、Tanh和ReLU激活函数,分别如下图所示。
Sigmoid和Tanh激活函数的梯度取值范围分别是(0,1)和(-1,1)。当层数较多时,人工神经网络可能会遭遇梯度消失的问题。ReLU激活函数的梯度要么是1,要么是0,能够很好地缓解梯度消失和梯度爆炸的风险,因此在近年来得到了广泛的使用。
但是,ReLU激活函数依然存在一点缺陷。如果在人工神经网络训练的时候,遇到了特征全部为负的情况,那么ReLU激活函数的输出就全部为零。这个时候,就训练失败了。为了回避这种情况,有的学者就提出了leaky ReLU激活函数,