论文:https://ieeexplore.ieee.org/document/8998530
问题
RELU的应用是激活函数中最为广泛的,因为他在反向传播时梯度是1,这就避免了因为激活函数导致的梯度消失和梯度爆炸问题,但是存在的缺点是,在负区时梯度会为0,导致大面积神经元的梯度死区。所以Leaky RELU诞生了。但是依旧存在问题时,leaky relu存在超参数,人为设定会需要先验经验。
何恺明等人提出了Parametric ReLU激活函数(参数化ReLU激活函数,PReLU激活函数),将这个系数设置为一个可以训练得到的参数,在人工神经网络的训练过程中和其他参数一起采用梯度下降法进行训练。然而,PReLU激活函数有一个特点:一旦训练过程完成,则PReLU激活函数中的这个系数就变成了固定的值。换言之,对于所有的测试样本,PReLU激活函数中这个系数的取值是相同的。激活函数没有达到对每一个样本都自适应出一个方案。
方案
使用类似通道注意力提取的方案,提取出每个通道不同的参数a,作为relu的修正参数。这样在训练中每个通道的a值是变化的,在测试时a也是在变化的。