Mish: A Self Regularized Non-Monotonic Neural Activation Function论文笔记
作者:Diganta Misra
下载连接:https://arxiv.org/abs/1908.08681
这篇论文提出了一种全新的激活函数,并且在大多数任务下的指标都要优于ReLU和Swish。
Introduction
激活函数在神经网络中的意义主要是为模型引入非线性,而当前广泛使用的激活函数主要有两种,分别是ReLU: f(x) = max(0, x) 和Swish:f(x) = x⋅sigmoid(x)。其中ReLU作为激活函数主要是有无上界和有下界的特点,而Swish相比ReLU又增加了平滑和非单调的特点,这也使得其在ImageNet上的效果更好。本文中提出的Mish激活函数与Swish函数相同也是一个平滑的非单调的激活函数,具体表达式为:
f(x) = x ⋅ tanh(softplus(x)) = x ⋅ tanh(ln(1 + ex))
在CIFAR-100数据集上,且同样以Squeeze Excite -18 Network作为基础网络的情况下,Mish相比Swish和ReLU,其Top-1准确率分别提高了0.494% 和 1.671%。
Mish
Mish函数的曲线如下图: