Sigmoid 函数
f1(x)=11+e−x
f1(x)
的导函数为:
ddxf1(x)=f1(x)(1−f1(x))
tanh函数
sinh(x)=ex−e−x2
cosh(x)=ex+e−x2
tanh(x)=sinh(x)cosh(x)=ex−e−xex+e−x
通过上下同乘 e−x 可得 f2(x)=tanh(x)=2f1(2x)−1 【转化为Sigmoid函数的形式】
因此,tanh的导函数为:
ddxf2(x)=2f1(2x)∗2(1−f1(2x))=1−f22(x)
函数模型如下:
相关论文:(该论文证明了tanh激活函数比Sigmoid好,因为Sigmoid的平均值不为0)
Eigenvalues of covariance matrices: Application to neural-network learning.
ReLu 函数
f3(x)=max(0,x)
即当x>0时,函数表现为 y=x;当 x<0 时,函数表现为 y=0
表现为分段函数的形式:
f3(x)={x,0,x>0x≤0
则 ReLu函数的导函数为:
ddxf3(x)={1,0,x>0x≤0
提出背景:
2001年,神经科学家Dayan、Abott从生物学角度,模拟出了脑神经元接受信号更精确的激活模型,模型如下:
这个模型对比Sigmoid系(Sigmoid和tanh)主要变化有三点:①单侧抑制 ②相对宽阔的兴奋边界 ③稀疏激活性(重点,可以看到红框里前端状态完全没有激活)
该函数模型和Softplus函数一起被整理后,由论文发表。模型如下:
相关论文为:
Deep Sparse Rectifier Neural Networks
Leaky ReLu 函数
f4(x)={x,αx,x>0x≤0
则 Leaky ReLu函数的导函数为:
ddxf4(x)={1,α,x>0x≤0
函数模型如下:
提出论文:
Rectifier nonlinearities improve neural network acoustic models
ELU 函数
f5(x)={x,α(ex−1),x>0x≤0
则 ELU函数的导函数为:
ddxf5(x)={1,αex,x>0x≤0={1,f5(x)+α,x>0x≤0
ELU函数模型如下:
该函数模型有如下特性:
右侧线性部分使得ELU能够缓解梯度消失,而左侧软饱能够让ELU对输入变化或噪声更鲁棒。ELU的输出均值接近于零,所以收敛速度更快。
提出论文:
Fast and Accurate Deep Network Learning by Exponential Linear Units (ELUs)
**Maxout函数**
f5(x)=max((wi)Tx+bi)
该函数有如下特性:
maxout的拟合能力是非常强的,它可以拟合任意的的凸函数(当然包括ReLu和 Leaky ReLu)。最直观的解释就是任意的凸函数都可以由分段线性函数以任意精度拟合。
Maxout能够缓解梯度消失,同时又规避了ReLU神经元死亡的缺点,但增加了参数和计算量。
提出论文:
Maxout Networks