TanhExp
论文:TanhExp: A Smooth Activation Function with High Convergence Speed for Lightweight Neural Networks
年份:2020
一种用于轻量级神经网络的具有高收敛速度的平滑激活函数,在不增加网络规模的情况下,只需要少量的训练周期和不增加额外参数,TanhExp就可以提高轻量级神经网络的容量。TanhExp被定义为:
f
(
x
)
=
x
t
a
n
h
(
e
x
)
f(x) = xtanh(e^x)
f(x)=xtanh(ex)
其中tanh为:
t
a
n
h
(
x
)
=
e
x
−
e
−
x
e
x
+
e
−
x
tanh(x) = \frac{e^x - e^{-x}}{e^x + e^{-x}}
tanh(x)=ex+e−xex−e−x
TanhExp对x的一阶导数为:
f
′
(
x
)
=
t
a
n
h
(
e
x
)
−
x
e
x
(
t
a
n
h
2
(
e
x
)
−
1
)
f^\prime(x) = tanh(e^x) - xe^x(tanh^2(e^x)-1)
f′(x)=tanh(ex)−xex(tanh2(ex)−1)
TanhExp的曲线和导数曲线如下图所示。
TanhExp在
x
=
−
1.1
x=-1.1
x=−1.1时,获得最小值,最小值
≈
−
0.3532
\approx -0.3532
≈−0.3532,TanhExp满足门控制机制,它是以输入为参数的函数,所以网络不会改变输入在正部分的初始分布,同时在接近零的负部分产生一个缓冲性,而且TanhExp还确保其输出的稀疏性,不是所有的输入都被激活。因此,当输入
x
x
x的负值较大,满足稀疏性的定义时,神经元可以近似视为未激活。这种稀疏特性允许模型控制输入表示的有效维数,同时更可能是线性可分的。与ReLU相比,TanhExp使这些神经元失活的概率更小。
- 当输入 x > 1 x>1 x>1时,TanhExp几乎等于一个线性变换,输出值和输入值的变化不超过0.01
- TanhExp在接近零的地方呈现出更陡的梯度,可以加速网络中参数的更新。