ReLTanh激活函数
年份:2019
简介
Tanh是一个存在梯度消失问题的饱和激活函数,由此提出了ReLU激活函数,但克服梯度消失问题的同时也带来了偏置偏移和噪声敏感问题,由此在Tanh的基础上,提出了一种新的激活函数,称为修正线性Tanh(ReLTanh)激活函数。ReLTanh用两条直线替代Tanh在正、负不活跃区域的饱和波形,直线的斜率是两个可学习的参数,线性部分有助于缓解消失梯度问题。具体的函数公式为:
f
(
x
)
=
{
T
a
n
h
′
(
λ
+
)
(
x
−
λ
+
)
+
T
a
n
h
(
λ
+
)
,
x
≥
λ
+
T
a
n
h
(
x
)
,
λ
−
<
x
<
λ
+
T
a
n
h
′
(
λ
−
)
(
x
−
λ
−
)
+
T
a
n
h
(
λ
−
)
,
x
≤
λ
−
,
λ
l
o
w
e
r
+
≤
λ
+
≤
λ
u
p
p
e
r
+
,
λ
l
o
w
e
r
−
≤
λ
−
≤
λ
u
p
p
e
r
−
\begin{aligned}f(x) = \begin{cases} Tanh^{\prime}(\lambda^+)(x-\lambda^+)+Tanh(\lambda^+), &x\ge \lambda^+\\ Tanh(x), &\lambda^-<x<\lambda^+\\Tanh^{\prime}(\lambda^-)(x-\lambda^-)+Tanh(\lambda^-), &x\le \lambda^-\\\end{cases},\lambda^+_{lower}\le \lambda^+\le\lambda^+_{upper},\lambda^-_{lower}\le \lambda^-\le\lambda^-_{upper}\end{aligned}
f(x)=⎩⎪⎨⎪⎧Tanh′(λ+)(x−λ+)+Tanh(λ+),Tanh(x),Tanh′(λ−)(x−λ−)+Tanh(λ−),x≥λ+λ−<x<λ+x≤λ−,λlower+≤λ+≤λupper+,λlower−≤λ−≤λupper−
其中
T
a
n
h
′
(
x
)
=
4
(
e
x
+
e
−
x
)
2
Tanh^\prime(x) = \frac{4}{(e^x+e^{-x})^2}
Tanh′(x)=(ex+e−x)24
T
a
n
h
′
(
x
)
Tanh^\prime(x)
Tanh′(x)的图像如下图
λ
+
\lambda^+
λ+和
λ
−
\lambda^-
λ−分别是决定直线起始位置和斜率的正阈值和负阈值。而且
λ
+
\lambda^+
λ+和
λ
−
\lambda^-
λ−都需要训练得到的。值得注意的是,
λ
+
\lambda^+
λ+和
λ
−
\lambda^-
λ−都有额外的极限条件,因为它们主要用来约束斜率的可学习范围,避免不合理的波形,保证梯度不会消失。根据经验:
0
≤
λ
+
≤
0.5
0\le \lambda^+ \le 0.5
0≤λ+≤0.5和
λ
−
≤
−
1.5
\lambda^- \le -1.5
λ−≤−1.5
ReLTanh对输入x的导数为:
R
e
L
T
a
n
h
′
(
x
)
=
{
T
a
n
h
′
(
λ
+
)
,
x
≥
λ
+
T
a
n
h
′
(
x
)
,
λ
−
<
x
<
λ
+
T
a
n
h
′
(
λ
−
)
,
x
≤
λ
−
ReLTanh^\prime(x) = \begin{cases} Tanh^{\prime }(\lambda^+), &x\ge \lambda^+\\ Tanh^{\prime}(x), &\lambda^- <x<\lambda^+\\ Tanh^{\prime }(\lambda^-), & x\le \lambda^-\end{cases}
ReLTanh′(x)=⎩⎪⎨⎪⎧Tanh′(λ+),Tanh′(x),Tanh′(λ−),x≥λ+λ−<x<λ+x≤λ−
其中
T
a
n
h
′
′
(
x
)
=
8
(
e
−
2
x
−
e
2
x
)
(
e
x
+
e
−
x
)
4
Tanh^{\prime \prime}(x) = 8\frac{(e^{-2x}-e^{2x})}{(e^x+e^{-x})^4}
Tanh′′(x)=8(ex+e−x)4(e−2x−e2x)
原文中有许多错误,ReLTanh的导数不是Tanh的二次导数,而是一次导数。
T
a
n
h
′
′
(
x
)
Tanh^{\prime \prime}(x)
Tanh′′(x)的图像如下图
当固定参数
λ
+
\lambda^+
λ+,变化
λ
−
\lambda^-
λ−的ReLTanh的图像如下:
当固定参数
λ
−
\lambda^-
λ−,变化
λ
+
\lambda^+
λ+的ReLTanh的图像如下:
当固定参数
λ
+
\lambda^+
λ+,变化
λ
−
\lambda^-
λ−的ReLTanh的导数图像如下:
当固定参数
λ
−
\lambda^-
λ−,变化
λ
+
\lambda^+
λ+的ReLTanh的导数图像如下:
参数分析
- 参数 λ + \lambda^+ λ+控制着正区域曲线的斜率, λ + \lambda^+ λ+越大,斜率越小。
- 参数 λ − \lambda^- λ−控制着负区域曲线的斜率, λ − \lambda^- λ−越大,斜率越大。
- 当 λ + = 0 \lambda^+=0 λ+=0时,ReLTanh正区域的斜率为1,与ReLU正区域很是相似。
- 当 λ − = − ∞ \lambda^-=-\infty λ−=−∞时,ReLTanh负区域的斜率为0,与ReLU负区域很是相似。
分析
以下四点是论文中提到的优点:
- 与Tanh相比,ReLTanh具有更好的导数性能,可以像ReLU族那样减小梯度消失问题。
- 对于平均激活,ReLTanh的输出更接近于零,因此其受偏置偏移的影响比ReLU家族小。ReLTanh的偏置偏移影响较小,可以加快和平滑训练过程。
- 可学习阈值的优势有助于ReLTanh更接近全局最小值。ReLTanh的波形与ELU相似,但ReLTanh的性能优于ELU,这不仅是因为ReLTanh可以更新阈值来帮助搜索代价函数的最小值,而且ELU在负区间仍然存在梯度消失问题。
- 在一定程度上,ReLTanh对噪声和异常输入具有更强的鲁棒性。
缺点也很明显:
- 梯度的计算涉及到指数的幂运算,因此训练时间较长。
- λ + \lambda^+ λ+只有等于0时,ReLTanh的正区域才接近 x x x恒等映射,而如果 λ + > 0 \lambda^+>0 λ+>0,ReLTanh的正区域小于 x x x恒等映射,这样导致网络不稳定,梯度不容易回传。