MPELU激活函数
文章链接:Improving deep neural network with Multiple Parametric Exponential
Linear Units
年份:2018
简介
多参数指数线性单元(MPELU)是ReLU和ELU的结合体,具有参数修正单元(PReLU)和指数线性单元(ELU)的优点,具有更好的分类性能和收敛性,该函数统一了现有ReLU、LReLU、PReLU和ELU,具体的形式为:
f
(
x
)
=
{
x
,
x
>
0
α
(
e
β
x
−
1
)
,
x
≤
0
,
β
>
0
f(x )= \begin{cases} x, &x>0\\ \alpha(e^{\beta x} - 1), &x\le0 \end{cases}, \beta>0
f(x)={x,α(eβx−1),x>0x≤0,β>0
α
\alpha
α和
β
\beta
β是可学习参数。
通过调整
β
\beta
β,MPELU可以在ReLU和ELU之间进行切换。例如,当
β
=
0.01
\beta=0.01
β=0.01时,负数区域曲线接近与线性函数,此时MPELU成为PReLU。当
β
=
1
\beta=1
β=1,MPELU成为ELU。该函数的导数为:
f
′
(
x
)
=
{
1
,
x
≥
0
α
β
(
e
β
x
)
,
x
<
0
,
β
>
0.
f^\prime(x) = \begin{cases}1, & x\ge 0\\\alpha \beta (e^{\beta x}), & x<0\end{cases}, \beta>0.
f′(x)={1,αβ(eβx),x≥0x<0,β>0.
另一参数
α
\alpha
α有助于进一步控制MPELU的形状,具体如下图所示。
MPELU对x的导数曲线如下图:
分析
- α \alpha α控制这负区域的饱和值,该函数的值域为 [ − α , ∞ ) [-\alpha, \infty) [−α,∞)。
- β \beta β控制着负区域的衰减率。 β \beta β越小,负区域的函数值缓慢到达饱和和值, β \beta β越大,到达饱和值的速度加快。
- 只有当
α
⋅
β
=
1
\alpha \cdot \beta = 1
α⋅β=1时,此时的MPELU在
x
=
0
x=0
x=0处是可微的,否则不可微,最大的导数为
m
a
x
(
1
,
α
β
)
max(1, \alpha \beta)
max(1,αβ)
MPELU中 α \alpha α和 β \beta β是可学习参数, 建议初始使用 α = 1 \alpha=1 α=1或 α = 0.25 \alpha=0.25 α=0.25, β = 1 \beta=1 β=1作为初始值,而且在是使用MPELU时权重衰减的使用是很重要的。