SERLU激活函数
文章链接:Effectiveness of Scaled Exponentially Regularized Linear Units(SERLUs)
年份:2018
1.介绍
SELU是适当缩放指数线性单元,结合中心极限理论进行归一化。SELU是一个单调递增函数,对于较大的负输入,它有一个恒定的负输出。根据SELU提出SERLU,该函数是非单调函数,同时仍然保持自归一化的性质。而且该函数通过将一个线性函数正则化为一个缩放的指数函数,在负区域引入一个凸函数,称为缩放的指数正则化线性单元。凸函数对较大的负输入具有近似为零的相应,同时通过适当的缩放负区域的凸函数,能够将SERLU的输出在统计上推向0均值。
SERLU的具体函数公式为:
f
(
x
)
=
λ
{
x
,
x
≥
0
α
x
e
x
,
x
<
0
,
λ
>
0
,
α
>
0
f(x) = \lambda \begin{cases} x, & x\ge 0\\ \alpha x e^x, &x<0 \end{cases},\lambda>0,\alpha>0
f(x)=λ{x,αxex,x≥0x<0,λ>0,α>0
SERLU的导数为:
f
(
x
)
=
λ
{
1
,
x
≥
0
α
e
x
⋅
(
x
+
1
)
,
x
<
0
f(x) = \lambda \begin{cases} 1, & x\ge 0\\ \alpha e^x\cdot (x+1), &x<0 \end{cases}
f(x)=λ{1,αex⋅(x+1),x≥0x<0
λ
\lambda
λ和
α
\alpha
α为超参数,SERLU的函数图像如下图所示:
当固定
λ
\lambda
λ,变化
α
\alpha
α时的图像如下图:
当固定
α
\alpha
α,变化
λ
\lambda
λ的函数图像如下图:
通过以上两个图可以看出,
λ
\lambda
λ不仅对正区域曲线的斜率起作用,而且与
α
\alpha
α一起控制着负区域曲线的最小值点。 通过下图可以看出,当
x
=
−
1
x=-1
x=−1时,梯度为0,取得最小值,最小值为:
−
λ
α
e
−
1
-\lambda \alpha e^{-1}
−λαe−1。
当固定
λ
\lambda
λ,变化
α
\alpha
α时的导数图像如下图:
当固定
α
\alpha
α,变化
λ
\lambda
λ的导数图像如下图:
2.分析
2.1. Swish与SERLU的区别
尽管 S w i s h ( x ) = x ⋅ s i g m o i d ( β x ) Swish(x) = x\cdot sigmoid(\beta x) Swish(x)=x⋅sigmoid(βx)也有负输入的凸点,但其函数形式不如 S E R L U ( x ) SERLU(x) SERLU(x)灵活,SERLU的两个参数 λ \lambda λ与 α \alpha α可以自由调整输出的均值和方差,正是这种自由可以自由缩放 S E R L U ( x ) SERLU(x) SERLU(x),使其具有自归一化属性。
2.2. λ \lambda λ与 α \alpha α的确定
要使SERLU表现出作为SELU的自我正则化的属性,首先要确定
α
\alpha
α和
λ
\lambda
λ,以便每层输出的平均值和方差跨层是一致的。通过设置不动点的均值
μ
=
0
\mu = 0
μ=0,方差
ν
=
1
\nu=1
ν=1,而且假设归一化的加权向量
ω
=
0
\omega=0
ω=0和
τ
=
1
\tau=1
τ=1,由此就可以获得
α
≃
2.90427
a
n
d
λ
≃
1.07862
\alpha \simeq 2.90427 \ and \ \lambda\simeq 1.07862
α≃2.90427 and λ≃1.07862
参数
α
\alpha
α调节平均单位激活为零,而
λ
\lambda
λ将单位激活的方差归一化。当
α
\alpha
α与
λ
\lambda
λ确定时,函数曲线如下图:
3.总结
- SERLU是对SELU的改进,引入“自控机制”使负值极限为0,与Swish相比,该函数更为灵活。
- 但SERLU的光滑性不好,影响网络的训练效率。
- 不是自适应函数,如果改为自适应函数,超参数的可变范围太大,训练起来较为困难。