sigmoid
σ
(
x
)
=
1
/
(
1
+
e
−
x
)
σ(x)=1/(1+e^{-x})
σ(x)=1/(1+e−x)
优点 | 缺点 |
---|---|
有很好的解释性 | 1.会造成梯度弥散 2.非零均值 |
tanh
t
a
n
h
(
x
)
=
2
σ
(
2
x
)
−
1
tanh(x)=2σ(2x)-1
tanh(x)=2σ(2x)−1
优点 | 缺点 |
---|---|
零均值 | 梯度消失问题 |
relu
r
e
l
u
(
x
)
=
m
a
x
(
0
,
x
)
relu(x)=max(0,x)
relu(x)=max(0,x)
优点 | 缺点 |
---|---|
1.不存在梯度消失 2.计算方法简答,能够极大的加速随机梯度下降的速度 | 比较脆弱,本身不可逆 |
Leaky Relu
f
(
x
)
=
I
(
x
<
0
)
(
a
x
)
+
I
(
x
>
0
)
(
x
)
f(x)=I(x<0)(ax)+I(x>0)(x)
f(x)=I(x<0)(ax)+I(x>0)(x)
众说纷纭:一些实验证明是好的,一些实验证明不好
Maxout
f
(
x
)
=
m
a
x
(
w
1
x
+
b
1
,
w
2
x
+
b
2
)
f(x)=max(w1x+b1,w2x+b2)
f(x)=max(w1x+b1,w2x+b2)
优点 | 缺点 |
---|---|
1.包含relu的所有优点 2.避免rule本身脆弱的缺点 | 加倍了模型参数 |
tips:实际中会经常用relu,避免在同一个模型中用多个激活函数