Sina Weibo:小锋子Shawn
Tencent E-mail:403568338@qq.com
http://blog.csdn.net/dgyuanshaofeng/article/details/80208944
这篇博客介绍比较新的激活函数——Swish,是ICLR2018 Workshop的文章。
文章的结论就是“在任意神经网络,可以使用Swish单元替换ReLU单元。”
Swish的定义和导数
定义:
Swish=f(x)=x×sigmoid(βx)=x1+e−βx
S
w
i
s
h
=
f
(
x
)
=
x
×
s
i
g
m
o
i
d
(
β
x
)
=
x
1
+
e
−
β
x
导数:
f′(x)=1×(1+e−βx)−x×(1+e−βx)′(1+e−βx)2=1+e−βx−x(e−βx)(−β)(1+e−βx)2=11+e−βx+βx(e−βx+1)−βx(1+e−βx)2=11+e−βx+βx1+e−βx−βx(1+e−βx)2
f
′
(
x
)
=
1
×
(
1
+
e
−
β
x
)
−
x
×
(
1
+
e
−
β
x
)
′
(
1
+
e
−
β
x
)
2
=
1
+
e
−
β
x
−
x
(
e
−
β
x
)
(
−
β
)
(
1
+
e
−
β
x
)
2
=
1
1
+
e
−
β
x
+
β
x
(
e
−
β
x
+
1
)
−
β
x
(
1
+
e
−
β
x
)
2
=
1
1
+
e
−
β
x
+
β
x
1
+
e
−
β
x
−
β
x
(
1
+
e
−
β
x
)
2
=sigmoid(βx)+βxsigmoid(βx)−βx(sigmoid(βx))2
=
s
i
g
m
o
i
d
(
β
x
)
+
β
x
s
i
g
m
o
i
d
(
β
x
)
−
β
x
(
s
i
g
m
o
i
d
(
β
x
)
)
2
=sigmoid(βx)(1−βxsigmoid(βx))+βSwish
=
s
i
g
m
o
i
d
(
β
x
)
(
1
−
β
x
s
i
g
m
o
i
d
(
β
x
)
)
+
β
S
w
i
s
h
=sigmoid(βx)(1−βSwish)+βSwish
=
s
i
g
m
o
i
d
(
β
x
)
(
1
−
β
S
w
i
s
h
)
+
β
S
w
i
s
h
如果熟悉sigmoid的求导,就可以快速求得。