- 先上图
- 关于图中zig zeg产生的原因,其实元凶是sigmoid只能得到正的激活值,所以假如有这么个网络:
我们可以知道:
d
E
/
d
w
1
=
(
d
E
/
d
y
)
∗
(
d
y
/
d
w
1
)
=
(
d
E
/
d
y
)
∗
a
1
d_{E}/d_{w1}=(d_{E}/d_{y})*(d_{y}/d_{w1})=(d_{E}/d_{y})*a1
dE/dw1=(dE/dy)∗(dy/dw1)=(dE/dy)∗a1
同理,
d
E
/
d
w
2
=
(
d
E
/
d
y
)
∗
a
2
d_{E}/d_{w2}=(d_{E}/d_{y})*a2
dE/dw2=(dE/dy)∗a2
又因为a1和a2都是sigmoid之后得到的,都是正数,所以
(
d
E
/
d
y
)
(d_{E}/d_{y})
(dE/dy)决定对于参数w1和w2的更新是正数还是负数,但是它们两个一定是同号的,这就导致了zigzeg现象的产生,即w参数值同时变大或变小,呈曲线状接近最优参数。