这篇文章解决了什么问题
BN训练十分依赖batchsize。当batchsize过小时,训练效果不好。(因为BN需要batch的统计量)本篇文章的方法可以不依赖batch,从而避免这个问题
为什么这个问题重要
因为很多场景下,训练没有大的batch或者不能够使用大的batch。
如何解决的问题
通过对橘色的部分norm,规范化Weights
注意,这里并没有引入学习参数lambda和beta。
为什么这种方法能wrok
1:作者证明了该方法能比其他norm方法更能使得loss和gradient曲线平滑。
2:如果将输入看作常量
y
=
(
W
x
)
−
m
e
a
n
(
W
x
)
s
t
d
(
W
x
)
=
W
−
m
e
a
n
(
W
)
s
t
d
(
W
)
y = \frac {(Wx)-mean(Wx)}{std(Wx)}=\frac {W-mean(W)}{std(W)}
y=std(Wx)(Wx)−mean(Wx)=std(W)W−mean(W)
中间的式子是BN,后面是WS。两者从输出层面来看,具有相同的统计意义
效果如何