1:NormProp
问题1:
the analysis supporting the proposed algorithm can only be applied to the input layer of a network. The canonical error bound (Proposition 1) presumes that the input features are zero mean and have a scaled identity covariance matrix. It isn’t at all clear that the inputs to later layers, which will be vectors of random variables having a scaled and shifted rectified Gaussian distribution, will have the proper covariance for the analysis to hold:网络整体输入具有0均值,1方差,但是后面的输入是否满足这样的条件。
如上述公式所述, 两个常数系数是半波N(0,1)的均值方差(且不论对错),如何保证
R
e
L
U
(
γ
i
(
W
i
∗
x
)
∣
∣
W
i
∣
∣
F
+
β
i
)
ReLU(\frac {\gamma_i(W_i*x)}{||W_i||_F}+\beta_i)
ReLU(∣∣Wi∣∣Fγi(Wi∗x)+βi)就是一个半波高斯?
问题2
论文里面提到的半波高斯均值方差好像有问题。
E
(
W
X
)
=
E(WX)=
E(WX)=
E
(
(
W
X
)
2
)
=
E((WX)^2)=
E((WX)2)=
和论文结果相悖。
2:Online Norm
增大batchsize 可以降低gradients的误差
上图比较基准是把所有数据放入一个batch计算的导数。bias的衡量标准是余弦相似度。
而提高相似度的关键,就是提高对整体数据mean和var的估计。
layer sacling 可以降低误差的传播
假设
Z
=
B
N
(
X
)
−
ε
Z = BN(X) - \varepsilon
Z=BN(X)−ε。当有layer scaling时,误差传播会比较小。
3: 结合论文综述
预感我们少除了一个东西
- Online BN 加了layer scaling
- weight norm 除了weight 的二阶范数
- norm prop除了weight 的二阶范数
- weight stand 对weight 做了归一化处理,之后再加上BN或者GN