10.16meeting

1:NormProp

问题1:

the analysis supporting the proposed algorithm can only be applied to the input layer of a network. The canonical error bound (Proposition 1) presumes that the input features are zero mean and have a scaled identity covariance matrix. It isn’t at all clear that the inputs to later layers, which will be vectors of random variables having a scaled and shifted rectified Gaussian distribution, will have the proper covariance for the analysis to hold:网络整体输入具有0均值,1方差,但是后面的输入是否满足这样的条件。
在这里插入图片描述
如上述公式所述, 两个常数系数是半波N(0,1)的均值方差(且不论对错),如何保证 R e L U ( γ i ( W i ∗ x ) ∣ ∣ W i ∣ ∣ F + β i ) ReLU(\frac {\gamma_i(W_i*x)}{||W_i||_F}+\beta_i) ReLU(WiFγi(Wix)+βi)就是一个半波高斯?

问题2

论文里面提到的半波高斯均值方差好像有问题。
E ( W X ) = E(WX)= E(WX)=
在这里插入图片描述
E ( ( W X ) 2 ) = E((WX)^2)= E((WX)2)=
在这里插入图片描述
和论文结果相悖。

2:Online Norm

增大batchsize 可以降低gradients的误差

在这里插入图片描述
上图比较基准是把所有数据放入一个batch计算的导数。bias的衡量标准是余弦相似度。
而提高相似度的关键,就是提高对整体数据mean和var的估计。

layer sacling 可以降低误差的传播

在这里插入图片描述
假设 Z = B N ( X ) − ε Z = BN(X) - \varepsilon Z=BN(X)ε。当有layer scaling时,误差传播会比较小。

3: 结合论文综述

预感我们少除了一个东西
  • Online BN 加了layer scaling
  • weight norm 除了weight 的二阶范数
  • norm prop除了weight 的二阶范数
  • weight stand 对weight 做了归一化处理,之后再加上BN或者GN

4:实际数据分布观察

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值