2021-02-08 BN

Batch Normalization

0. 总结

有意思的是,原始论文宣称BN对Internal Covariance Shift有改善作用,之后的论文却提出了反驳。但是,BN的作用确实存在。

参考Youtube介绍,BN的好处:

  1. 收敛更快(让代价曲线从椭圆变成园,有利于梯度下降)
  2. 对初值要求更低
  3. (一点点)带有regularization作用

有如下有用的参考资料:

下面的BN算法中,对每个activation进行element-wise的均值、方差计算,计算一个mini-batch里的均值方差,并进行element-wise的归一化。

归一化后,需要恢复原始分布,引入 γ , β \gamma, \beta γ,β两个被学习的变量,目标是将这两个变量学习收敛到数据集的真实均值、方差。这样就能真正恢复原始分布。

同时, β \beta β还可以替代 W u + b Wu+b Wu+b中的bias b b b
在这里插入图片描述

对于卷积层,还需要normalization符合卷积特征:同一个feature map上不同位置的不同元素,都用相同的归一化方式。因此卷积层输出feature map的归一化,不是element-wise,而是针对mini-batch和一个feature map的所有元素一起进行。学到的 γ , β \gamma, \beta γ,β也是针对一个feature map的。

在这篇文章里,加入BN后,可以有其他加速或对之前方法的改进点:

  1. 提升learning rate。BN可以减缓梯度消失或爆炸问题
  2. 去掉Dropout。BN也有一部分regularization
  3. 训练集的重排更彻底
  4. 减弱L2权重regularization。
  5. 增大learning rate decay。因为BN可以加速收敛
  6. 去掉LRN (AlexNet)。因为加了BN后没啥必要。
  7. 减弱photometric distortion。因为收敛更快,一张图被训练的次数少,因此只需要更关注原始真实图像。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值