2021-02-08 BN

最新推荐文章于 2024-07-25 23:06:58 发布

09ganpginj

最新推荐文章于 2024-07-25 23:06:58 发布

阅读量131

点赞数

分类专栏： dl 文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/m0_50143220/article/details/113764055

版权

dl 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Batch Normalization

0. 总结

有意思的是，原始论文宣称BN对Internal Covariance Shift有改善作用，之后的论文却提出了反驳。但是，BN的作用确实存在。

参考Youtube介绍，BN的好处：

收敛更快（让代价曲线从椭圆变成园，有利于梯度下降）
对初值要求更低
（一点点）带有regularization作用

有如下有用的参考资料：

[1] 2015 paper that introduced Batch Normalization: https://arxiv.org/abs/1502.03167
[2] The paper that claims Batch Norm does NOT reduce internal covariate shift as claimed in [1]: https://arxiv.org/abs/1805.11604
[3] Using BN + Dropout: https://arxiv.org/abs/1905.05928
[4] Andrew Ng on why normalization speeds up training: https://www.coursera.org/lecture/deep…
[5] Ian Goodfellow on how Batch Normalization helps regularization: https://www.quora.com/Is-there-a-theory-for-why-batch-normalization-has-a-regularizing-effect
[6] Code Batch Normalization from scratch: https://kratzert.github.io/2016/02/12/understanding-the-gradient-flow-through-the-batch-normalization-layer.html

下面的BN算法中，对每个activation进行element-wise的均值、方差计算，计算一个mini-batch里的均值方差，并进行element-wise的归一化。

归一化后，需要恢复原始分布，引入 $\gamma, \beta$ 两个被学习的变量，目标是将这两个变量学习收敛到数据集的真实均值、方差。这样就能真正恢复原始分布。

同时， $\beta$ 还可以替代 $W u + b$ 中的bias $b$ 。
在这里插入图片描述

对于卷积层，还需要normalization符合卷积特征：同一个feature map上不同位置的不同元素，都用相同的归一化方式。因此卷积层输出feature map的归一化，不是element-wise，而是针对mini-batch和一个feature map的所有元素一起进行。学到的 $\gamma, \beta$ 也是针对一个feature map的。

在这篇文章里，加入BN后，可以有其他加速或对之前方法的改进点：

提升learning rate。BN可以减缓梯度消失或爆炸问题
去掉Dropout。BN也有一部分regularization
训练集的重排更彻底
减弱L2权重regularization。
增大learning rate decay。因为BN可以加速收敛
去掉LRN (AlexNet)。因为加了BN后没啥必要。
减弱photometric distortion。因为收敛更快，一张图被训练的次数少，因此只需要更关注原始真实图像。

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
2021-02-08 BN

Batch Normalization0. 总结有意思的是，原始论文宣称BN对Internal Covariance Shift有改善作用，之后的论文却提出了反驳。但是，BN的作用确实存在。参考Youtube介绍，BN的好处：收敛更快（让代价曲线从椭圆变成园，有利于梯度下降）对初值要求更低（一点点）带有regularization作用有如下有用的参考资料：[1] 2015 paper that introduced Batch Normalization: https://arxiv.
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。