BN算法优势

最新推荐文章于 2023-10-06 13:10:38 发布

一个新新的小白

最新推荐文章于 2023-10-06 13:10:38 发布

阅读量2.4k

点赞数

分类专栏：算法 caffe相关

本文链接：https://blog.csdn.net/qq_31511955/article/details/80505919

版权

算法同时被 2 个专栏收录

80 篇文章 2 订阅

订阅专栏

caffe相关

29 篇文章 0 订阅

订阅专栏

论文中将Batch Normalization的作用说得突破天际，好似一下解决了所有问题，下面就来一一列举一下：
　　(1) 可以使用更高的学习率。如果每层的scale不一致，实际上每层需要的学习率是不一样的，同一层不同维度的scale往往也需要不同大小的学习率，通常需要使用最小的那个学习率才能保证损失函数有效下降，Batch Normalization将每层、每维的scale保持一致，那么我们就可以直接使用较高的学习率进行优化。
　　(2) 移除或使用较低的dropout。 dropout是常用的防止overfitting的方法，而导致overfit的位置往往在数据边界处，如果初始化权重就已经落在数据内部，overfit现象就可以得到一定的缓解。论文中最后的模型分别使用10%、5%和0%的dropout训练模型，与之前的40%-50%相比，可以大大提高训练速度。
　　(3) 降低L2权重衰减系数。还是一样的问题，边界处的局部最优往往有几维的权重（斜率）较大，使用L2衰减可以缓解这一问题，现在用了Batch Normalization，就可以把这个值降低了，论文中降低为原来的5倍。
　　(4) 取消Local Response Normalization层。由于使用了一种Normalization，再使用LRN就显得没那么必要了。而且LRN实际上也没那么work。
　　(5) 减少图像扭曲的使用。由于现在训练epoch数降低，所以要对输入数据少做一些扭曲，让神经网络多看看真实的数据。
（6）最重要的就是减少梯度弥散和梯度消失
应放在哪个位置
按照理论，应当在每一层的激活函数之后，例如ReLU=max(Wx+b,0)之后，对数据进行归一化。
然而，这样做在训练初期，分界面还在剧烈变化时，计算出的参数不稳定，所以退而求其次，在Wx+b之后进行归一化。因为初始的W是从标准高斯分布中采样得到的，而W中元素的数量远大于x，Wx+b每维的均值本身就接近0、方差接近1，
所以在Wx+b后使用Batch Normalization能得到更稳定的结果。