同步Batch Normalization(syncbn)作用

最新推荐文章于 2024-02-19 22:32:36 发布

Wanderer001

最新推荐文章于 2024-02-19 22:32:36 发布

阅读量2.2k

点赞数

分类专栏：机器学习理论文章标签：计算机视觉深度学习机器学习

本文链接：https://blog.csdn.net/weixin_36670529/article/details/104009181

版权

机器学习理论专栏收录该内容

95 篇文章 17 订阅

订阅专栏

参考同步Batch Normalization(syncbn)作用 - 云+社区 - 腾讯云

1、BN训练与测试过程

BN层有4个参数，gamma、beta、moving mean、moving variance。其中gamma、beta为学习参数，moving mean、moving variance为数据集统计均值与方差，不可学习。在训练过程中：

在这里插入图片描述
y为BN层输出，此时归一化的均值与方差为当前mini-batch的均值与方差。同时也记录moving mean、moving variance的值，每训练一个batch，moving mean、moving variance就更新一次。注意此参数更新过程不是学习过程，而是纯粹的计算train-set在当前BN数据分布过程，因此不能将算作是学习过程。decay为一个接近于1的值，比如0.9997。在测试过程中：

2、prototxt示例

layer {
   name: "conv3_3_3x3/bn"
   type: "SyncBN"
   bottom: "conv3_3_3x3"
   top: "conv3_3_3x3/bn"
   param {
     lr_mult: 1
     decay_mult: 0
   }
   param {
     lr_mult: 1
     decay_mult: 0
   }
   param {
     lr_mult: 0
     decay_mult: 0
   }
   param {
     lr_mult: 0
     decay_mult: 0
   }
   bn_param {
     slope_filler {
       type: "constant"
       value: 1
     }
     bias_filler {
       type: "constant"
       value: 0
     }
     frozen: false
     momentum: 0.9997
   }
 }

momentum为decay，slope_filler与bias_filler分别为gamma与beta的初始化参数。frozen为是否禁止更新参数标识，该示例为train.prototxt，因此为false，在测试过程中应改为true。

3、为什么要同步BN

目前网络的训练多为多卡训练，大型网络结构以及复杂任务会使得每张卡负责的batch-size小于等于1，若不进行同步BN，moving mean、moving variance参数会产生较大影响，造成BN层失效。具体参考《MegDet:A Large Mini-Batch Object Detector》
4、融合BN操作

为简化inference过程，以及商业代码保密，通常进行BN融合操作。即把BN参数融合至conv层

Wanderer001

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
打赏
0
评论
同步Batch Normalization(syncbn)作用

1、BN训练与测试过程BN层有4个参数，gamma、beta、moving mean、moving variance。其中gamma、beta为学习参数，moving mean、moving variance为数据集统计均值与方差，不可学习。在训练过程中：在这里插入图片描述y为BN层输出，此时归一化的均值与方差为当前mini-batch的均值与方差。同时也记录moving mean、mo...
复制链接

扫一扫