【MegDet】《MegDet:A Large Mini-Batch Object Detector》

在这里插入图片描述

CVPR-2018



1 Background and Motivation

在这里插入图片描述

近些年目标检测效果的提升集中在 novel network, new framework, or loss design,少有关注 batch-size 层面,分类任务 batch-size 很大,检测任务很小

实录 | 旷视研究院解读COCO2017物体检测夺冠论文(PPT+视频) 在这里插入图片描述

小 batch-size 的缺点

实录 | 旷视研究院解读COCO2017物体检测夺冠论文(PPT+视频)
在这里插入图片描述

the small mini-batch size is not applicable to re-train the BN layers.( ImageNet 预训练,COCO fine-tune,fine-tune 的时候 BN 冻结了——usually fix the statistics of Batch Normalization and use the pre-computed values on ImageNet dataset)

为啥缺点中说正负样本失衡

在这里插入图片描述
在这里插入图片描述
比如 batch-size 较大的时候,图 (c)和图(d)在一个 batch 正负样本会比仅图(c)要更均衡一些

检测任务能不能也加大 batch-size,提速的同时保证精度不掉或者更好呢?

CVPR 2018 | 旷视科技物体检测冠军论文——大型Mini-Batch检测器MegDet在这里插入图片描述

2 Related Work

  • CNN-based detectors
    • one stage
    • two stage
  • Large mini-batch training

3 Advantages / Contributions

  • new interpretation of linear scaling rule(等梯度方差而非等梯度)
  • 提出 MegDet,其中 Cross-GPU Batch Normalization(CGBN) 技术大幅度提升目标检测任务的 batch-size,又快又好(33 hours to 4 hours)
  • COCO 2017 Challenge,1st place of Detection task.

4 Method

4.1 Learning Rate for Large Mini-Batch

(1) Variance Equivalence

Linear Scaling Rule,batch-size scale,learning rate 也相应的 scale,是基于 gradient equivalence assumption in the SGD updates

目标检测任务的 batch-size 比较小,分类任务的 batch-size 比较大,假设各 batch 间 gradient equivalence 在 batch 比较小的时候似乎有点不妥
在这里插入图片描述

作者假设各 batch 的 gradient variance 是 equivalence,重新进行了推导,得到了同 Linear Scaling Rule 一样的结论

在这里插入图片描述

MegDet 论文笔记
作者在等方差条件下推导了equivalent learning rate rule(batch s i z e ∗ k size*k sizek l r ∗ k lr*k lrk),而不是等梯度条件

(2)Warmup Strategy

实录 | 旷视研究院解读COCO2017物体检测夺冠论文(PPT+视频) 在这里插入图片描述

4.2 Cross-GPU Batch Normalization

当时 batch normalization 都是在单张卡上做的,作者实现了多卡算子

在这里插入图片描述

在这里插入图片描述

“AllReduce” operation to aggregate the statistics.

use NVIDIA Collective Communication Library (NCCL) to efficiently perform AllReduce operation for receiving and broadcasting.

s 1 s_1 s1 / s 2 s_2 s2 / … / s n s_n sn reduce μ B \mu_B μB

v 1 v_1 v1 / v 2 v_2 v2 / … / v n v_n vn reduce σ B 2 \sigma_B^2 σB2

5 Experiments

数据集 COCO

As for large mini-batch, we use the sublinear memory and distributed training to remedy the GPU memory constraints.

关于 sublinear memory,来自 《Training Deep Nets with Sublinear Memory Cost》(arXiv-2016)陈天奇

如何减少神经网络的内存?
在这里插入图片描述

对大规模 model training 感兴趣,请问有相关推荐的文章吗? - Connolly的回答 - 知乎
在这里插入图片描述

实录 | 旷视研究院解读COCO2017物体检测夺冠论文(PPT+视频)
在这里插入图片描述

计算换内存,占用空间较大的中间变量重复计算,来减少内存的策略

5.1 Large mini-batch size, no BN

在这里插入图片描述
没 BN 容易飞

5.2 Large mini-batch size, with CGBN

在这里插入图片描述
long 指的是更长的 train policy

在这里插入图片描述
用了大 batch 以后,前期效果不如小 batch,这点和分类任务有出入
在这里插入图片描述

感受下检测结果

在这里插入图片描述

其他的涨点策略

在这里插入图片描述
《论文研读系列》 A Large Mini-Batch Object Detector

在这里插入图片描述
CVPR 2018 举办地,Hawaii

6 Conclusion

摘抄一些论文解读的文章

CVPR 2018 | 旷视科技物体检测冠军论文——大型Mini-Batch检测器MegDet

在这里插入图片描述


学习率线性尺度原则(LSR)另外一种解释

在这里插入图片描述


12分钟训练COCO模型!速度精度双提高

在这里插入图片描述


Batch Normalization和它的“后浪”们
在这里插入图片描述

附录——R Talk | 旷视科技目标检测概述:Beyond RetinaNet and Mask R-CNN

R Talk | 旷视科技目标检测概述:Beyond RetinaNet and Mask R-CNN

在这里插入图片描述

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值