MegDet论文详解(coco2017检测冠军)

Face ++在COCO竞赛中大放异彩,在多个领域获得COCO 2017的冠军。其中,由彭超研究院带领的检测团队获得了检测项目的冠军。同时,对应论文也发表在CVPR 2018上,属于spotlight论文。


论文标题:MegDet: A Large Mini-Batch Object Detector》
论文地址:https://arxiv.org/pdf/1711.07240.pdf


摘要

MegDet将batch size增加到了256,这对于主流检测网络来说(faster r-cnn/retinaNet等)是一个巨型的batch size。
MegDet的backbone用的使resnet-50,在backbone上没有什么创新。这个目前检测领域最强的模型的创新点集中在mini-batch上。
用超大的mini-batch size,有以下直接好处:

  1. 可以并行训练,用128块GPU训练这256的batch,这样将训练时间大大缩短(33h -> 4h).
  2. batch normalization的效果更好,一个超大的batch-size意味着一个超强的BN。对于全局BN的获取,文章中提出了一个CGBN,即跨越GPU获得一个全局的BN。对于BN有疑问的可以转《batch normalization》.

其实看到这里,就已经完全掌握了论文中的创新点。可以继续往下看细节


大batch和小batch的效果差异

在这里插入图片描述
上图比较了batch size为256和16的情况,明显可以看到,超大的batch size会使网络收敛得更快,而且效果更佳。
文章中提到下列现象和原因:

  1. 小batch训练时间长到难以忍受;(比如resnet-152在COCO数据集上用8块泰坦XP还训练了3天)
  2. 小batch不足以提供准确得数据分布统计给BN层。
  3. 小batch的正负样本很难平衡,如果训练时正负样本不均匀也会损害训练效果。(有石锤说明的)

等价学习率原则

对于之前他人的经验,有一个“等价学习率原则”。即,如果你的batch size比较大,那你需要一个更大的学习率才能保证你的准确率。
事实上,在检测任务中,如果直接遵循这个原则,可能导致训练结果不收敛的后果。
于是,MegDet改进了这个原则,借鉴了“warmup”学习率策略。热身策略,即一开始用比较小的学习率,待“热身”起来,慢慢增大学习率。这样,既可以获得很高的准确率,又可以避免模型训练不收敛。


Cross-GPU Batch Normalization (CGBN)

前面说到,Meg对于一个batch(256)的计算分部在128块GPU上,如果想取得一个全局的BN,那必须跨越GPU来求得。
这个策略也是很简单的,看图:
在这里插入图片描述
只是在BN的基础上加了一个GPU间通信,求一个全局的平均数 μ \mu μ,一个全局的方差 σ 2 \sigma^2 σ2,再根据 μ \mu μ σ 2 \sigma^2 σ2进行标准化。最后,通过可学习参数 γ \gamma γ β \beta β对标准化结果进行一个线性变换。为什么要这么做?因为这就是BN的做法,不解可移步《batch normalization》。
当然,CGBN操作也不一定需要求得全局BN,我们也可以定义不同的BN size。作者对不同的BN size对效果的影响也做了一些实验:
在这里插入图片描述

  • 4
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

木盏

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值