Detection Transformer(DETR)训练更快收敛的绝佳方案!即插即用的SMCA模块 | ICCV 2021...

点击下方“AI算法与图像处理”,一起进步!

重磅干货,第一时间送达

Vision Transformer 相关的工作依然火爆,不完全统计已有20来篇来,今天介绍一篇来自商汤科技的最新工作:

github链接和论文:

https://arxiv.org/pdf/2108.02404.pdf

https://github.com/fredzzhang/spatially-conditioned-graphs

更多 ICCV 2021 的论文和代码,以及相关的报告和解读都进行整理(欢迎star)

https://github.com/DWCTOD/ICCV2021-Papers-with-Code-Demo

摘要

最近提出的Detection Transformer(DETR)模型成功地将 transformer 应用于目标检测,并实现了与两阶段对象检测框架(如 Faster-RCNN)相当的性能。然而,DETR收敛缓慢。从头开始的训练数据[4]需要500个epoch才能达到高精度。为了加快其收敛速度,我们提出了一种简单而有效的改进DETR框架的方案,即 Spatially Modulated Co-Attention(SMCA)机制。SMCA的核心思想是在DETR中通过将co-attention 反馈限制在初始估计的边界框位置附近,从而进行位置感知。我们提出的SMCA在保持DETR中其他操作不变的情况下,通过替换解码器中原有的co-attention机制,提高了DETR的收敛速度。此外,通过将multi-head和scale-selection attention设计集成到SMCA中,我们的完整分级SMCA可以实现比基于扩展卷积主干的DETR更好的性能(108个epoch时45.6 mAP,500个epoch时43.3 mAP)。

速度对比:

动机和核心思想

最近提出的DETR 通过移除手工设计的anchor和非最大值抑制(NMS),大大简化了目标检测pipeline。然而,与two-stage或one-stage检测器相比,DETR的收敛速度较慢(500vs 40 epoch)。DETR的缓慢收敛使得研究人员难以进一步扩展该算法,从而阻碍了其广泛应用。

在DETR中,有一系列对象查询向量负责检测不同空间位置的对象。每个对象查询与卷积神经网络(CNN)编码的空间视觉特征交互,通过 co-attention 机制自适应地从空间位置收集信息,然后估计边界框位置和对象类别。然而,在DETR的解码器中,每个对象查询的共同关注视觉区域可能与查询要预测的边界框无关。因此,DETR的解码器需要较长的训练周期来搜索适当的共同参与区域,以准确地识别相应的对象。

基于这一观察结果,我们提出了一个新的模块,名为 Spatially Modulated Co-attention(SMCA),它是一个即插即用模块,用于取代DETR中现有的co-attention机制,并通过简单的修改实现更快的收敛和更高的性能。提出的SMCA动态预测每个对象查询对应的框的初始中心和比例,生成二维空间高斯权重图。权重映射与对象查询和图像特征的co-attention特征映射地对应相乘,以更有效地从视觉特征映射中聚合查询相关信息。通过这种方式,空间权重图有效地调节每个对象查询的共同关注的搜索范围,使其适当地围绕最初估计的对象中心和比例。利用高斯分布的训练可以显著提高SMCR的空间预测速度。

主要贡献

1)提出 Spatially Modulated Co-attention(SMCA),可以加速DETR 的收敛。

没有多尺度特征和多头注意力的SMCA基础版本已经可以在50个epoch实现41.0 mAP,在108个epoch实现42.7 mAP。在 V100 GPU 上训练SMCA的基础版本50个epoch需要265 小时。

2)我们的完整SMCA进一步集成了多尺度特征和多头空间调制,可以进一步显著改进和超越DETR,只需更少的训练迭代。SMCA在50个epoch可实现43.7 mAP,在108个epoch可实现45.6 mAP,而DETR-DC5在500个epoch可实现43.3 mAP。在V100 GPU上需要600 小时来训练50个epoch的完整SMCA。

3)我们对COCO 2017数据集进行了广泛的消融研究,以验证的SMCA模块和网络设计的有效性。

实验结果:

努力分享优质的计算机视觉相关内容,欢迎关注:




个人微信(如果没有备注不拉群!)
请注明:地区+学校/企业+研究方向+昵称



下载1:何恺明顶会分享
在「AI算法与图像处理」公众号后台回复:何恺明,即可下载。总共有6份PDF,涉及 ResNet、Mask RCNN等经典工作的总结分析
下载2:终身受益的编程指南:Google编程风格指南
在「AI算法与图像处理」公众号后台回复:c++,即可下载。历经十年考验,最权威的编程规范!


下载3 CVPR2021


在「AI算法与图像处理」公众号后台回复:CVPR,即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文

点亮 ,告诉大家你也在看

  • 0
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值