Detection Transformer（DETR）训练更快收敛的绝佳方案！即插即用的SMCA模块 | ICCV 2021...

最新推荐文章于 2024-05-29 10:38:20 发布

flyfor2013

最新推荐文章于 2024-05-29 10:38:20 发布

阅读量1.4k

点赞数

文章标签：算法人工智能计算机视觉机器学习深度学习

本文链接：https://blog.csdn.net/flyfor2013/article/details/119495877

版权

点击下方“AI算法与图像处理”，一起进步！

重磅干货，第一时间送达

Vision Transformer 相关的工作依然火爆，不完全统计已有20来篇来，今天介绍一篇来自商汤科技的最新工作：

github链接和论文：

https://arxiv.org/pdf/2108.02404.pdf

https://github.com/fredzzhang/spatially-conditioned-graphs

更多 ICCV 2021 的论文和代码，以及相关的报告和解读都进行整理（欢迎star）

https://github.com/DWCTOD/ICCV2021-Papers-with-Code-Demo

摘要

最近提出的Detection Transformer（DETR）模型成功地将 transformer 应用于目标检测，并实现了与两阶段对象检测框架（如 Faster-RCNN）相当的性能。然而，DETR收敛缓慢。从头开始的训练数据[4]需要500个epoch才能达到高精度。为了加快其收敛速度，我们提出了一种简单而有效的改进DETR框架的方案，即 Spatially Modulated Co-Attention（SMCA）机制。SMCA的核心思想是在DETR中通过将co-attention 反馈限制在初始估计的边界框位置附近，从而进行位置感知。我们提出的SMCA在保持DETR中其他操作不变的情况下，通过替换解码器中原有的co-attention机制，提高了DETR的收敛速度。此外，通过将multi-head和scale-selection attention设计集成到SMCA中，我们的完整分级SMCA可以实现比基于扩展卷积主干的DETR更好的性能（108个epoch时45.6 mAP，500个epoch时43.3 mAP）。

速度对比：

动机和核心思想

最近提出的DETR 通过移除手工设计的anchor和非最大值抑制（NMS），大大简化了目标检测pipeline。然而，与two-stage或one-stage检测器相比，DETR的收敛速度较慢（500vs 40 epoch）。DETR的缓慢收敛使得研究人员难以进一步扩展该算法，从而阻碍了其广泛应用。

在DETR中，有一系列对象查询向量负责检测不同空间位置的对象。每个对象查询与卷积神经网络（CNN）编码的空间视觉特征交互，通过 co-attention 机制自适应地从空间位置收集信息，然后估计边界框位置和对象类别。然而，在DETR的解码器中，每个对象查询的共同关注视觉区域可能与查询要预测的边界框无关。因此，DETR的解码器需要较长的训练周期来搜索适当的共同参与区域，以准确地识别相应的对象。

基于这一观察结果，我们提出了一个新的模块，名为 Spatially Modulated Co-attention（SMCA），它是一个即插即用模块，用于取代DETR中现有的co-attention机制，并通过简单的修改实现更快的收敛和更高的性能。提出的SMCA动态预测每个对象查询对应的框的初始中心和比例，生成二维空间高斯权重图。权重映射与对象查询和图像特征的co-attention特征映射地对应相乘，以更有效地从视觉特征映射中聚合查询相关信息。通过这种方式，空间权重图有效地调节每个对象查询的共同关注的搜索范围，使其适当地围绕最初估计的对象中心和比例。利用高斯分布的训练可以显著提高SMCR的空间预测速度。

主要贡献

1）提出 Spatially Modulated Co-attention（SMCA），可以加速DETR 的收敛。

没有多尺度特征和多头注意力的SMCA基础版本已经可以在50个epoch实现41.0 mAP，在108个epoch实现42.7 mAP。在 V100 GPU 上训练SMCA的基础版本50个epoch需要265 小时。

2）我们的完整SMCA进一步集成了多尺度特征和多头空间调制，可以进一步显著改进和超越DETR，只需更少的训练迭代。SMCA在50个epoch可实现43.7 mAP，在108个epoch可实现45.6 mAP，而DETR-DC5在500个epoch可实现43.3 mAP。在V100 GPU上需要600 小时来训练50个epoch的完整SMCA。

3）我们对COCO 2017数据集进行了广泛的消融研究，以验证的SMCA模块和网络设计的有效性。

实验结果：

努力分享优质的计算机视觉相关内容，欢迎关注：




个人微信（如果没有备注不拉群！）
请注明：地区+学校/企业+研究方向+昵称



下载1：何恺明顶会分享
在「AI算法与图像处理」公众号后台回复：何恺明，即可下载。总共有6份PDF，涉及 ResNet、Mask RCNN等经典工作的总结分析
下载2：终身受益的编程指南：Google编程风格指南
在「AI算法与图像处理」公众号后台回复：c++，即可下载。历经十年考验，最权威的编程规范！

下载3 CVPR2021


在「AI算法与图像处理」公众号后台回复：CVPR，即可下载1467篇CVPR 2020论文 和 CVPR 2021 最新论文

点亮，告诉大家你也在看

flyfor2013

关注

0
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
Detection Transformer（DETR）训练更快收敛的绝佳方案！即插即用的SMCA模块 | ICCV 2021...

点击下方“AI算法与图像处理”，一起进步！重磅干货，第一时间送达Vision Transformer 相关的工作依然火爆，不完全统计已有20来篇来，今天介绍一篇来自商汤科技的最新工作...
复制链接

扫一扫