点击下方卡片,关注“CVer”公众号
AI/CV重磅干货,第一时间送达
作者:Amusi | 来源:CVer
前言
本打算继续盘点CVPR 2021上各个方向的工作,但注意到前些天出来了几篇不错的ViT相关的工作,而且惊讶的是,我看网上很少有平台进行宣传...所以本文干脆做个合集,一下子都分享完,希望对你的科研或者工作能有一点点启发。
有意思的是,这三篇霸榜图像分类、目标检测、语义分割的Backbone工作都跟Transformer有关:
Focal Transformer
CSWin Transformer
CBNetv2
新注意力!Focal Transformer:ViT中局部-全局交互的Focal自注意力
Focal Self-attention for Local-Global Interactions in Vision Transformers
作者单位:微软研究院, 微软云+AI
论文:https://arxiv.org/abs/2107.00641
一句话总结:在分类/检测/分割任务上表现SOTA!在ADE20K 语义分割上高达55.4 mIoU(据我了解,目前第一)!在COCO上高达58.9 AP!性能优于Swin、PVT等网络。
最近,Vision Transformer 及其变体在各种计算机视觉任务中显示出巨大的潜力。通过自注意力捕获短程和长程视觉依赖的能力可以说是成功的主要来源。但由于二次计算开销,它也带来了挑战,特别是对于高分辨率视觉任务(例如,目标检测)。
在本文中,我们提出了focal self-attention,这是一种结合细粒度局部和粗粒度全局交互的新机制。使用这种新机制,每个标记以细粒度关注最近的周围标记,但以粗粒度关注远离的标记,因此可以高效且有效地捕获短程和长程视觉依赖。
通过focal self-attention,我们提出了一种新的 Vision Transformer 模型变体,称为 Focal Transformer,它在一系列公共图像分类和目标检测基准上实现了优于最先进的 Vision Transformer 的性能。
特别是,我们的中等尺寸 51.1M 和较大尺寸 89.8M 的 Focal Transformer 模型在 224x224 分辨率的 ImageNet 分类上分别达到 83.5 和 83.8 Top-1 精度。
使用 Focal Transformers 作为主干,我们在使用标准 1x 和 3x 计划训练的 6 种不同目标检测方法的当前最先进的 Swin Transformers 上获得了一致和实质性的改进。
我们最大的 Focal Transformer 在 COCO mini-val/test-dev 上产生 58.7/58.9 box mAP 和 50.9/51.3 mask mAP,在用于语义分割的 ADE20K 上产生 55.4 mIoU,在三个最具挑战性的计算机视觉任务上创建新的 SoTA。
CSWin Transformer:具有十字形窗口的视觉Transformer主干
CSWin Transformer: A General Vision Transformer Backbone with Cross-Shaped Windows
作者单位:中科大, 微软亚洲研究院, 微软云+AI
代码:https://github.com/microsoft/CSWin-Transformer
论文:https://arxiv.org/abs/2107.00652
一句话总结:超强Backbone来了!在ImageNet上高达87.5%准确率,在ADE20K上高达55.2 mIoU!性能优于Swin、PVT等网络,代码即将开源!
我们提出 CSWin Transformer,这是一种高效且有效的基于 Transformer 的主干,用于通用视觉任务。
Transformer 设计中的一个具有挑战性的问题是全局自注意力的计算成本非常高,而局部自注意力通常会限制每个token的交互领域。为了解决这个问题,我们开发了 Cross-Shaped Window self-attention 机制,用于在形成十字形窗口的水平和垂直条纹中并行计算自注意力,每个条纹通过将输入特征分成相等的条纹获得宽度。
我们对条纹宽度的影响进行了详细的数学分析,并为 Transformer 网络的不同层改变了条纹宽度,从而在限制计算成本的同时实现了强大的建模能力。我们还介绍了局部增强位置编码 (LePE),它比现有编码方案更好地处理局部位置信息。LePE 自然支持任意输入分辨率,因此对下游任务特别有效和友好。
结合这些设计和分层结构,CSWin Transformer 在常见视觉任务上展现出极具竞争力的性能。
CSWin Transformer不同变体:
具体来说,它在没有任何额外训练数据或标签的情况下在 ImageNet-1K 上实现了 85.4% 的 Top-1 准确率。
在 COCO 检测任务上达到了 53.9 box AP 和 46.4 mask AP:
在 ADE20K 语义分割任务上达到了 51.7 mIOU,超过了之前的 state-of在类似的 FLOPs 设置下,最先进的 Swin Transformer 主干分别增加了 +1.2、+2.0、+1.4 和 +2.0。
通过在更大的数据集 ImageNet-21K 上进一步预训练,我们在 ImageNet-1K 上实现了 87.5% 的 Top-1 准确率,并在 ADE20K 上以 55.2 mIoU 实现了最先进的分割性能。
霸榜COCO!北大提出CBNetV2:用于目标检测的组合主干网络
CBNetV2: A Composite Backbone Network Architecture for Object Detection
作者单位:北京大学, 阿里巴巴, 石溪大学
代码:https://github.com/VDIGPKU/CBNetV2
论文:https://arxiv.org/abs/2107.00420
一句话总结:可灵活集成到现有检测器中,如Dual-Swin-B (HTC)组合,在单模型和单尺度测试情况下,霸榜COCO目标检测和实例分割!分别高达58.6% AP 和51.1% mask AP,代码即将开源!
现代性能最佳的目标检测器在很大程度上依赖于主干网络,其进步通过探索更有效的网络结构带来持续的性能提升。然而,设计或搜索新的主干并在 ImageNet 上对其进行预训练可能需要大量的计算资源,这使得获得更好的检测性能成本很高。
在本文中,我们通过构建现有开源预训练主干的组合,提出了一种新的主干网络,即 CBNetV2。
特别是,CBNetV2 架构将多个相同的主干分组,这些主干通过复合连接连接。我们还针对基于 CBNet 的检测器的辅助监督提出了更好的训练策略。
无需额外的预训练,CBNetV2 可以集成到主流检测器中,包括一阶段和二阶段检测器,以及基于anchor和anchor-free的检测器,并显著提高其性能 3.0% 以上 AP COCO 的基线。
此外,实验提供了强有力的证据,表明复合主干比预训练的更广泛和更深入的网络(包括基于手动和基于 NAS 的网络,以及基于 CNN 和基于 Transformer 的网络)更高效和资源友好。
特别是在单模型和单尺度测试中,我们的 HTC Dual-Swin-B 在 COCO test-dev 上实现了 58.6% 的 box AP 和 51.1% 的 mask AP,明显优于最先进的结果(即,57.7% 的 box AP 和 50.2% 的 mask AP)通过更强的基线 HTC++ 和更大的主干 Swin-L 实现。
上述3篇论文PDF下载
后台回复:最新Backbone,即可下载上述论文PDF
CVPR和Transformer资料下载
后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集
后台回复:Transformer综述,即可下载最新的两篇Transformer综述PDF
CVer-Transformer交流群成立
扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。
一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群
▲长按加小助手微信,进交流群▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看