CVPR22 ｜CMT：CNN和Transformer的高效结合（开源）

最新推荐文章于 2024-08-05 10:29:29 发布

Tom Hardy

最新推荐文章于 2024-08-05 10:29:29 发布

阅读量8.2k

点赞数 6

文章标签：算法卷积大数据计算机视觉机器学习

原文链接：https://mp.weixin.qq.com/s?__biz=MzI2Nzg4NjA5OQ==&mid=2247514343&idx=1&sn=0cb34ecf95f5ff7018cb35596ccb0af3&chksm=eafaf39bdd8d7a8d1c544e551e4cd248818677651de977a750aca8c0085dc0843439788976d0&scene=126&&sessionid=0

版权

作者丨王云鹤@知乎（已授权）

来源丨https://zhuanlan.zhihu.com/p/534567826

编辑丨极市平台

导读

到底CNN和Transformer哪个更好？当然是强强联手最好。华为诺亚实验室的研究员提出一种新型视觉网络架构CMT，通过简单的结合传统卷积和Transformer，获得的网络性能优于谷歌提出的EfficientNet，ViT和MSRA的Swin Transformer。

摘要

近年来，Transformer在视觉领域吸引了越来越多的关注，随之也自然的产生了一个疑问：到底CNN和Transformer哪个更好？当然是强强联手最好。华为诺亚实验室的研究员提出一种新型视觉网络架构CMT，通过简单的结合传统卷积和Transformer，获得的网络性能优于谷歌提出的EfficientNet，ViT和MSRA的Swin Transformer。论文以多层次的Transformer为基础，在网络的层与层之间插入传统卷积，旨在通过卷积+全局注意力的方式层次化提取图像局部和全局特征。简单有效的结合证明在目前的视觉领域，使用传统卷积是提升模型性能的最快方法。在ImageNet图像识别任务，CMT-Small在相似计算量情况下Top-1正确率达83.5%，远高于Swin的81.3%和EfficientNet的82.9%。

论文链接：https://arxiv.org/abs/2107.06263

PyTorch代码：https://github.com/huawei-noah/Efficient-AI-Backbones/tree/master/cmt_pytorch

MindSpore代码：https://gitee.com/mindspore/models/tree/master/research/cv/CMT

引言

Transformer的诞生推动自然语言处理网络的进步和发展，受此启发，transformer近年来开始在计算机视觉领域崭露头角。谷歌学者提出的Vision Transformer（ViT）模型是一个经典的用于视觉任务的纯transformer技术方案。它将输入图片切分为若干个图像块（patch），每个patch利用一个向量（vector/tensor）来表示，用transformer来处理图像patch序列，最终输出的特征可以直接用来进行图像识别、检测等。例如DETR使用基于transformer的图1 ResNet-50/ViT/CMT架构对比

编码-解码器来进行目标检测，IPT利用单个transformer模型同时处理多个底层视觉任务。与之前的传统CNN模型（如ResNet）相比，transformer依靠其全局的注意力机制能够捕获patch间的长距离依赖关系，在需要大感受野的检测、分割等视觉任务中表现出色。

但相比于NLP任务，视觉任务的输入因其特有的2D结构，输入表征变化更加复杂，patch间的局部空间信息也非常重要。因此现有的视觉transformer的缺点也十分明显，在将输入图像patch化的过程中，图像块内部结构信息将被破坏，而且长程的注意力机制很容易忽略图像的局部特有性质，导致现有的transformer的效果不如SOTA的传统卷积网络。

本文的目标就是将CNN的优点结合到Transformer中，以解决上述问题。我们提出了一个全新的架构CMT，基于层级结构（stage-wise）的transformer，引入卷积操作进行细粒度特征提取，同时也设计了独特的模块层次化提取局部和全局特征。既提高了性能，也节省了计算开销。在ImageNet基准测试和下游任务上的实验表明了该方法在精度和计算复杂度方面的优越性。例如，CMT-Small仅用4.0B FLOPs就达到了83.5%的ImageNet top-1正确率，这比计算量更大的Swin Transformer高出了2.2%。

方法

图像预处理

大多数以transformer为基础的模型会利用一个大卷积（如ViT中的16x16卷积核）直接将输入图像切成不重叠的patch，这种做法直接失去了patch中的2D空间特征以及很多细节和边缘等信息。因此CMT采用传统的Conv stem结构，利用多个3x3卷积堆叠而成的结构来达到下采样及提取细节特征的目的。为了提取到多尺度特征（契合目前主流的检测器），CMT的主体结构采用stage-wise的Transformer，每个stage前均使用2x2 stride2的卷积进行下采样和增加通道数。

CNN和Transformer结合的CMT模块

LPU（local perception unit）局部感知单元：

旋转和平移是CNN中常用的增广方法，然而在ViT中通常采用绝对位置编码，每个patch都对应一个唯一位置编码，因此无法给网络带来平移不变性。我们的局部感知单元采用3x3的深度分离卷积，将卷积的平移不变形引入Transformer模块，并利用残差连接稳定网络训练：

LMHSA（lightweight multi-head self-attention）轻量级多头注意力：

给定一个大小为Rn×d的输入，原始的多头注意力机制首先会生成相应的Query、Key和Value（和原始输入大小一致），再通过点Query和Key的点积，生成一个大小为Rn×n的权重矩阵：

这个过程往往会由于输入特征尺寸较大，而耗费大量的计算资源（显存），给网络的训练和部署带来难度。我们利用两个kxk的深度分离卷积分别对Key和Value的生成进行降采样处理，获得两个相对较小的特征K’和V’:

在Self-Attention模块中引入深度可分离卷积对特征图进行下采样，是一种节省计算量和显存的高效方法。

IRFFN（inverted residual feed-forward network）反向残差前馈网络：

该部分的前馈网络相比传统transformer的FFN，在两层全连接层之间加入了深度可分离卷积层，其中的设计类似MobileNetV2中的inverted residual block：

CMT整体架构

CMT网络主要由CMT（Conv） Stem，四个下采样层，四个Stage，池化层和全连接分类器组成，其中每个Stage由若干个CMT Block堆叠构成。具体结构如表1所示，其中Hi和ki 分别是轻量级多头注意力模块的头部数量和下采样率，Ri是反向残差前馈网络中间层通道的扩增倍数。

CMT系列网络族

类似EfficientNet的放缩模型的规则，我们针对CMT用亿点点grid search搜索了最佳的放缩系数，α=1.2, β=1.3, and γ=1.15，放缩公式如下：

我们以CMT-Small为基础，利用上述放缩公式得到了相应的CMT-Ti,，CMT-XS和CMT-B。这些模型对应的ImageNet输入大小分别为160x160，192x192，224x224（CMT-S）和256x256。

实验

ImageNet实验

我们在ImageNet 2012数据集上训练和验证CMT模型。从表2可以看出，不论是新兴的transformer模型，或者是传统的CNN模型，CMT都有显著的性能优势。在只需要4.0B的计算量下，CMT-S达到83.5%的top-1精度，比基线模型Swin-T高2.2%，这表明在tranformer模型中引入传统卷积有利于模型更好的提取和保留局部结构信息。

在ImageNet数据集和SOTA模型对比

迁移学习实验

CMT在下游任务的表现

为了证明CMT具有很强的泛化能力，我们将在ImageNet上训练的CMT-S、CMT-B模型迁移到其他数据集。更具体地说，在5个图像分类数据集上评估CMT模型，包括CIFAR-10、CIFAR-100、Stanford Cars、Oxford 102 Flowers和Oxford IIIT Pets。所有模型微调的图像分辨率为224x224。表3比较了CMT与EfficientNet、DeiT、TNT等网络的迁移学习结果。

目标检测和实例分割实验

表4和表5分别展示了CMT-S在不同框架（如RetinaNet和Mask R-CNN）不同检测任务上的结果。在相似的计算量约束下，CMT-S相比其他的网络在性能上有大幅度的提升。

CMT在COCO数据集目标检测任务的表现

CMT在COCO数据集实例分割任务的表现

总结

本论文提出了一种CNN和Transformer结合的的通用视觉模型：CMT。在现在这个CNN、Transformer、MLP多种视觉基础框架如雨后春笋般被提出的年代，每当一种新型架构/模块被提出，研究员们不得不在各自的任务/领域上一个个试验这些结构是否能带来效果上的提升。本文简洁有效的证明：在视觉领域中传统卷积和Transformer结合有着1+1>2的效果。我们以目前火热的Transformer为基础，在经典的ViT结构上引入由3x3卷积组成的Conv Stem，以及由Depth-wise 卷积和自注意力机制组合而成的CMT模块，在几乎不增加FLOPs的情况下，大幅度提升视觉网络的现有精度。在ImageNet和下游任务上的大量实验都证明了所提出的CMT架构的优越性。

本文仅做学术分享，如有侵权，请联系删文。

干货下载与学习

后台回复：巴塞罗那自治大学课件，即可下载国外大学沉淀数年3D Vison精品课件

后台回复：计算机视觉书籍，即可下载3D视觉领域经典书籍pdf

后台回复：3D视觉课程，即可学习3D视觉领域精品课程

计算机视觉工坊精品课程官网：3dcver.com

1.面向自动驾驶领域的多传感器数据融合技术

2.面向自动驾驶领域的3D点云目标检测全栈学习路线！(单模态+多模态/数据+代码)
3.彻底搞透视觉三维重建：原理剖析、代码讲解、及优化改进
 4.国内首个面向工业级实战的点云处理课程
 5.激光-视觉-IMU-GPS融合SLAM算法梳理和代码讲解
 6.彻底搞懂视觉-惯性SLAM：基于VINS-Fusion正式开课啦
 7.彻底搞懂基于LOAM框架的3D激光SLAM: 源码剖析到算法优化
 8.彻底剖析室内、室外激光SLAM关键算法原理、代码和实战(cartographer+LOAM +LIO-SAM)

9.从零搭建一套结构光3D重建系统[理论+源码+实践]

10.单目深度估计方法：算法梳理与代码实现

15.国内首个3D缺陷检测教程：理论、源码与实战

重磅！计算机视觉工坊-学习交流群已成立

扫码添加小助手微信，可申请加入3D视觉工坊-学术论文写作与投稿微信交流群，旨在交流顶会、顶刊、SCI、EI等写作与投稿事宜。

同时也可申请加入我们的细分方向交流群，目前主要有ORB-SLAM系列源码学习、3D视觉、CV&深度学习、SLAM、三维重建、点云后处理、自动驾驶、CV入门、三维测量、VR/AR、3D人脸识别、医疗影像、缺陷检测、行人重识别、目标跟踪、视觉产品落地、视觉竞赛、车牌识别、硬件选型、深度估计、学术交流、求职交流等微信群，请扫描下面微信号加群，备注：”研究方向+学校/公司+昵称“，例如：”3D视觉 + 上海交大 + 静静“。请按照格式备注，否则不予通过。添加成功后会根据研究方向邀请进去相关微信群。原创投稿也请联系。

▲长按加微信群或投稿

▲长按关注公众号

3D视觉从入门到精通知识星球：针对3D视觉领域的视频课程（三维重建系列、三维点云系列、结构光系列、手眼标定、相机标定、激光/视觉SLAM、自动驾驶等）、知识点汇总、入门进阶学习路线、最新paper分享、疑问解答五个方面进行深耕，更有各类大厂的算法工程人员进行技术指导。与此同时，星球将联合知名企业发布3D视觉相关算法开发岗位以及项目对接信息，打造成集技术与就业为一体的铁杆粉丝聚集区，近4000星球成员为创造更好的AI世界共同进步，知识星球入口：