CNN+Transformer=Better，国科大&华为&鹏城实验室提出Conformer，84.1% Top-1准确率

最新推荐文章于 2024-05-11 17:00:54 发布

我爱计算机视觉

最新推荐文章于 2024-05-11 17:00:54 发布

阅读量1.1k

点赞数

文章标签：卷积计算机视觉机器学习人工智能深度学习

本文链接：https://blog.csdn.net/moxibingdao/article/details/119723368

版权

关注公众号，发现CV技术之美

写在前面

在卷积神经网络(CNN)中，卷积运算擅长提取局部特征，但在捕获全局特征表示方面还是有一定的局限性。在Vision Transformer中，级联自注意力模块可以捕获长距离的特征依赖，但会忽略局部特征的细节。

本文提出了一种混合网络结构，称为Conformer，以利用卷积操作和自注意力机制来增强特征表示的学习。Conformer依靠特征耦合单元(FCU)，以交互的方式在不同分辨率下融合局部特征表示和全局特征表示。此外，Conformer采用并行结构，以最大限度地保留局部特征和全局表示。

作者通过实验证明，在相似的参数和复杂度下，Conformer在ImageNet上比DeiT-B好2.3%。在MS-COCO数据集上，它在目标检测和实例分割任务上，分别比ResNet-101高出3.7%和3.6%的mAP。

论文和代码地址

论文：https://arxiv.org/abs/2105.03889
代码：https://github.com/pengzhiliang/Conformer

Motivation

在图像分类、目标检测和实例分割等计算机视觉任务中，CNN具有非常良好的性能。这在很大程度上归因于卷积操作，它以分层的方式收集局部特征以获得更好的图像表示。

尽管在局部特征提取方面具有优势，但CNN捕获全局表示的能力还是不足，这对很多high-level的计算机视觉任务又是非常重要的。一个最直观的解决方案是扩大感受野，但是这就会破坏池化层的操作。

最近Transformer结构被用到了视觉任务中，ViT方法通过将每个图像分割为具有位置嵌入的Patch来构建一系列token，然后用Transformer Block来提取参数化向量作为视觉表示。由于自注意力机制（Self-Attention）和多层感知机(MLP)结构，Vision Transformer能够反映了复杂的空间变换和长距离特征依赖性，从而获得全局特征表示。

然而，Vision Transformer会忽略了局部特征细节，这降低了背景和前景之间的可辨别性（如上图(c)和(g)所示）。因此，一些工作提出了一个tokenization模块或利用CNN特征图作为输入token来捕获特征的邻近信息。然而，这些方法依旧没有从根本上解决好局部建模和全局建模之间的关系。

在本文中，作者提出了一个双网络结构Conformer，能够将基于CNN的局部特征与基于Transformer的全局表示相结合，以增强表示学习。Conformer由一个CNN分支和一个Transformer分支组成，这两个分支由局部卷积块、自我注意模块和MLP单元的组合而成。在训练过程中，交叉熵损失函数被用于监督CNN和Transformer两个分支的训练，以获得同时具备CNN风格和Transformer风格的特征。

考虑到CNN与Vision Transformer特征之间的不对称性，作者设计了特性耦合单元(FCU)作为CNN与Vision Transformer 之间的桥接。一方面，为了融合两种风格的特征，FCU利用1×1卷积对齐通道尺寸，用下/上采样策略对齐特征分辨率，用LayerNorm和BatchNorm对齐特征值 。

另一方面，由于CNN和Vision Transformer分支倾向于捕获不同级别的特征（局部和全局），因此将FCU插入到每个block中，以 连续 交互的方式消除它们之间的语义差异 。这种融合过程可以极大地提高局部特征的全局感知能力和全局表示的局部细节。

从上图可以看出，Conformer每个分支的特征表示都比单独使用CNN或者单独使用Transformer结构的特征表示要更好。传统的CNN倾向于保留可区分的局部区域，而Conformer的CNN分支还可以激活完整的物体范围。Vision Transformer的特征很难区分物体和背景，Conformer的分支对局部细节信息的捕获更好。

方法

3.1. Overview

局部特征和全局特征在计算机视觉任务中得到了广泛的研究。局部特征是局部图像邻域的紧凑向量表示，一直是许多计算机视觉算法的组成部分。全局表示包括轮廓表示、形状描述符和长距离上的对象表示等等。

在深度学习中，CNN通过卷积操作分层收集局部特征，并保留局部线索作为特征。Vision Transformer被认为可以通过级联的Self-Attention模块以一种soft的方式在压缩的patch embedding之间聚合全局表示。

为了利用局部特征和全局表示，作者设计了一个并发网络的结构Conformer，如上图（c）所示。考虑两种特征的互补性，作者将来自Vision Transformer分支的全局特征送入CNN中，以增强CNN分支的全局感知能力。

类似的，将来自CNN分支的局部特征送入到Vision Transformer中，以增强Vision Transformer分支的局部感知能力。这样的过程构成了interaction的作用。

具体实现上，Conformer由一个stem模块、双分支、桥接双分支的FCU和每个分支上的分类器（FC)组成。Stem模块是一个步长为2的7×7卷积和步长为2的3×3 max pooling，用于提取初始局部特征，然后分别送入到两个分支中。CNN分支和Transformer分支分别由N个重复卷积和Transformer块组成（具体设置如上表所示）。

这种并发结构意味着CNN和Transformer分支分别可以最大限度地保留局部特征和全局表示。FCU被提出作为一个桥接模块，将CNN分支的局部特征与Transformer分支的全局表示融合，如上图（b）所示。沿着这些分支结构，FCU会以交互式的方式逐步融合feature map和patch embedding。

最后，对于CNN分支，所有的特征被合并之后输入给一个分类器。对于Transformer分支，取出[cls] token之后送入给另一个分类器进行分类。在训练过程中，作者使用两个交叉熵损失来分别监督这两个分类器。损失函数的重要性权重被设置为是相同的。在推理过程中，作者将这两个分类器的输出简单地相加作为预测结果。

3.2. Network Structure

3.2.1. CNN Branch

如上图（b）所示，CNN分支采用特征金字塔结构，其中特征图的分辨率随着网络深度的增加而降低，而通道数随着网络深度的增加而增加。作者将整个CNN分支分为4个阶段ÿ

最低0.47元/天解锁文章

我爱计算机视觉

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
CNN+Transformer=Better，国科大&华为&鹏城实验室提出Conformer，84.1% Top-1准确率

关注公众号，发现CV技术之美0写在前面在卷积神经网络(CNN)中，卷积运算擅长提取局部特征，但在捕获全局特征表示方面还是有一定的局限性。在Vision Transformer中，级联自注意...
复制链接

扫一扫