计算机视觉中的 CNN&Transformer&MLP Backbone网络模型设计前沿研究总结 (持续更新)

本文链接：https://blog.csdn.net/weixin_42716570/article/details/116941778

本文总结了计算机视觉领域的最新研究，探讨了CNN、Transformer和MLP在网络架构中的应用。研究显示，Conformer结合CNN和Transformer的优势，HaloNet通过扩展局部自注意力提高效率，而MLP-Mixer、RepMLP和ResMLP等模型尝试用全连接层替代Transformer，简化网络结构。此外，还研究了仅使用FF层的网络结构以及傅里叶变换在Transformer中的潜在作用。

摘要由CSDN通过智能技术生成

简介

随着Vision Transformer的发展，利用CNN与Transformer相结合、基于纯Transformer设计的网络架构层出不穷。与此同时，相当一部分研究聚焦于探讨Transformer的必要性，并由此出现了多层感知机(Multi layer perceptron, MLP)、傅里叶变换(Fourier transform)等替代Transformer组件构建网络模型的研究。

本文力图将现有前沿同Transformer相关或力图替代Transformer结构的相关研究汇总到一起，将其模型的架构分别简要列出，并统一汇总各个backbone模型对应的效果。

FC: Fully-Connected layer 全连接层，可用1*1卷积等价替代(Network in Network 论文)。
SA: Self-attention 自注意力模块
FT: Fourier transform 傅里叶变换
FF: Feed-Forward layer 前馈网络层
MHSA: Multi-Head Self-attention 多头自注意力模块

CNN&Transformer Network设计

Conformer：Local Features Coupling Global Representations for Visual Recognition

CNN中的卷积操作聚焦于提取图片的局部信息。Transformer能够通过构造patch embeddings提取到图片的全局表示。局部信息的小而精和全局表示的大而全会使得图像的特征提取过程出现提取能力不足和信息冗余的缺点。

为了更好地平衡两者信息各自包含的特点，作者提出了FCU(Feature Coupling Unit) 单元，作为CNN分支和Transformer分支的信息交互渠道，并在此基础上构建整个网络模型。为了解决两个分支的特征大小不匹配的问题，CNN采用 1×1 conv再上采样传递到Trans block中，Trans block采用下采样和1×1 conv传递到CNN。

其网络总结构图如下图所示： Conformer

Scaling Local Self-Attention for Parameter Efficient Visual Backbones

作者考虑了self-attention和CNN操作在广义的空间池化上的等价性，将其统一到了一起。作者阐明，该过程的本质是对图像中某一区域利用一个权重矩阵进行一个线性变换。因此，在HaloNet中，作者将原始图像划分后的patch的感知区域进行一定比例的扩大，引入一个Transformation matrix 对扩大后的区域进行线性变化。将每个patch进行上述操作之后，汇总成一个维度同输入图片的queies，keys和values的生成类似。
上述操作示意图如下所示：
在这里插入图片描述
HaloNet网络家族结构如下所示：
HaloNet