Abstract
作者并没有试图设计一种最先进的视觉识别方法,而是研究了一种更有效的方法,利用卷积来编码空间特征。通过比较最近的卷积神经网络(ConvNets)
和
Vision transformer
的设计原理,作者提出利用卷积调制操作来简化自注意,证明了这样一个简单的方法可以更好地利用嵌套在卷积层中的大内核(
≥
7 × 7)。作者使用所提出的卷积调制
(
称为
Conv2Former)
构建了一个层次
ConvNets
家族。作者的网络简单易懂。实验表明,作者所提出的Conv2Former