本文链接：https://blog.csdn.net/jiaoyangwm/article/details/123532630

文章目录

论文链接：https://arxiv.org/pdf/2203.06717.pdf

代码链接：https://github.com/DingXiaoH/RepLKNet-pytorch

出处：CVPR2022

一、背景

CNN 虽然在计算机视觉上处于长期的统治地位，但由于 transformer 方法的提出，这一现象发生了改变。比如 ViT，已经在分类、特征学习、目标检测、语义分割、图像复原等方面都取得了超越 CNN 的效果。

有人认为 ViT 的效果离不开 MHSA （多头自注意）的结构，也有人替换了 MHSA 后仍然能取得好的效果，所以到底是什么造成了 CNN 和 ViT 的差距呢？

作者聚焦到了个这问题：长距离空间信息间联系的建立

在 ViT 中，MHSA 能够同时抽取长距离和短距离的依赖关系，也就是能够聚合大感受野的信息

在 CNN 中，基本没有使用很大的卷积核（除了第一层）

所以作者提出质疑：能否使用少量大卷积核来代替大量小卷积核？这样能弥补两者之间的差距吗？

DW 卷积概念补充：不同于常规卷积操作，Depth-wise Convolution 的一个卷积核负责一个通道，一个通道只被一个卷积核卷积。

二、方法

在这里插入图片描述

1、作者提出了 RepLKNet，一个纯 CNN 网络。类似于 swin transformer 的结构，但做了些修改：

使用大的 depth-wise 卷积代替了 MHSA
主要对比较大的模型作为基准测试，因为 vit 过去被认为在大数据和模型方面超过了CNN

2、本文中，作者系统的探索了大卷积核的效果：

在 CNN 中使用的 depth-wise 卷积，卷积核大小从 $\times 3$ → $31 \times 31$
这种简单增加卷积核大小的操作是很有效的，也能很好的和 ViT 的机理契合

作者由此给出了如下总结：

① 很大的卷积核在实际使用中也会很高效

大的卷积核一直被认为计算量很大，但 depth-wise 可以很好的克服这个问题。当本文作者将不同 stage 的卷积核大小从 [3, 3, 3, 3] 提高到 [31, 29, 27,13] 后，FLOPs 和参数量分别提升了 18.6% 和 10.4%。

② 残差连接是很重要的，尤其对于大卷积核的网络

以 mobilenetv2 为例，作者使用 13x13 的卷积核代替了 3x3 的卷积核，结果如表 2 所示。
在这里插入图片描述

③ 使用小卷积核重参数化有助于解决参数优化问题

论文将MobileNetV2中的 3x3 卷积核分别替换为 9x9 和 13x13，再采用结构重参数帮助更好地训练。具体的做法如图2所示，先将卷积核替换为更大的卷积核，再并行一个深度卷积层，经过BN处理后将其结果相加作为输出。训练完成后，合并并行的大小卷积层及其BN层，得到没有小卷积层的模型。
在这里插入图片描述

在这里插入图片描述

④ 大卷积能够提高下游任务的效果多于 ImageNet

表 3 中，mobilinetv2 的卷积核从 3x3 提高到 9x9 后，ImageNet 的准确率提高了 1.33%，Cityscapes 的 mIoU 提高了 3.99%。表 5 中，不同 stage 的卷积核大小从 [3, 3, 3, 3] 提高到 [31, 29, 27,13] 后，ImageNet 的准确率仅仅提高了 0.96%，ADE20K 的 mIoU 提高了 3.12%。

什么原因导致的呢？

作者认为：

大的卷积核能够有效提高有效感受野，能够获取更多的上下文信息，这些信息对下游的任务很重要。
大的卷积核能够学到更多的形状信息。我们已知，ImageNet 中的图像能够被正确的分类，是因为网络能够学习到相关的纹理信息和形状信息，但对于人类来说，辨别不同目标会更关注形状信息。所以，如果一个模型能够捕获更强的形状偏置信息，则对下游任务更加友好。也有研究[86]证明，ViT 在形状偏置的提取上有更强的能力，CNN 更能提取纹理偏置，而提高卷积核大小能很好的提升 CNN 捕捉形状偏置的能力。

⑤ 大核（如 13x13）在小特征图（如 7x7）上仍然适用

为了验证这个结论，作者在 mobilenetv2 的最后一层将深度可分离卷积大小提升到了 7x7 或 13x13，表 4 展示了相关结果。

在这里插入图片描述
当卷积核大小越来越大，CNN 的平移不变性会变得不严格，如图 3 所示，两个相邻位置的输出仅仅会共享部分卷积核权重（因为卷积核很大），也就是不同的映射转换，这个其实也符合 ViT 的特征——在网络获得更大的容量之前放松对称先验。

此外，作者还发现， 2D 相对位置坐标可以看成大小为 $\times (2W-1)$ 的 depth-wise 卷积，H 和 W 分别的特征图的高和宽。所以，大的卷积核不但能够帮助学习相对位置，而且可以编码位置信息。
在这里插入图片描述

三、RepKLNet：a Large-Kernel Architecture

由于 CNN 在小体量模型上还是优于 transformer 的，所以本文主要聚焦于大模型（复杂度和 ResNet-152 或 Swin-B 相似），来验证大尺度卷积核能否弥补 CNN 和 ViT 的差距。

3.1 结构

如图 4 所示：

在这里插入图片描述

1、Stem

因为作者为了提高下游密集预测的任务，所以需要捕捉更多的细节信息。

3x3 conv (2↓下采样) → 3x3 DW（捕捉 low-level 信息） → 1x1 conv → 3x3 DW（下采样）

2、Stages

每个 stage 都包含了多个 RepLK Blocks，这些 Blocks 使用了 shortcuts 和 DW 大尺度核。

在每个 DW 前后都使用 1x1 conv 是本文的常规操作，且每个 DW 大卷积都使用 5x5 的核来进行重参数化。

虽然大尺度的卷积核能够实现更好的感受野感知并聚合更多的空间特征，但模型的容量其实和模型的深度也有很大的相关性。所以，为了引入更多的非线性，和实现通道间的信息交互，作者使用 1x1 conv 来实现网络加深。

此外，FFN 在 transformer 中应用广泛，所以，作者实现了一个 CNN-style 的类似于 FFN 的模块，叫做 ConvFFNBlock。该模型组成方式：BN、2 个 1x1 conv、GELU、残差连接。

3、Transition Blocks

没两个 stage 之间，都放置了 Transition Blocks。先通过 1x1 conv 来进行通道增加，然后使用 3x3 DW 实现 2↓ 下采样。

所以，每个 stage 有三个结构超参数：

B: RepLK Blocks 个数
C：channel dimension
K：kernel size

所以，RepLKNet 的结构参数如下：

$[B 1, B 2, B 3, B 4], [C 1, C 2, C 3, C 4], [K 1, K 2, K 3, K 4]$

3.2 尽可能的让卷积核变大

为了探索不同大小的卷积核带来的不同效果，作者给定两组参数：
B=[2, 2, 18, 2], C=[128, 256, 512, 1024]，然后改变卷积核大小 K 来实现效果的探索。

作者做了三组大卷积核实验，K 分别为：

[13, 13, 13, 13]
[25, 25, 25, 13]
[31, 29, 27, 13]

还有两组小卷积核实现，K 分别为：

[3, 3, 3, 3]
[7, 7, 7, 7]

表 5 展示了不同大小卷积核取得的结果，在 ImageNet 上，将卷积核从 3 提升到 13 时，能有效的提升准确率，但再提升了时候就没有提升了。

在 ADE20K 上，从 [13, 13, 13, 13] 提升到 [31, 29, 27, 13] 后，mIoU 提升了 0.82，参数增高了 5.3%， FLOPs 增高了3.5%。
在这里插入图片描述

3.3 图像分类

在这里插入图片描述

3.4 语义分割

在这里插入图片描述

3.5 目标检测

在这里插入图片描述

四、分析

1、大尺度卷积核 CNN 比小尺度卷积核的更深的 CNN 有效感受野更大

我们已知卷积什么网络可以通过多层的累积来实现大感受野感知。那为什么有数十上百层卷积的小卷积核网络效果仍然次于大卷积核网络呢。

① 已知，有效感受野 ERF 是和 $\sqrt(L)$ 成正比的，K 是卷积核大小，L 是深度。也就是说，ERF 和卷积核大小呈线性关系，和深度呈开方关系。
② 深度的增加，会使得反向传播优化越来越困难，虽然 ResNet 基本解决了这个问题，能够训练上百层的网络。但[89]提出，ResNet 的行为类似于浅层网络的集合，也就是说，即使深度显著增加，ResNet 带来的 ERF 提升也非常有限，[52] 中也有相似的证论。也就是说，大的均价和只需要很少的层就可以实现大的 ERF，同时能够避免深度增大带来的优化问题。