摘要:
作者提出了一个提出了RepLKNet,一个纯CNN架构,其内核大小为31×31,而不是常用的3×3。此模型再一些经典的下游任务上获得了与Swin Transformer相当或更好的结果,并且延迟低。
作者还提到与小核cnn相比,大核cnn具有更大的有效接受野和更高的形状偏差而不是纹理偏差。RepLKNet的高性能主要是因为通过大内核构建的大感受野。
使用大核卷积的经验准则:
(1) 非常大的核心任然是高效的;
(2)残差连接(identity shortcut)方式对大核网络尤其重要。
(3)用小核重新参数化有助于弥补优化问题。
(4)在ImageNet中,大卷积对下游任务促进作用更大;
(5)大内核即使在小的特征映射上也是有用的。
RepLKNet的相关技术:
结构重新参数化是一种通过转换参数来等效转换模型结构的方法。
RepLKNet的网络结构:
RepLKNet是纯CNN模型,网络总体上遵循Swin Transformer的宏架构。使用大深度卷积取代了多头子注意力。
根据上图,Stem指的是开始层,Stem层的目的是再开始时通过几个Conv层捕获更多的细节。步长为2的2倍下采样的3x3卷积层;深度可分离(DW:每个通道都有一个独立的卷积核)的3x3卷积层;一个1x1Conv;另一个步长为2的2倍下采样DW3x3卷积;
每个阶段都包含几个RepLK Block: 在每个DW大核卷积前后使用一个1x1卷积(每个大核卷积都使用5x5卷积进行重新参数化)。使用1x1卷积层是为了增加模型的深度,从而提供更多的非线性和跨通道的信息通信。此模块后面连接一个ConvFFN;
Step之间放置了Transition Blocks:先通过1x1卷积增加通道尺寸;然后连接一个步长为2的2倍下采样DW3x3卷积;
总之,每个阶段具有三个架构超参数:RepLK块的数量B、通道尺寸C和内核大小K。因此RepLKNet架构由[B1; B2; B3; B4]、[C1; C2; C3; C4]、[K1; K2; K3; K4]定义。