#今日论文推荐# 超越 ConvNeXt、RepLKNet | 看 51×51 卷积核如何破万卷
自从Vision Transformers
(ViT) 出现以来,Transformers
迅速在计算机视觉领域大放异彩。卷积神经网络 (CNN) 的主导作用似乎受到越来越有效的基于Transformer
的模型的挑战。最近,一些先进的卷积模型使用受局部大注意力机制驱动设计了大Kernel
的卷积模块进行反击,并显示出吸引人的性能和效率。其中之一,即 RepLKNet
,以改进的性能成功地将Kernel-size
扩展到 31×31
,但与 Swin Transformer
等高级 ViT
的扩展趋势相比,随着Kernel-size
的持续增长,性能开始饱和。
在本文中,作者探索了训练大于 31×31
的极端卷积的可能性,并测试是否可以通过策略性地扩大卷积来消除性能差距。这项研究最终得到了一个从稀疏性的角度应用超大kernel
的方法,它可以平滑地将kernel
扩展到 61×61
,并具有更好的性能。基于这个方法,作者提出了Sparse Large Kernel Network
(SLaK
),这是一种配备 51×51
kernel-size的纯 CNN 架构,其性能可以与最先进的分层 Transformer
和现代 ConvNet
架构(如 ConvNeXt
和 RepLKNet
,关于 ImageNet
分类以及典型的下游任务。
1应用超过 31×31 的超大卷积核
作者首先研究了大于 31×31 的极端Kernel-size
的性能,并总结了3个主要观察结果。这里作者以 ImageNet-1K
上最近开发的 CNN 架构 ConvNeXt
作为进行这项研究的 benchmark
。
作者关注最近使用 Mixup
、Cutmix
、RandAugment
和 Random Erasing
作为数据增强的作品。随机深度
和标签平滑作
为正则化应用,具有与 ConvNeXt
中相同的超参数。用 AdamW
训练模型。在本节中,所有模型都针对 120 个 epoch 的长度进行了训练,以仅观察大Kernel-size
的缩放趋势。
论文题目:More ConvNets in the 2020s : Scaling up Kernels Beyond 51 × 51 using Sparsity
详细解读:https://www.aminer.cn/research_report/62cd30a37cb68b460fe92909https://www.aminer.cn/research_report/62cd30a37cb68b460fe92909
AMiner链接:https://www.aminer.cn/?f=cs