#今日论文推荐# 超越 ConvNeXt、RepLKNet | 看 51×51 卷积核如何破万卷

最新推荐文章于 2024-06-01 00:53:05 发布

wwwsxn

最新推荐文章于 2024-06-01 00:53:05 发布

阅读量273

点赞数

分类专栏：深度学习文章标签：大数据

原文链接：https://www.aminer.cn/research_report/62cd30a37cb68b460fe92909

版权

深度学习专栏收录该内容

716 篇文章 30 订阅

订阅专栏

#今日论文推荐# 超越 ConvNeXt、RepLKNet | 看 51×51 卷积核如何破万卷

自从Vision Transformers (ViT) 出现以来，Transformers迅速在计算机视觉领域大放异彩。卷积神经网络 (CNN) 的主导作用似乎受到越来越有效的基于Transformer的模型的挑战。最近，一些先进的卷积模型使用受局部大注意力机制驱动设计了大Kernel的卷积模块进行反击，并显示出吸引人的性能和效率。其中之一，即 RepLKNet，以改进的性能成功地将Kernel-size扩展到 31×31，但与 Swin Transformer 等高级 ViT 的扩展趋势相比，随着Kernel-size的持续增长，性能开始饱和。

在本文中，作者探索了训练大于 31×31 的极端卷积的可能性，并测试是否可以通过策略性地扩大卷积来消除性能差距。这项研究最终得到了一个从稀疏性的角度应用超大kernel的方法，它可以平滑地将kernel扩展到 61×61，并具有更好的性能。基于这个方法，作者提出了Sparse Large Kernel Network(SLaK)，这是一种配备 51×51 kernel-size的纯 CNN 架构，其性能可以与最先进的分层 Transformer 和现代 ConvNet 架构（如 ConvNeXt 和 RepLKNet，关于 ImageNet 分类以及典型的下游任务。

1应用超过 31×31 的超大卷积核

作者首先研究了大于 31×31 的极端Kernel-size的性能，并总结了3个主要观察结果。这里作者以 ImageNet-1K 上最近开发的 CNN 架构 ConvNeXt 作为进行这项研究的 benchmark。

作者关注最近使用 Mixup、Cutmix、RandAugment 和 Random Erasing 作为数据增强的作品。随机深度和标签平滑作为正则化应用，具有与 ConvNeXt 中相同的超参数。用 AdamW 训练模型。在本节中，所有模型都针对 120 个 epoch 的长度进行了训练，以仅观察大Kernel-size的缩放趋势。

论文题目：More ConvNets in the 2020s : Scaling up Kernels Beyond 51 × 51 using Sparsity
详细解读：https://www.aminer.cn/research_report/62cd30a37cb68b460fe92909https://www.aminer.cn/research_report/62cd30a37cb68b460fe92909
AMiner链接：https://www.aminer.cn/?f=cs