论文阅读：A ConvNet for the 2020s

最新推荐文章于 2024-02-25 16:01:13 发布

小小强2021

最新推荐文章于 2024-02-25 16:01:13 发布

阅读量729

点赞数

分类专栏：医学眼底图像处理——long-tail 文章标签：论文阅读

本文链接：https://blog.csdn.net/m0_56224713/article/details/127713192

版权

医学眼底图像处理——long-tail 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

Abstract

SWIN Transformer重新引入了几个ConvNet priors，使得Transformer实际上可以作为通用的视觉主干，并在各种视觉任务上表现出卓越的性能。然而，这种混合方法的有效性仍然很大程度上归功于变压器的内在优势，而不是卷积的内在归纳偏差。在这项工作中，我们重新审视了设计空间，并测试了纯ConvNet所能达到的极限。我们逐渐将一个标准的Resnet“现代化”到vision Transformer的设计中，并发现了几个导致性能差异的关键部件。

Introduction

回顾卷积网络的历史

卷积的运算方式适合进行处理视觉任务

Transformer异军突起并进军视觉领域，但是单一的ViT处理图像任务中存在问题（复杂度高）

分层Transformer采用一种混合方法来弥补这一差距。例如，“滑动窗口”策略被重新引入Transformer，使它们的行为更类似于ConvNets。SWIN Transformer的成功和迅速采用也揭示了一件事：卷积的本质并不是变得无关紧要

这种观点下，许多用于计算机视觉的Transformer的进步都旨在带回卷积。然而，这些尝试是有代价的：滑动窗口自关注的幼稚实现可能是昂贵的[55]；使用先进的方法，如循环移位[45]，速度可以优化，但系统在设计上变得更加复杂。另一方面，几乎具有讽刺意味的是，一个ConvNet已经满足了许多想要的属性，尽管是以一种直接、不加修饰的方式。 ConvNets似乎失去动力的唯一原因是（分层）Transformer在许多视觉任务中超过了它们，性能差异通常归因于变压器优越的缩放行为，多头自注意是关键组成部分。

ConvNets和SWIN Transformer既有区别又有相似之处：它们都具有相似的感应偏差，但在训练过程和宏/微观层次的体系结构设计上存在显著差异。

我们首先使用经过改进的过程训练的标准Resnet（例如Resnet50)。 我们逐渐将架构“现代化”到构建一个层次化的视觉Transformer（例如SWIN-T）。我们的探索是由一个关键问题指导的：Transformer的设计决策如何影响ConvNets的性能？我们发现了几个导致性能差异的关键组件。因此，我们提出了一个纯ConvNets族，称为ConvNext。

Modernizing a ConvNet: a Roadmap

在本节中，我们提供了一个从ResNet到ConvNet的轨迹，它类似于Transformer。我们考虑了两种模型尺寸，一种是Resnet-50/SWIN-T模型，其Flop值约为4.5×109；另一种是Resnet-200/SWIN-B模型，其Flop值约为15.0×109。为了简单起见，我们将用RESNET-50/SWIN-T复杂度模型给出结果。对于高容量模型的结论是一致的，结果可以在附录C中找到。

在高层次上，我们的探索是为了研究和遵循SWIN-Transformer的不同层次的设计，同时保持网络作为标准ConvNet的简单性。我们探索的路线图如下。我们的起点是Resnet-50型号。我们首先用类似于训练视觉Transformer的训练技术来训练它，并获得了比最初的Resnet-50更好的结果。这将是我们的基线。然后，我们研究了一系列的设计决策，我们总结为：1）宏观设计，2)重新设计，3)反瓶颈，4)大内核大小，5)不同层次的微观设计。在图2中，我们展示了“网络现代化”的每一步所能实现的过程和结果。由于网络复杂度与最终性能密切相关，所以在探索的过程中，FLOP大致被控制，尽管在中间阶段，FLOP可能高于或低于参考模型。所有模型都在ImageNet-1K上进行训练和评估。

Training Techniques

首先不对ResNet网络结构本身进行改进，只对训练的策略进行一个改进：

1. 从90epochs到300epochs

2. 使用AdamW进行优化

3. 使用了Mixup，Cutmix，RandAugment，RandomErasing等数据增强策略

由结果得到，通过这些操作，就可以将性能从76.1%增加到了78.8%。

这意味着传统的Convnets和视觉变换器之间的性能差异的很大一部分可能是由于训练技术。

改进措施

框架

Related Work

略

Conclusions

在21世纪20年代，vision Transformer，尤其是像SWIN Transformer，开始取代ConvNets，成为通用视觉骨干的首选。人们普遍认为，vision Transformer比ConvNets更准确、更有效、更可扩展。我们提出了ConvNexts，这是一个纯ConvNet模型，可以在多种计算机视觉基准上与最先进的分层视觉变换器竞争，同时保留了标准ConvNets的简单性和效率。在某些方面，我们的观察令人惊讶，而我们的ConvNext模型本身并不完全是新的--在过去的十年里，许多设计选择都被单独检查过，但不是集体检查。我们希望这项研究报告的新结果将挑战几个广泛持有的观点，并促使人们重新思考卷积在计算机视觉中的重要性。