A ConvNet for the 2020s 学习笔记

最新推荐文章于 2025-02-06 16:57:22 发布

leener-Y

最新推荐文章于 2025-02-06 16:57:22 发布

阅读量2.9k

点赞数 23

CC 4.0 BY-SA版权

分类专栏：深度学习文章标签：人工智能深度学习

本文链接：https://blog.csdn.net/kleen_y/article/details/123979385

深度学习专栏收录该内容

9 篇文章

订阅专栏

说明：系新手，写文章帮助学习

前言
一、摘要
二、介绍
三、结论
- 四、架构和内容
四、总结

前言

说明：只为学习记录，有误望见谅指正，侵删
这篇文章是师兄推荐的，还没有读过swin-transformer，后面读了swin transformer后，再来读

文章测试了纯convNet所能够达到的性能极限。在transformer霸榜的天下，convNet还是有一席之地。

一、摘要

测试了纯convNet所能到达的极限，发现了几个关键组件，提出了一系列convNet模型，称为ConvNeXt，在某些数据集上优于Swin Tansformer，并保持了标准ConvNet的简单性和效率。

二、介绍

这一部分简单讲述了从开始使用卷积以后，滑动窗口卷积机制就在计算机视觉中占据了主导地位，被认为是在视觉任务中默认的计算方式。

（ConvNets在计算机视觉中的完全主导地位并非巧合：在许多应用场景中，“滑动窗口”策略是视觉处理的固有特性，尤其是在处理高分辨率图像时。ConvNet有几个内置的感应偏差，使其非常适合各种计算机视觉应用。）

于此同时，自然语言处理走了一条不同寻常的路，transformer替代了rnn，成为NLP领域的backbone。但是VIT的引入使得这两条河流在2020年汇入一起。

但是，ViT的一个主要关注点是缩放行为（scaling behavior ）：借助更大的模型和数据集大小，Transformers可以大大超过标准Resnet。这确实很令人鼓舞，前面提到的滑动窗口在计算机视觉的使用，完全形同于范式一般的存在，如果没有卷积网络的归纳偏置（inductive biases），VIT很难用于其他任务，比如有高分辨率输入的任务。

于是乎，滑动窗口策略又被引入到transformer中，Swin-Transformer就是一项里程碑式的工作。首次证明了Transformers可以被用作通用视觉主干，并在图像分类之外的一系列计算机视觉任务中实现最先进的性能。Swin Transformer的成功和迅速采用也揭示了一件事：卷积的本质并没有变得无关紧要；相反，它仍然是人们渴望的，从未褪色。

因此，现在很多transformer的进步都是将卷积重新恢复使用。但是，从另一个角度来讲，卷积网络已经满足了许多所需属性，也就是说conv网络是能够做到媲美transformer 的效果的。ConvNets似乎失去动力的唯一原因是（分层）transformer在许多视觉任务中超过了它们，而性能差异通常归因于transformer优越的缩放行为（scaling behavior ，不太确定正确的翻译），多头自我注意是关键因素。

因此这篇文章。主要调查了ConvNet和Transformer之间的架构差异，并试图在比较网络性能时确定混淆变量。研究旨在弥合ConvNet在ViT前和ViT后的差距，并测试纯ConvNet所能达到的极限。

从一个标准ResNet（例如ResNet50）开始，逐步将架构“现代化”，以构建一个层次化的vision transformer（如SWN-T）。探索以一个关键问题为指导：变压器的设计决策如何影响ConvNet的性能？在此过程中，作者发现了几个关键组件，它们对性能差异起到了作用。因此，提出了一个名为ConvNeXt的纯ConvNet家族。令人惊讶的是，完全由标准ConvNet模块构建的ConvNeXts在所有主要基准测试中，在准确性、可扩展性和健壮性方面都与Transformers竞争。ConvNeXt保持了标准ConvNets的效率，而训练和测试的完全卷积特性使其实现起来极其简单。

作者希望这篇文章能鼓励人们重新思考卷积在计算机视觉中的重要性。