A ConvNet for the 2020s 学习笔记

说明:系新手,写文章帮助学习


前言

说明:只为学习记录,有误望见谅指正,侵删
这篇文章是师兄推荐的,还没有读过swin-transformer,后面读了swin transformer后,再来读

文章测试了纯convNet所能够达到的性能极限。在transformer霸榜的天下,convNet还是有一席之地。


一、摘要

测试了纯convNet所能到达的极限,发现了几个关键组件,提出了一系列convNet模型,称为ConvNeXt,在某些数据集上优于Swin Tansformer,并保持了标准ConvNet的简单性和效率。

二、介绍

这一部分简单讲述了从开始使用卷积以后,滑动窗口卷积机制就在计算机视觉中占据了主导地位,被认为是在视觉任务中默认的计算方式。

(ConvNets在计算机视觉中的完全主导地位并非巧合:在许多应用场景中,“滑动窗口”策略是视觉处理的固有特性,尤其是在处理高分辨率图像时。ConvNet有几个内置的感应偏差,使其非常适合各种计算机视觉应用。)

于此同时,自然语言处理走了一条不同寻常的路,transformer替代了rnn,成为NLP领域的backbone。但是VIT的引入使得这两条河流在2020年汇入一起。

但是,ViT的一个主要关注点是缩放行为(scaling behavior ):借助更大的模型和数据集大小,Transformers可以大大超过标准Resnet。这确实很令人鼓舞,前面提到的滑动窗口在计算机视觉的使用,完全形同于范式一般的存在,如果没有卷积网络的归纳偏置(inductive biases),VIT很难用于其他任务,比如有高分辨率输入的任务。

于是乎,滑动窗口策略又被引入到transformer中,Swin-Transformer就是一项里程碑式的工作。首次证明了Transformers可以被用作通用视觉主干,并在图像分类之外的一系列计算机视觉任务中实现最先进的性能。Swin Transformer的成功和迅速采用也揭示了一件事:卷积的本质并没有变得无关紧要;相反,它仍然是人们渴望的,从未褪色。

因此,现在很多transformer的进步都是将卷积重新恢复使用。但是,从另一个角度来讲,卷积网络已经满足了许多所需属性,也就是说conv网络是能够做到媲美transformer 的效果的。ConvNets似乎失去动力的唯一原因是(分层)transformer在许多视觉任务中超过了它们,而性能差异通常归因于transformer优越的缩放行为(scaling behavior ,不太确定正确的翻译),多头自我注意是关键因素。

因此这篇文章。主要调查了ConvNet和Transformer之间的架构差异,并试图在比较网络性能时确定混淆变量。研究旨在弥合ConvNet在ViT前和ViT后的差距,并测试纯ConvNet所能达到的极限。

从一个标准ResNet(例如ResNet50)开始,逐步将架构“现代化”,以构建一个层次化的vision transformer(如SWN-T)。探索以一个关键问题为指导:变压器的设计决策如何影响ConvNet的性能?在此过程中,作者发现了几个关键组件,它们对性能差异起到了作用。因此,提出了一个名为ConvNeXt的纯ConvNet家族。令人惊讶的是,完全由标准ConvNet模块构建的ConvNeXts在所有主要基准测试中,在准确性、可扩展性和健壮性方面都与Transformers竞争。ConvNeXt保持了标准ConvNets的效率,而训练和测试的完全卷积特性使其实现起来极其简单。

作者希望这篇文章能鼓励人们重新思考卷积在计算机视觉中的重要性。


三、结论

在简要了解了摘要和介绍后,首先回顾了transformer相关的知识。

回顾历程:注意力机制–注意力分数–seq2seq–使用注意力机制的seq2seq–自注意力–transformer–(bert–gpt)–vit–swin transformer(后面考虑其他论文 MAE 、MOCO等)主要是看论文、视频(李宏毅、沐神、关注的一个B站博主 霹雳吧啦Wz)

四、架构和内容

文章简单来讲就是仿照swin transformer 的架构,来调整卷积神经网络的训练策略(以resnet 50为例),使卷积神经网络性能有很大提高,并且效率也更高了。

文章这张图就很好地展示了convNeXt的调整过程。

具体的调整策略和最终网络可以参考原文。

参考博文:ConvNeXt网络详解


四、总结

文章即参考swin transformer 的网络结构,对卷积神经网络进行优化,调整训练策略。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值