A ConvNet for the 2020s 详解

前言

前面个讲过了MobileNet系列,从V1到V3做了很多改进,效果也是越来越好。但是这些改进很多都是基于block来进行改进的,而这一问题就可以让我们直接将这个block用于其他backbone上面,并有着优秀的性能。在今年年初读到的这篇文章,当时就觉得很不错,也是仔细刨析了一下现在卷积和transformer的较量,给了我们坚定卷积的决心。在这篇文章中也是涉及到了前面中block中的一些改变。不过这些改变不是为了轻量型而做出的,在这里也是总结一下。感兴趣的小伙伴也可以看一下我前面这篇文章:MobileNet系列(万文长字详细讲解,一篇足以)

Introduction

ConvNets在整个计算机视觉领域的支配性不是巧合:在很多的应用实例中,滑动窗口策略是视觉处理的内在本质,尤其是处理高分辨率图像。ConvNets有一些内在的归纳偏置,使得他们能够很好适应多种计算机视觉应用。其中最重要的一个就是平移不变性,对于一些任务比如对象检测来说,它是令人满意的一个属性。ConvNets还有其高效率的特性,源于使用滑动窗口的方式使得其计算可共享。几十年来,通常在有限的对象分类方面,这些都成了ConvNets的默认的应用,比如手写字体识别、人脸检测、行人检测等。进入2010s之后,基于区域范围的对象检测进一步将ConvNets提升到了在视觉识别系统中基础模块的位置

But对于transformer来说,ViT的一个主要焦点是放大行为:有大模型和大量数据集的加持,其性能超出标准ResNet一个显著的差额(就是高出ResNet一大截!)。这些结果在图像分类任务上是令人鼓舞的,但计算机视觉不是只有图像分类任务。如前所述,过去十年相当数量的计算机视觉任务的解决方案很大程度上依赖于一个滑动窗口——全卷积范式。没有卷积网络的归纳偏置,一个(普通的)ViT模型要被采用作为视觉主干网络将面临诸多挑战。最大的挑战就是ViT的全局注意力机制的设计,它的计算复杂度是对应输入大小的二次方,在在ImageNet分类上还可以被接受,但难以实施在高分辨率图像的输入上。

分级Transformer采用混合方法来弥补这个差距。例如,重新引入滑动窗口策略(局部注意力机制),使他们能够表现的和ConvNets一样。SwinTransformer在这个方向上是一件里程碑式的工作,首次演示了Transformer可以被采用作为通用主干网络,并且在除了图像分类任务之外的范围内其性能取得了领先水平。SwinTransformer的成功和快速被采纳揭示了一件事情,卷积的本质并不是变得不相关,而是保持着更被需要且从未褪色

在这个角度下,很多对计算机视觉的Transformers的改进都致力于回归卷积层面上。然而这些尝试需要付出一些代价:一个滑动窗口方式的自注意力机制的简单实现都是很昂贵的;有一些改进方法比如cyclic shifting(循环移位,说的就是SwinTransformer),虽然速度能被优化但是在设计上系统变得更复杂了。另一方面,具有讽刺意味的是,ConvNets本来已经满足这些期望的属性,尽管它是一种直白的、朴实的方法。ConvNets失势的唯一理由是(分层的)Transformer的性能超过了它们,并且性能的差异归功于Transformer的超强的缩放行

  • 3
    点赞
  • 20
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值