Meta&伯克利基于池化自注意力机制提出通用多尺度视觉Transformer,在ImageNet分类准确率达88.8%!开源...

关注公众号,发现CV技术之美


本文分享 CVPR 2022 论文『MViTv2: Improved Multiscale Vision Transformers for Classification and Detection』,Meta&UC Berkeley基于池化自注意力机制提出通用多尺度视觉Transformer,在ImageNet分类准确率达88.8%!代码已开源!

详细信息如下:

13963dc0708b1773a71d7d806b7194ce.png


  • 论文链接:https://arxiv.org/abs/2112.01526

  • 项目链接:https://github.com/facebookresearch/mvit


      01      

摘要

在本文中,作者研究了多尺度视觉Transformer(MViTv2)作为图像和视频分类以及目标检测的统一架构 ,提出了一个改进的MViT版本,它包含了分解的相对位置嵌入和残差池化连接。

作者以五种尺寸实例化了该结构,并对其在ImageNet分类、COCO检测和Kinetics-400视频识别方面进行了评估,其性能优于以前的工作。作者进一步将MVITv2的池化注意力(pooling attention)机制与窗口注意机制进行了比较,发现池化注意力机制在精确度/计算方面优于窗口注意机制。

MViTv2在三个领域都具有一流的性能:ImageNet分类准确率为88.8%,COCO目标检测准确率为58.7,Kinetics-400视频分类准确率为86.1%。

      02      

Motivation

为不同的视觉识别任务设计结构历来都很困难,最广泛采用的结构是将简单性和有效性结合在一起的架构,例如VGGNet和ResNet。最近,视觉Transformer(ViT)表现出了良好的性能,可与卷积神经网络(CNN)相媲美,并且最近提出了一系列修改,以将其应用于不同的视觉任务。

虽然ViT在图像分类中很受欢迎,但它在高分辨率目标检测和时空视频理解任务中的应用仍然具有挑战性。视觉信号的密度对计算和记忆需求提出了严峻的挑战,因为这些信号在基于Transformer的模型的自注意块中以二次复杂度进行缩放。目前采用了不同的策略来处理这一负担:两种流行的策略是:(1)在窗口内计算局部注意力,用于目标检测;(2)池化注意力,在计算视频任务中的自注意之前,局部聚集特征。

后者推动了多尺度视觉Transformer(MViT),这种架构以一种简单的方式扩展了ViT:它没有在整个网络中拥有固定的分辨率,而是具有从高分辨率到低分辨率的多个阶段的特征层次。MViT是为视频任务而设计的,它具有最先进的性能。

在本文中,作者开发了两个简单的技术改进,以进一步提高其性能,并研究MViT作为一个单一模型家族的视觉识别横跨3个任务:图像分类、目标检测和视频分类,以了解它是否可以作为空间和时空识别任务的一般视觉主干。本文的实验研究产生了一个改进的架构(MViTv2),包括以下内容:

  1. 作者创建了强baseline,以改善沿两个轴的注意力:(a)使用分解的位置距离进行平移不变的位置嵌入,以在Transformer块中注入位置信息;(b) 一种残差池化连接,用于补偿在注意力计算中池化的影响。本文简单而有效的升级带来

  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值