清华提出:最新的计算机视觉注意力机制(Attention)综述!

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

博雯 发自 凹非寺
转载自:量子位(QbitAI)

清华计图胡事民团队的这篇注意力机制的综述火了!

在上周的arXiv上,这是最热的一篇论文:Attention Mechanisms in Computer Vision: A Survey

633472f01a739e9c8f7463bc04958e43.png

推特以及GitHub上也有不低的热度:

99f43601da9ad23b135f504e65385404.png

各类资源汇总链接:
https://github.com/MenghaoGuo/Awesome-Vision-Attentions

论文地址:
https://arXiv.org/abs/2111.07624

而这篇论文引用近200篇内容,对计算机视觉领域中的各种注意力机制进行了全面回顾。

在大量调查之后,论文将注意力机制分为多个类别,GitHub还给出了各类别下提到内容的PDF下载文件:

d029e60af6c338e94803977c348824a3.png

现在,就来一起看看这篇论文。

文章主要内容

论文首先将基于注意力的模型在计算机视觉领域中的发展历程大致归为了四个阶段:

  1. 将深度神经网络与注意力机制相结合,代表性方法为RAM

  2. 明确预测判别性输入特征,代表性方法为STN

  3. 隐性且自适应地预测潜在的关键特征,代表方法为SENet

  4. 自注意力机制

cc1b605ed8b4b3652aca733774e69e24.png

同时,注意力机制也被分为了通道注意、空间注意、时间注意、分支注意,以及两个混合类别:

e9b22f9108009ca7a6f81a11feac5fe4.png

针对不同类别,研究团队给出了其代表性方法和发展背景:

通道注意力(Channel Attention)

在深度神经网络中,不同特征图的不同通道常代表不同对象。

而通道注意力作为一个对象选择过程,可以自适应地重新校准每个通道的权重,从而决定关注什么。

因此,按照类别和出版日期将代表性通道关注机制进行分类,应用范围有分类(Cls)、语义分割(SSeg)、实例分割(ISeg)、风格转换(ST)、动作识别(Action)。

其中,(A)代表Channel-wise product,(I)强调重要通道,(II)捕捉全局信息。

3dcc502bd53a3d99f1725a5788a08d96.png

空间注意力(Spatial Attention)

空间注意力可以被看作是一种自适应的空间区域选择机制。

其应用范围比通道注意力多出了精细分类(FGCls)和图像字幕(ICap)。

c4cf88de34699f88e290df98f17d4af4.png

时间注意力(Temporal Attention)

时间注意力可以被看作是一种动态的时间选择机制,决定了何时进行注意,因此通常用于视频处理。

f4c9efde1877852172bf7ddffde85fea.png

分支注意力(Branch Attention)

分支注意可以被看作是一种动态的分支选择机制,通过多分支结构决定去注意什么。

16db289b1c9dcf55558877c5c19966f7.png

通道空间注意力(Channel & Spatial Attention)

通道和空间结合的注意力机制可以自适应地选择重要的对象和区域,由残差注意力(Residual Attention)网络开创了这一内容。

在残差注意力之后,为了有效利用全局信息,后来的工作又相继引入全局平均池化(Global Average Pooling),引入自注意力机制等内容。

07e1dedc236365c4254e35f039da7926.png

时空注意力(Spatial & Temporal Attention)

时空注意力机制可以自适应地选择重要区域和关键帧。

6e036a5a7a41770bce4d9cdea5bd42ef.png

最后,作者也提出了注意力机制在未来的一些研究方向:

  • 探索注意力机制的必要和充分条件

  • 是否可以有一个通用的注意块,可以根据具体的任务在各类注意力机制之间进行选择

  • 开发可定性和可解释的注意力模型

  • 注意力机制可以产生稀疏的激活,这促使我们去探索哪种架构可以更好地模拟人类的视觉系统

  • 进一步探索基于注意力的预训练模型

  • 为注意力模型研究新的优化方法

  • 找到简单、高效、有效的基于注意力的模型,使其可以广泛部署

关于作者

这篇论文来自清华大学计算机系胡事民团队。

胡事民为清华大学计算机系教授,教育部长江学者特聘教授,曾经和现任IEEE、Elsevier、Springer等多个期刊的主编、副主编和编委。

同时,他也是清华“计图”框架团队的负责人,这是首个由中国高校开源的深度学习框架。

e59def997a7f816de72c034ee959153a.png

文章一作为胡事民教授的博士生国孟昊,现就读于清华大学计算机系,也是清华计图团队的一员。

09115e40e0f89642e87a1b58ea1311e7.png

上面注意力机制综述PDF下载

后台回复:注意力机制综述,即可下载上述论文

后台回复:CVPR2021,即可下载CVPR 2021论文和代码开源的论文合集

后台回复:ICCV2021,即可下载ICCV 2021论文和代码开源的论文合集

后台回复:Transformer综述,即可下载最新的3篇Transformer综述PDF

重磅!Transformer交流群成立

扫码添加CVer助手,可申请加入CVer-Transformer 微信交流群,方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch和TensorFlow等群。

一定要备注:研究方向+地点+学校/公司+昵称(如Transformer+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

f5339c43f7d1e1278c5f940b3a71ac2e.png

▲长按加小助手微信,进交流群

▲点击上方卡片,关注CVer公众号

整理不易,请点赞和在看30e2bb69b1400eb626d0c96049eceb6f.gif

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值