【PMLR21‘论文阅读】Perceiver: General Perception with Iterative Attention

Jaegle, A., Gimeno, F., Brock, A., Vinyals, O., Zisserman, A., & Carreira, J. (18–24 Jul 2021). Perceiver: General Perception with Iterative Attention. In M. Meila & T. Zhang (Eds.), Proceedings of the 38th International Conference on Machine Learning (Vol. 139, pp. 4651–4664). PMLR. https://proceedings.mlr.press/v139/jaegle21a.html

Perceiver:迭代关注的通用感知

摘要
这篇论文介绍了Perceiver,这是一种建立在Transformer基础上的模型。它在处理来自视觉、听觉、触觉、本体感觉等多种形式的高维输入时,不像深度学习中的感知模型那样被设计为针对单一模态。相反,传统的感知模型通常依赖于特定于领域的假设,例如几乎所有现有视觉模型都利用的局部网格结构。这些先验引入了有用的归纳偏见,但也使模型被锁定到单个模态。

Perceiver模型利用不对称的注意力机制,将输入迭代地提炼为一个紧凑的潜在瓶颈,使其能够扩展以处理非常大的输入。论文展示了这种架构在各种模态的分类任务上与或优于强大的专门模型:图像、点云、音频、视频和视频+音频。Perceiver在ImageNet上通过直接关注50,000像素而获得了与ResNet-50和ViT相媲美的性能,而不需要2D卷积。在AudioSet中,它在所有模态中都表现出竞争力。

在这里插入图片描述
图1:Perceiver是一种基于关注机制原理的架构,能够处理高维输入,如图像、视频、音频、点云和多模态组合,而不做特定于领域的假设。Perceiver使用交叉注意力模块,将高维输入字节数组投影到一个固定维度的潜在瓶颈(输入索引数M远远大于潜在索引数N),然后使用潜在空间中的一堆Transformer风格的自注意力块进行处理。Perceiver通过交替使用交叉注意力和潜在自注意力块,对输入字节数组进行迭代式关注。

在这里插入图片描述
图2:我们在来自ImageNet(Deng等人,2009)的图像(左侧),AudioSet(Gemmeke等人,2017)的视频和音频(既考虑多模态也考虑单模态)(中间),以及ModelNet40(Wu等人,2015)的3D点云(右侧)上对Perceiver架构进行训练。基本上不需要进行架构上的更改,就可以在各种不同的输入数据上使用该模型。

在这里插入图片描述
表1:在ImageNet上的Top-1验证准确率(以%表示)。使用2D卷积的模型在架构上利用了特定领域的网格结构,而仅使用全局注意力的模型则没有这样的假设。第一个模块报告了从像素获得的标准性能 - 这些数字来自文献。第二个模块显示了当输入是RGB值与2D傅里叶特征(FF)串联在一起时的性能 - 这与Perceiver接收的输入相同。这个模块使用我们对基线的实现。Perceiver在ImageNet上与标准基线竞争,而不依赖于特定领域的架构假设。

在这里插入图片描述
图3:来自我们在ImageNet上表现最佳模型的第一、第二和第八(最后)个交叉关注层的注意力图(参见表1)。在该模型中,交叉关注模块2-8共享权重。第1行:原始图像和来自每个这些层的一个注意力图的局部放大图。第2-4行:交叉关注模块的注意力图概览。注意力图似乎以一系列空间频率的格子状图案扫描输入图像。可视化的注意力图没有叠加在输入图像上:任何明显的图像结构都存在于注意力图本身中(狗在第一个模块的注意力图中清晰可见)。

  • 17
    点赞
  • 19
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王知为

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值