Perceiver:General Perception with Iterative Attention

概要

读这篇论文的原因是Flamingo模型通过基于Perceiver的结构摄取高分辨率的图像或视频,该架构可以在给定大量可变数量的视觉输入特征的情况下,为每个图像/视频生成少量固定数量的视觉标记。

架构

Perceiver的模型结构
Perceiver模型利用非对称注意力机制迭代地将输入提取到一个Latent Bottleneck中。通过交替的cross Attention层与latent Atten-tion层来迭代地关注输入,Perceiver可以将有限的注意力引导到最相关的输入上。对于多模态的输入,Perceiver通过High-fidelity Fourier features将位置和每个输入元素的特定模态特征关联。

  • 输入:Byte数组(MⅹC)的大小由输入数据决定,而Latent数组(NⅹD)的大小是超参数,通常较小(作者在ImageNet中设置为512)。latent数组通常通过学习位置编码进行初始化。
  • 不对称性:cross attention层将两个维度不同的嵌入序列不对称地组合在一起,Byte数组的大小往往远大于Latent数组的大小。
  • 参数共享:为避免Latent Bottleneck导致忽略输入信号的必要细节,Perceiver由多个可共享参数的cross attention层与transformer层构成,可以迭代地从输入图像中提取信息。
  • 降低复杂度:考虑到在处理较大输入时,QKV注意力操作的复杂度是O(M^2),通过使用latent数组作为查询Q,Byte数组作为建K与值V的输入(N<<M),可以将cross attention层的复杂度降为O(MN)。
  • 通过latent attention层解耦深度:通过Cross Attention层诱导的Latent Bottleneck,Perceiver可以通过在Latent空间中构建更深的成本较低的transformer,基于Latent Bottleneck构建的Latent Transformer的复杂度为O(N^2),而这代价通常足够小,因此可以构建足够大的网络。
  • 通过傅里叶特征保留多模态输入的空间结构: Perceiver通过傅里叶特征的参数化,保持音频、图像的1D时间结构或2D空间结构,以及视频的3D时空结构。

总结

文章介绍了一种基于transformer的模型—Perceiver。Perceiver是一种用于处理不同模态输入的模型, 与其他基于特定模态的多模态融合模型不同,Per-ceiver可以将它的输入扩展到不同模态的任意配置。Perceiver的核心思想是引入一组latent units形成输入必须要通过的Latent Bottleneck(消除了传统transformer对所有attention的二次缩放问题,大大降低了运算的复杂度),将网络深度与输入大小解耦,使得Perceiver的结构可以非常深。通过直接在像素层面的关注,Perceiver在没有2D卷积的情况下,在ImageNet上获得与ResNet-50和ViT相当的性能。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值