Perceiver:General Perception with Iterative Attention

我永远爱春日野穹

已于 2023-11-19 14:08:55 修改

阅读量452

点赞数

文章标签： python 视频编解码

于 2023-11-12 17:25:46 首次发布

本文链接：https://blog.csdn.net/qq_45708407/article/details/134357450

版权

概要

读这篇论文的原因是Flamingo模型通过基于Perceiver的结构摄取高分辨率的图像或视频，该架构可以在给定大量可变数量的视觉输入特征的情况下，为每个图像/视频生成少量固定数量的视觉标记。

架构

Perceiver的模型结构
Perceiver模型利用非对称注意力机制迭代地将输入提取到一个Latent Bottleneck中。通过交替的cross Attention层与latent Atten-tion层来迭代地关注输入，Perceiver可以将有限的注意力引导到最相关的输入上。对于多模态的输入，Perceiver通过High-fidelity Fourier features将位置和每个输入元素的特定模态特征关联。

输入：Byte数组(MⅹC)的大小由输入数据决定，而Latent数组(NⅹD)的大小是超参数，通常较小（作者在ImageNet中设置为512）。latent数组通常通过学习位置编码进行初始化。
不对称性：cross attention层将两个维度不同的嵌入序列不对称地组合在一起，Byte数组的大小往往远大于Latent数组的大小。
参数共享：为避免Latent Bottleneck导致忽略输入信号的必要细节，Perceiver由多个可共享参数的cross attention层与transformer层构成，可以迭代地从输入图像中提取信息。
降低复杂度：考虑到在处理较大输入时，QKV注意力操作的复杂度是O(M^2)，通过使用latent数组作为查询Q，Byte数组作为建K与值V的输入(N<<M)，可以将cross attention层的复杂度降为O(MN)。
通过latent attention层解耦深度：通过Cross Attention层诱导的Latent Bottleneck，Perceiver可以通过在Latent空间中构建更深的成本较低的transformer，基于Latent Bottleneck构建的Latent Transformer的复杂度为O(N^2)，而这代价通常足够小，因此可以构建足够大的网络。
通过傅里叶特征保留多模态输入的空间结构: Perceiver通过傅里叶特征的参数化，保持音频、图像的1D时间结构或2D空间结构，以及视频的3D时空结构。

总结

文章介绍了一种基于transformer的模型—Perceiver。Perceiver是一种用于处理不同模态输入的模型，与其他基于特定模态的多模态融合模型不同，Per-ceiver可以将它的输入扩展到不同模态的任意配置。Perceiver的核心思想是引入一组latent units形成输入必须要通过的Latent Bottleneck（消除了传统transformer对所有attention的二次缩放问题，大大降低了运算的复杂度），将网络深度与输入大小解耦，使得Perceiver的结构可以非常深。通过直接在像素层面的关注，Perceiver在没有2D卷积的情况下，在ImageNet上获得与ResNet-50和ViT相当的性能。

我永远爱春日野穹

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
1
评论
Perceiver:General Perception with Iterative Attention

文章介绍了一种基于transformer的模型—Perceiver。Perceiver是一种用于处理不同模态输入的模型，与其他基于特定模态的多模态融合模型不同，Per-ceiver可以将它的输入扩展到不同模态的任意配置。
复制链接

扫一扫