人们理解世界是依赖多模态信息的融合,视觉,声音,触觉的结合让人能够准确地感知身边的事物。由于,不同模态的输入的维度是不相同的,比如纯音频信号,是一维的,图片是二维的,视频,点云是3d的。因此之前的很多网络架构设计都是局限在一个单模态里面的,作者就希望提出一个可以同时处理多模态并且针对不同模态不用做很多改动的方法。
这个方法是基于Transformer的改进。目前transformer已经在图片领域有了巨大的运用。ViT堆叠Transformer encdoer引领了transformer在图片中的热潮。Vit的做法是将图片用patch的方式分割开来,这样就可以把图片看成是一维序列,并且大大减少计算复杂度。作者提出的做法则不相同,完全针对图片像素点做,声音就直接采样,点云也是像素点。(当然,在处理视频的时候,任然要使用patch的方式,因为真的是太多了)
作者使用了另一种方法去减少计算量。针对每一个像素做自注意力的话,那么一张224*224的图片就有50176个token。声音的话,每一秒去采样的话,也会存在50000个样例。从复杂度考虑的话, s o f t m a x (
Perceiver_General Perception with Iterative Attention稿
最新推荐文章于 2023-04-12 10:17:41 发布