Perceiver_General Perception with Iterative Attention稿

  人们理解世界是依赖多模态信息的融合,视觉,声音,触觉的结合让人能够准确地感知身边的事物。由于,不同模态的输入的维度是不相同的,比如纯音频信号,是一维的,图片是二维的,视频,点云是3d的。因此之前的很多网络架构设计都是局限在一个单模态里面的,作者就希望提出一个可以同时处理多模态并且针对不同模态不用做很多改动的方法。
  这个方法是基于Transformer的改进。目前transformer已经在图片领域有了巨大的运用。ViT堆叠Transformer encdoer引领了transformer在图片中的热潮。Vit的做法是将图片用patch的方式分割开来,这样就可以把图片看成是一维序列,并且大大减少计算复杂度。作者提出的做法则不相同,完全针对图片像素点做,声音就直接采样,点云也是像素点。(当然,在处理视频的时候,任然要使用patch的方式,因为真的是太多了)
  作者使用了另一种方法去减少计算量。针对每一个像素做自注意力的话,那么一张224*224的图片就有50176个token。声音的话,每一秒去采样的话,也会存在50000个样例。从复杂度考虑的话, s o f t m a x (

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值