Perceiver_General Perception with Iterative Attention稿

最新推荐文章于 2023-04-12 10:17:41 发布

Tyyy`

最新推荐文章于 2023-04-12 10:17:41 发布

阅读量800

点赞数

分类专栏：论文文章标签：计算机视觉人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/soulesstitan/article/details/116241044

版权

人们理解世界是依赖多模态信息的融合，视觉，声音，触觉的结合让人能够准确地感知身边的事物。由于，不同模态的输入的维度是不相同的，比如纯音频信号，是一维的，图片是二维的，视频，点云是3d的。因此之前的很多网络架构设计都是局限在一个单模态里面的，作者就希望提出一个可以同时处理多模态并且针对不同模态不用做很多改动的方法。
这个方法是基于Transformer的改进。目前transformer已经在图片领域有了巨大的运用。ViT堆叠Transformer encdoer引领了transformer在图片中的热潮。Vit的做法是将图片用patch的方式分割开来，这样就可以把图片看成是一维序列，并且大大减少计算复杂度。作者提出的做法则不相同，完全针对图片像素点做，声音就直接采样，点云也是像素点。（当然，在处理视频的时候，任然要使用patch的方式，因为真的是太多了）
作者使用了另一种方法去减少计算量。针对每一个像素做自注意力的话，那么一张224*224的图片就有50176个token。声音的话，每一秒去采样的话，也会存在50000个样例。从复杂度考虑的话，

最低0.47元/天解锁文章

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
Perceiver_General Perception with Iterative Attention稿

人们理解世界是依赖多模态信息的融合，视觉，声音，触觉的结合让人能够准确地感知身边的事物。由于，不同模态的输入的维度是不相同的，比如纯音频信号，是一维的，图片是二维的，视频，点云是3d的。因此之前的很多网络架构设计都是局限在一个单模态里面的，作者就希望提出一个可以同时处理多模态并且针对不同模态不用做很多改动的方法。这个方法是基于Transformer的改进。目前transformer已经在图片领域有了巨大的运用。ViT堆叠Transformer encdoer引领了transformer在图片中的热
复制链接

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。