PointMamba迎来更新!​Mamba在点云分析中是否能替代Transformer?

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【Mamba和3D点云】交流群

添加微信:CVer5555,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

ecdc2505603c4afb19be16fa69e75e2b.jpeg

首个基于状态空间模型的点云分析方法PointMamba再次迎来更新,带来了架构和性能的全面升级。本文着眼于讨论Mamba相比Transformer的架构优势,PointMamba在保持线性复杂度和全局信息建模的条件下,使用Vanilla Mamba即在点云分析数据集上达到了优越的性能,在长序列输入下相比Transformer方法在计算开销等有显著的提升,为后续研究提供了一个简单且高效的新基线。

dce4fe24b449bc9cd82417a5cb0887f4.png

4529fa56dfcfc27150cdb8b412a2fa72.png

论文标题:PointMamba: A Simple State Space Model for Point Cloud Analysis

论文地址:https://arxiv.org/abs/2402.10739

代码地址:https://github.com/LMD0311/PointMamba    

项目主页:https://lmd0311.github.io/projects/PointMamba/

PointMamba 做了什么?

目前大量的工作使用Transformer结合自监督学习范式,不断将点云分析任务的性能提升到新高度。作为Transformer中的核心部分,attention机制能有效地建模全局信息,但其二次复杂度也带来了额外的计算开销,极大地限制了模型拓展到长序列的能力。关注到最近NLP领域Mamba架构带来的线性复杂度优势,我们期望为点云分析设计一种线性复杂度且保留全局建模能力的点云分析模型。在本文中,我们提出了第一个点云分析的状态空间模型,保留了线性复杂度和全局建模能力,同时避免复杂的结构设计;具备许多优点:结构简洁(使用Vanilla Mamba)、低计算开销、知识可迁移(支持自监督学习)等。

PointMamba 怎么做的?

PointMamba的设计遵循奥卡姆剃刀原则,确保了结构的尽可能简洁。首先,输入点云cc80cebc8af5f9833d648cea089428a9.jpeg,通过FPS选取65177354c8bf513ebba5ebe40eddb6b7.jpeg个关键点,得到cec118a4f7671de6b37508720705952a.jpeg。因为在FPS中4854836422ba012a8b2ecab4fd5259c4.jpeg个关键点为随机选取,可能为单向建模的Mamba模型带来挑战,因此选择使用空间填充曲线来扫描并序列化点云。具体而言,使用三维希尔伯特曲线(Hilbert)和其转置变体(Trans-Hilbert)在三维空间中按顺序遍历全部关键点,得到b494e531a19a74fa0114c73c5eca9f24.jpeg531f8288398dc0acbdfcec49ad5bfd8d.jpeg。接着使用通用的Point tokenizer,依据前述两组关键点得到两组序列化的Point tokens,记为7d8d7b3adb05340fa12ca3cab5dd6f71.jpegb8ee900a78e53e6b5726b1390e6b4ccd.jpeg。此外,引入了一个极其简单的顺序指示器(order indicator)以区分不同扫描策略的token特征,2a4bc7e72707444e65f9dda274358394.jpeg,其中afab3707f5dc19d82f4d02c1de5b61a0.jpegccfdf21a159731e75e3f3326a5fe78f2.jpeg分别为缩放因子。将变换后的两组特征进行拼接得到Mamba encoder的输入46bb23dd4ccf586d02bd75f4119b60b7.jpeg

Mamba encoder为1bbf9a125fce6847b63a25145bc08b1d.jpeg个Vanilla Mamba block组成。为了更好地理解所提出的PointMamba具有的全局建模能力,我们提供了一个直观的示意图。如图所示,在对第一组token(即基于Hilbert的标记)建模后,积累的全局信息可以改进下一组标记(即基于Trans-Hilbert的标记)的序列化过程。这种机制可确保Trans-Hilbert序列中的每个序列化点都能从之前处理过的Hilbert序列的整个历史中获得信息,从而使建模过程具有更丰富的上下文和全局建模处理。   

997620dce1ed3b4e589e2635b81f80a9.png

模型的pipeline如下:

9d1d54373f2e61582c8dc890137bac29.png

此外,PointMamba提出了序列化的掩码建模预训练方式,通过随机选取一种空间填充曲线(Hilbert或Trans-Hilbert)序列化点云,并使用对应的order indicator得到encoder输入。经过Vanilla Mamba encoder的特征编码,在被mask掉token的地方插入mask token,经过Vanilla Mamba decoder 和一个投影层将mask token恢复为原始点云。自监督预训练pipeline如下:   

dfc670c8080ec1c8b6697ad5ba518253.png

PointMamba的效果如何?

在真实世界点云分类数据集ScanObjectNN、模拟数据集ModelNet40、Fewshot learning、部件分割中,PointMamba取得了优异的性能,具体情况如下:

8cb807ea562084919033994506ac9f39.png

52644cdba2761b99b32b9b9386af8702.png    

3e43a8d931d0ab18a47bccfb11d82b76.png

在效率方面,得益于Mamba的架构优势,除去tokenizer只测试encoder的情况下,当token序列增长到较长序列(如32,768)时,相较Point-MAE(Vanilla Transformer)在推理速度、推理显存占用、FLOPs上提升30.26164a72ed9f4e807751671dbbe944d66.jpeg,24.97576a2be9bee7ba4052bd3be955dd5a9.jpeg,5.2f671d8f598ae913e9d08890a35865ac0.jpeg

此外,以下是掩码建模和部件分割的可视化:

0d9612fd55cd0b6f4e5f4bd9b5acaa17.png36faf863d73709677b2dc087ffd36b4c.png

总结

总结来说,PointMamba作为首个状态空间的点云分析模型,通过设计输入序列化为单向建模的Mamba具备高效的全局建模能力,用最简洁的Vanilla架构验证了新架构相比Transformer的优势,在点云分析任务中取得优越的性能并展现了巨大的潜力。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2024 论文和代码下载

在CVer公众号后台回复:CVPR2024,即可下载CVPR 2024论文和代码开源的论文合集

Mamba和3D点云交流群成立

 
 
扫描下方二维码,或者添加微信:CVer5555,即可添加CVer小助手微信,便可申请加入CVer-Mamba和3D点云微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba或者3D点云+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

 
 
▲扫码或加微信号: CVer5555,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集近万人!

▲扫码加入星球学习
 
 
▲点击上方卡片,关注CVer公众号
整理不易,请赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值