Mamba杀入3D点云！白翔团队提出PointMamba：点云分析的简单状态空间模型

最新推荐文章于 2025-04-22 09:51:14 发布

Amusi（CVer）

最新推荐文章于 2025-04-22 09:51:14 发布

阅读量1.8k

点赞数 1

文章标签： 3d

原文链接：https://mp.weixin.qq.com/s?__biz=MzUxNjcxMjQxNg==&mid=2247596120&idx=2&sn=b6a856c57788b22598d31a5fb37650ab&chksm=f8b412a9d63b79e788067c3e1f58291993d90591b4063f4caa3168a85d1c7ec8883f016cee3a&scene=126&sessionid=0

版权

点击下方卡片，关注“CVer”公众号

AI/CV重磅干货，第一时间送达

点击进入—>【Mamba和3D点云】微信交流群

添加微信：CVer5555，小助手会拉你进群！

扫描下方二维码，加入CVer学术星球！可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料，及最前沿应用！发论文/搞科研/涨薪，强烈推荐！

作者：LMD

https://zhuanlan.zhihu.com/p/687191399

在这里向大家介绍我们的最新工作：PointMamba: A Simple State Space Model for Point Cloud Analysis。状态空间模型作为序列建模的新方法最近在许多领域有了积极的进展，在本文中我们构建了一个具有全局建模和线性复杂性的3D点云分析新框架，性能优于基于 vanilla Transformer 的同类工作，同时显著节省了约 44.3% 的参数和 25% 的 FLOPs。据我们所知，PointMamba是第一个把状态空间模型运用到点云分析任务上的文章。论文、模型、代码均已开源，欢迎大家引用和star✨。

代码：https://github.com/LMD0311/PointMamba

论文：https://arxiv.org/abs/2402.10739

引言

点云数据的不规则性和稀疏性一直是3D视觉领域中的难题。虽然Transformer基于其强大的全局信息建模能力，在点云分析任务中展现了潜力，但其计算复杂度随着输入长度的增加而显著增长，限制了其在长序列模型上的应用。在此背景下，我们提出了PointMamba，一个结合了状态空间模型（SSM）优势的框架，旨在通过具有线性复杂度的全局建模方法，克服现有技术的限制。

模型架构

Point Tokenizer: 与Point-BERT/Point-MAE类似，我们首先采用一个简单的Point Tokenizer来生成Point Patches，通过最远点采样（FPS）和K最近邻（KNN）算法将输入点云划分为一系列局部区域，然后将这些区域映射到特征空间中，形成Point tokens。

Reordering Strategy: 为了让SSM能够更有效地捕获点云的全局结构，我们提出了一种重排序策略。这一策略通过基于Point Patches的几何中心坐标，沿 x y z轴顺序的几何顺序重新组织Point tokens，以逻辑上的扫描顺序来增强模型的全局建模能力。

重排序示例

Mamba Block: 重排序后的Point Tokens将被送入一系列Mamba block进行处理。Mamba block结合了深度可分离卷积和selective SSM，通过有效捕获点云的全局和局部特征，对点云结构进行建模。

预训练策略

为了进一步提升PointMamba的性能，我们还探索了基于Point-MAE的预训练策略，通过mask部分Point Patches并训练模型去重建它们，模型学习到了丰富的点云表示。这一步不仅提高了模型对点云结构的理解能力，也为后续的下游任务提供了强大的特征表示。具体公式为：

值得注意的是，Decoder的输入将mask token Tm 拼接在visible token Tv 后，满足了SSM的单向建模特点。

实验验证

我们在多个点云分析任务上验证了PointMamba的性能，包括分类和部分分割。实验结果证明，PointMamba不仅在效率上具有显著优势，同时在准确度上也超过了许多现有的基于Transformer的模型。

随着序列长度的扩展，PointMamba显示出较Transformer更好的显存利用

结论

总结来说，PointMamba作为一个新颖的点云分析工具，通过其高效的全局建模能力和简洁的模型结构，在3D视觉任务中展现了巨大的潜力。我们希望这项工作能够激励更多的研究，共同推动点云分析领域的进步。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复：何恺明，即可下载本课程的所有566页课件PPT！赶紧学起来！

CVPR 2024 论文和代码下载

在CVer公众号后台回复：CVPR2024，即可下载CVPR 2024论文和代码开源的论文合集

Mamba和3D点云交流群成立

扫描下方二维码，或者添加微信：CVer5555，即可添加CVer小助手微信，便可申请加入CVer-Mamba和3D点云微信交流群。另外其他垂直方向已涵盖：目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注：研究方向+地点+学校/公司+昵称（如Mamba或者3D点云+上海+上交+卡卡），根据格式备注，可更快被通过且邀请进群

▲扫码或加微信号: CVer5555，进交流群
CVer计算机视觉（知识星球）来了！想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料，欢迎扫描下方二维码，加入CVer计算机视觉（知识星球），已汇集近万人！

▲扫码加入星球学习

▲点击上方卡片，关注CVer公众号
整理不易，请点赞和在看