一统六大3D点云分割任务 | UniSeg3D：全是SOTA！

最新推荐文章于 2025-03-30 09:20:59 发布

自动驾驶之心

最新推荐文章于 2025-03-30 09:20:59 发布

阅读量952

点赞数

文章标签： 3d

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247617264&idx=3&sn=b9917c7f3080432e5374e28ba77bba19&chksm=cfb2a90903fe5803889726393c1dfaa1b27f6dca88fd495056c5930dd96d76105e3d9c49166e&scene=126&sessionid=0

版权

编辑 | 极市平台

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『点云处理』技术交流群

本文只做学术分享，如有侵权，联系删文

导读

一个统一的框架同时处理六种3D点云分割任务！UniSeg3D在全景分割、语义分割、实例分割、交互式分割、参考分割和开放词汇语义分割六个任务中均展现出SOTA性能

论文地址：https://arxiv.org/abs/2407.03263

项目地址：https://dk-liang.github.io/UniSeg3D/

代码地址：https://github.com/dk-liang/UniSeg3D

三维场景理解在虚拟现实、具身智能等技术中存在广泛应用，吸引了研究者们的极大关注。3D点云分割任务是三维场景理解领域的重要组成部分，3D点云分割包括实例、语义和全景分割任务，以及交互式分割任务、参考分割任务和开放词汇语义分割等任务，针对相关任务的研究已经取得引人注目的进展。然而，此前在三维场景理解领域中的研究工作主要聚焦于特定单一点云分割任务，因此这些方法对三维场景的理解限制在单一任务的视角下，忽视了不同任务之间的内在联系。这对实现全面和深入的三维场景理解带来了显著挑战。

华中科技大学的白翔研究团队针对于三维场景理解中的应用挑战，提出了一个简单且有效的3D点云统一分割框架：UniSeg3D模型。这一模型的设计理念是，构建一个统一的框架同时处理六种3D点云分割任务，通过多任务交互充分挖掘任务间的协同性，以实现全面而深入的场景理解，从而进一步促进3D点云分割任务中的性能表现。UniSeg3D框架有如下的优势:

多任务统一：当前的3D点云分割方法通常为单一任务设计，不同于现有的研究工作，UniSeg3D经过一次推理过程能够同时支持六种点云分割任务；
性能优异：通过建立任务间的显式关联，UniSeg3D在全景分割、语义分割、实例分割、交互式分割、参考分割和开放词汇语义分割六个任务中均展现出SOTA性能；
可扩展性：UniSeg3D采用query统一表征多种点云分割任务的信息与特征，结构简洁有效。且通过输入新增任务的query表征，可将UniSeg3D拓展至更多任务，展现了框架的可扩展性和灵活性。

UniSeg3D如何实现的？

框架结构如上图所示，它主要由三个模块组成：点云Backbone、Prompt编码器和掩膜解码器。其中，点云Backbone提取输入三维场景的点云特征；Prompt编码器包含文本提示编码器与视觉提示编码器，文本提示编码器提取文本特征，而视觉交互分割中的Prompt特征通过采样点云特征获取，将提取后的特征信息送入掩膜解码器中获取不同任务的分割结果。

在之前的研究工作中，忽略了各个任务间的关联，导致每个任务只关注其任务特定的视角，限制了全面而深入的三维场景理解。为克服以上缺陷，本研究采用对比学习和知识蒸馏建立了不同任务间的显式联系，促进深层次的三维场景理解，其共分为两个部分。

对比学习: 对于参考分割任务，当多个形状相同的物体相邻排列时，容易出现歧义问题，如上图(a)所示。因此引入基于ranking的对比学习方式，即利用交互式分割的特征与参考分割任务的特征进行对比学习从而建立显式关联，如上图(b)所示。

知识蒸馏： 鉴于视觉交互式分割所展现出的优异性能，如上图(c)所示，利用交互式分割任务的预测mask和分类logits分别对全景分割任务的预测mask和参考分割任务输出的类别logits进行监督约束，从而实现性能优化。

UniSeg3D的效果如何？

全景分割、语义分割、实例分割、开放词汇语义分割、参考分割、交互式分割分别由PS、SS、IS、OVS、Referring、Interactive表示。从上述表格中可以看出，在仅实现六种任务，而不引入各任务间的联系时，在全景分割、语义分割、实例分割任务和参考分割任务上的指标结果均有所降低，因此统一多种3D点云分割任务是一个富有挑战性的课题。

UniSeg3D在ScanNet20、ScanRefer和ScanNet200数据集上进行评估测试，取得了优异的性能，具体情况如下：

在全景分割、语义分割、实例分割、开放词汇语义分割、交互式分割和参考分割任务中，UniSeg3D的均取得SOTA表现，这表明UniSeg3D在统一3D点云分割任务上的有效性。

下图展示了UniSeg3D在六种3D点云分割任务上的可视化结果。

总结

UniSeg3D作为首个在三维场景理解中集成六大分割任务的模型，为三维场景理解提供了一个灵活而高效的解决方案。以前的特定任务的方法不能提取跨任务信息，阻碍了全面的三维场景的理解。相比之下，UniSeg3D充分利用了支持多任务的结构特点，进一步通过建立任务间的关联来提高模型性能，从而在各种基准任务中取得优异表现。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频