一统六大3D点云分割任务 | UniSeg3D:全是SOTA!

编辑 | 极市平台

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心点云处理技术交流群

本文只做学术分享,如有侵权,联系删文

导读

 

一个统一的框架同时处理六种3D点云分割任务!UniSeg3D在全景分割、语义分割、实例分割、交互式分割、参考分割和开放词汇语义分割六个任务中均展现出SOTA性能 

5a9ca50757fcc70666d2afece2ed1d0a.png

论文地址:https://arxiv.org/abs/2407.03263

项目地址:https://dk-liang.github.io/UniSeg3D/

代码地址:https://github.com/dk-liang/UniSeg3D

三维场景理解在虚拟现实、具身智能等技术中存在广泛应用,吸引了研究者们的极大关注。3D点云分割任务是三维场景理解领域的重要组成部分,3D点云分割包括实例、语义和全景分割任务,以及交互式分割任务、参考分割任务和开放词汇语义分割等任务,针对相关任务的研究已经取得引人注目的进展。然而,此前在三维场景理解领域中的研究工作主要聚焦于特定单一点云分割任务,因此这些方法对三维场景的理解限制在单一任务的视角下,忽视了不同任务之间的内在联系。这对实现全面和深入的三维场景理解带来了显著挑战。

c3aeb590de46ac51c26b191d3a4d398f.png

华中科技大学的白翔研究团队针对于三维场景理解中的应用挑战,提出了一个简单且有效的3D点云统一分割框架:UniSeg3D模型。这一模型的设计理念是,构建一个统一的框架同时处理六种3D点云分割任务,通过多任务交互充分挖掘任务间的协同性,以实现全面而深入的场景理解,从而进一步促进3D点云分割任务中的性能表现。UniSeg3D框架有如下的优势:

  • 多任务统一:当前的3D点云分割方法通常为单一任务设计,不同于现有的研究工作,UniSeg3D经过一次推理过程能够同时支持六种点云分割任务;

  • 性能优异:通过建立任务间的显式关联,UniSeg3D在全景分割、语义分割、实例分割、交互式分割、参考分割和开放词汇语义分割六个任务中均展现出SOTA性能;

  • 可扩展性:UniSeg3D采用query统一表征多种点云分割任务的信息与特征,结构简洁有效。且通过输入新增任务的query表征,可将UniSeg3D拓展至更多任务,展现了框架的可扩展性和灵活性。

UniSeg3D如何实现的?

4f9ad8ca9fb8e51d12fdd8f4f1234075.png

框架结构如上图所示,它主要由三个模块组成:点云Backbone、Prompt编码器和掩膜解码器。其中,点云Backbone提取输入三维场景的点云特征;Prompt编码器包含文本提示编码器与视觉提示编码器,文本提示编码器提取文本特征,而视觉交互分割中的Prompt特征通过采样点云特征获取,将提取后的特征信息送入掩膜解码器中获取不同任务的分割结果。

在之前的研究工作中,忽略了各个任务间的关联,导致每个任务只关注其任务特定的视角,限制了全面而深入的三维场景理解。为克服以上缺陷,本研究采用对比学习和知识蒸馏建立了不同任务间的显式联系,促进深层次的三维场景理解,其共分为两个部分。

7f90b44e6430fccd0ab056750ae24099.png

对比学习: 对于参考分割任务,当多个形状相同的物体相邻排列时,容易出现歧义问题,如上图(a)所示。因此引入基于ranking的对比学习方式,即利用交互式分割的特征与参考分割任务的特征进行对比学习从而建立显式关联,如上图(b)所示。

知识蒸馏: 鉴于视觉交互式分割所展现出的优异性能,如上图(c)所示,利用交互式分割任务的预测mask和分类logits分别对全景分割任务的预测mask和参考分割任务输出的类别logits进行监督约束,从而实现性能优化。

UniSeg3D的效果如何?

e1f4edbd7f2e5cc3519ac5b32c90abc1.png

全景分割、语义分割、实例分割、开放词汇语义分割、参考分割、交互式分割分别由PS、SS、IS、OVS、Referring、Interactive表示。从上述表格中可以看出,在仅实现六种任务,而不引入各任务间的联系时,在全景分割、语义分割、实例分割任务和参考分割任务上的指标结果均有所降低,因此统一多种3D点云分割任务是一个富有挑战性的课题。

UniSeg3D在ScanNet20、ScanRefer和ScanNet200数据集上进行评估测试,取得了优异的性能,具体情况如下:

0c438a59da6f404b4299c9f711d66fef.png

在全景分割、语义分割、实例分割、开放词汇语义分割、交互式分割和参考分割任务中,UniSeg3D的均取得SOTA表现,这表明UniSeg3D在统一3D点云分割任务上的有效性。

下图展示了UniSeg3D在六种3D点云分割任务上的可视化结果。

b754e9aa783f6f10262dec90f562f077.png

总结

UniSeg3D作为首个在三维场景理解中集成六大分割任务的模型,为三维场景理解提供了一个灵活而高效的解决方案。以前的特定任务的方法不能提取跨任务信息,阻碍了全面的三维场景的理解。相比之下,UniSeg3D充分利用了支持多任务的结构特点,进一步通过建立任务间的关联来提高模型性能,从而在各种基准任务中取得优异表现。

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

19d7f33d56e8a413b2d8a0095f19135e.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

c7ed6ab6806146f251b52590ea894763.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

2e02afd4e7fbfb2fe7ccc5a197726414.jpeg

④【自动驾驶之心】全平台矩阵

f45ade08e87d7c84f55edef6834076af.png

### 点云配准算法 点云配准的目标是将多个点云数据集对齐成一个整体,通常应用于三维重建、目标识别以及SLAM等领域[^2]。常见的点云配准算法包括ICP(Iterative Closest Point)和4PCS(Four Points Congruent Sets)。其中,ICP是一种经典的点云配准算法,它通过迭代的方式找到源点云与目标点云之间的最佳匹配关系,并构建旋转和平移矩阵来完成配准过程[^4]。 然而,ICP算法存在一些局限性,比如对初始对齐的要求较高,容易陷入局部最优解等问题。因此,在实际应用中,可以考虑使用更鲁棒的局配准方法,如4PCS算法。该算法能够通过寻找几何一致性的点集合来计算初始变换,从而减少对初始位置和重叠度的依赖[^1]。 以下是基于Python实现的一个简单ICP算法示例: ```python import numpy as np from scipy.spatial import KDTree def icp(source, target, max_iterations=50, tolerance=1e-4): source_tree = KDTree(source) prev_error = 0 for i in range(max_iterations): distances, indices = source_tree.query(target) T = best_fit_transform(source[indices], target) source = np.dot(T[:3,:3], source.T).T + T[:3,3] mean_error = np.mean(distances) if abs(prev_error - mean_error) < tolerance: break prev_error = mean_error return source, T ``` 此代码实现了基本的ICP流程,其中包括查找最近邻点、估计转换参数并更新点云位置等操作。 --- ### 点云分割技术 点云分割是指将原始点云划分为若干子区域或者对象的过程,它是后续处理的基础步骤之一。常用的点云分割方法有基于平面拟合的技术、聚类分析以及机器学习模型驱动的方法等[^3]。 #### 平面拟合法 对于结构化场景中的物体检测来说,RANSAC随机采样一致性算法常被用来提取地面或其他平坦表面作为背景信息的一部分。具体做法是从输入数据集中选取一组候选样本点尝试拟合成特定形状(例如直线或平面),再验证其余所有剩余点是否符合这一假设条件下的约束规则。 #### 聚类分析 K-means或者其他形式的距离度量标准可用于执行无监督分类任务,即将相似特性的像素组合在一起形成独立簇群;DBSCAN密度基空间聚类则允许发现任意形态分布模式而无需预先指定类别数量。 #### 深度学习框架支持下的高级解决方案 随着人工智能领域的快速发展,卷积神经网络(CNNs)/图神经网络(GCNs)已被证明非常适用于解决复杂环境下大规模非均匀采样的离散型表示问题—即所谓的“稀疏张量”。这些端到端训练好的预测器可以直接作用于未经预处理过的原始观测值序列之上,自动习得高层次抽象语义特征表达向量用于区分不同种类实例个体间差异之处所在。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值