交互式4D分割Interactive4D：点云分割标注直接加速！

最新推荐文章于 2025-09-10 20:43:10 发布

自动驾驶之心

最新推荐文章于 2025-09-10 20:43:10 发布

阅读量555

点赞数

CC 4.0 BY-SA版权

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247633823&idx=3&sn=91986fae3ddce59541f64aa9b0442b85&chksm=cf3ea03bdf313c785332e752cb23ebc144a68b35d9af5ca224d25c31c23233aa230ece9d00e5&scene=126&sessionid=0

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心『点云分析』技术交流群

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

交互式分割在促进未来LiDAR数据集的注释过程中起着重要作用。现有的方法在每次激光雷达扫描时顺序分割单个物体，在整个序列中重复这一过程，这是多余且无效的。在这项工作中，我们提出了交互式4D分割，这是一种新的范式，允许同时分割多个LiDAR扫描上的多个目标，以及交互式4D，这是第一个交互式4D分割模型，通过利用LiDAR数据的顺序特性，在一次迭代中分割叠加的连续LiDAR打印上的多目标。在执行交互式分割时，我们的模型利用了整个时空体积，从而实现了更高效的分割。在4D卷上操作时，它可以随时间直接提供一致的实例ID，并简化跟踪注释。此外，我们还表明，点击模拟对于在LiDAR点云上成功进行模型训练至关重要。为此我们设计了一种更适合激光雷达数据特性的点击模拟策略。为了证明其准确性和有效性，我们在多个LiDAR数据集上评估了Interactive4D，其中Interactive4D在很大程度上达到了新的最先进水平。

开源链接：https://vision.rwth-aachen.de/Interactive4D

总结来说，本文的贡献是：

提出了交互式4D分割，这是一种新的范式，通过利用激光雷达数据的顺序特性，一次对多个扫描中的多个目标进行交互式分割。
介绍了Interactive4D，这是第一个交互式4D分割模型，能够准确分割时空点云上的事物和内容，同时随着时间的推移为跟踪任务提供一致的实例ID。
设计了一种新的点击模拟策略，更适合激光雷达数据的特点。
我们在多个LiDAR数据集上实现了最先进的性能，并通过与人类注释者的用户研究证明了Interactive4D在真实注释案例中的有效性。

详解Interactive4D

受基于注意力的交互式分割模型成功的启发，我们添加了关键的技术修改，以实现此类模型在LiDAR点云中的全部潜力，并引入了交互式4D，我们的交互式4D分割模型，如图2所示。为了清楚起见，我们使用矩阵表示法来呈现整个过程。

时空点云。（图2）我们首先将短时间窗口内的连续LiDAR扫描叠加到单个时空点云中。这种表示方式有利于交互式分割，因为：（1）静态目标在扫描过程中保持在同一空间区域，注释它们变得更加高效，需要更少的点击才能达到所需的精度。（2）另一方面，动态目标显示为多个轮廓，反映了它们随时间的移动，并通过在单个点云中关联轮廓来实现直观的跟踪。（3）与单个扫描相比，统一的点云还提供了更高的点密度，使物体更集中，更容易识别。这对于识别较小的物体特别有益，这些物体在稀疏的激光雷达数据中通常很难检测到。

Feature Extractor为常见的3D Sparse U-Net。

Click编码器：给定第K次迭代的一组原始点击CK，点击编码器的目标是将CK编码为点击查询。初始查询作为细化的起点，应该捕获相关信息，以有效地表示用户想要分割的区域。我们将其表述为：

细化：该模块由L个连续的点击关注层组成，这些层细化了点击查询Q和体素特征F。在每一层中，Q通过交叉注意力来关注F。然后，Q使用self-att。最后，F交叉注意Q以细化特征表示。这种渐进式的改进在L层中重复进行，从而得到最终的Q和F。

训练损失如下所示：

4D推理。在每个短时间窗口内，我们通过将每个点分配给HK中响应最高的目标来直接获得一致的实例ID。但是，跟踪任务需要在整个序列上保持一致的实例IDs。为了实现这一点，我们用一次重叠的LiDAR扫描形成时间窗口，并在这次扫描中使用两个时间窗口的预测来携带从Pt到Pt+π的实例ID。这种方法还使我们能够在多个注释器之间并行化注释过程，同时自动确保整个序列中的实例ID一致。

单击“模拟策略”。（图2）交互式分割模型依赖于标注输入来迭代改进预测，但在训练过程中让人类参与是不切实际的。相反，合成点击是基于预测和GT进行模拟的。仿真策略应该：（1）将模型的学习集中在误差区域，以减少交互来提高准确性，以及（2）尽量减少训练和实际使用之间的差距。交互式3D分割模型中采用了两种主要类型的点击模拟。受2D模拟的启发，在密集数据下运行的模型采用了边界相关（BD）点击策略。该方法使用以下度量选择离边界最远的点：

近期的方法通过采用完全随机点击来缓解这个问题，大大减少了所需的计算。然而，这两种方法仍然存在两个关键局限性：（1）偏向较大目标：在多目标交互式分割中，必须首先识别错误区域，因为错误可能存在于各种目标中。BD选择通过用max操作切换等式（iv）中的arg-max来隐式地确定区域的误差大小。这种方法倾向于将点击偏向于较大的物体（例如建筑物），而忽略较小的物体（如自行车）（图3左）。同样的问题也适用于随机点击策略，因为随机分布自然会忽略较小的目标，使其在训练过程中代表性不足。（2）非信息性初始点击：在密集数据中，选择离边界最远的点是有效的，因为它通常会捕获错误区域的“中心”。然而，在稀疏的LiDAR点云中，由于周围的空白空间，这通常会导致错误区域边缘附近的点击错误（图3右）。这是因为误差区域外的点决定了边界。完全随机点击也面临着类似的问题，因为选择不是集中在特定的错误区域，而是不加选择地针对整个错误集。

为了解决上述缺点，我们提出了一种新的点击选择策略，将该过程分为两个单独的步骤：（1）尺度不变误差区域选择（SI）：为了应对较大目标的过度优先级，我们提出一种基于IoU的度量来确定最大误差区域，确保尺度不变性：

这种方法优先考虑覆盖目标大部分的错误区域，特别是那些IoU较低的区域，以防止较小的目标被忽视。这使得训练过程中的点击分布更加平衡，使模型能够学习更全面的特征表示。（2）错误区域内的增强点击选择：与之前依赖数据库的工作类似，我们的目标是为初始点击选择地面真实掩模的“中心”，因为这通常会捕捉到区域的关键特征。为了确保在稀疏域中进行信息选择，我们将中心定义为最接近目标质心的点，通常在实体分割开始时捕获最具代表性的区域。然而，对于细化点击——误差区域在点云中变得很小且分散——质心选择的有效性降低，真实用户很难遵循。为了解决这个问题，我们建议在误差区域内切换到随机点选择以进行细化点击。与[15,46]不同，我们只在识别出错误区域后才执行随机选择。随机性的注入通过学习不同的特征使模型对用户行为更加鲁棒。

我们的方法简化并解耦了决策过程。由于在训练过程中多次调用点击模拟器，它加速了训练并显著降低了内存需求。与限制目标数量或只关注事物以管理计算成本的方法不同，我们的方法避免了这些权衡。这实现了更快的训练、整体分割和4D数据的可扩展性，其中点的数量显著增加。图3显示了我们提出的策略修改的总体效果。

实验结果

结论

本文引入了交互式4D分割，这是一种新的范式，用户可以在多个扫描中同时分割多个目标，以及交互式4D，这是遵循这一范式的第一种交互式4D分割方法。交互式4D比以前的方法更有效，仅限于单个目标和单个扫描。除了我们适用于稀疏LiDAR扫描的新点击模拟策略外，它还显示了出色的精度结果，并大幅达到了最先进的性能。我们希望Interactive4D能够减少未来LiDAR数据集所需的标注工作。

参考

[1] Interactive4D: Interactive 4D LiDAR Segmentation

『自动驾驶之心知识星球』欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

端到端自动驾驶、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内外最大最专业，近4000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（端到端自动驾驶、世界模型、仿真闭环、2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频