点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:dddvision,备注:3D点云,拉你入群。文末附行业细分群
0. 这篇文章干了啥?
3D配准是SfM、SLAM、3D重建、物体姿态估计等领域的关键技术。那么都有哪些分类呢?
3D配准。 在其最简单形式中,3D配准寻找旋转矩阵R和平移向量t来对齐两组点。如果两组点之间的匹配关系已知,即知道在应用刚性变换 (R, t) 后,第二点云中的点 b_i 对应于第一点云中的点 a_i,那么问题可以被表述为一个非线性最小二乘问题:

通过 SVD分解可以得到一个闭式解。
鲁棒3D配准。 在实际问题中,测量中包含误匹配。异常值要么是因为点对被建立对应关系的算法错误地关联,要么是因为它们不位于场景的静态部分上。鲁棒3D配准的重点是在异常值面前估计 (R, t)。在这种情况下,测量模型变为:

主流方法是采用M-估计,通过最小化鲁棒损失函数来计算 (R, t) 的估计:

多模型3D配准。 鲁棒配准问题寻找解释大多数匹配关系的单个姿态,而将其他视为异常值。但在这篇文章中,作者希望找到异常值中的进一步模式。换句话说,是否能够同时恢复点云中存在的所有对象的运动?假设以下生成模型:

对于每个测量 i,向量 θi是一个未知二进制向量,其中一个条目等于 1,M 是对象的数量(先验未知),而 (Rj , tj)是第 j 个对象的运动。当 M = 1 时,问题退化为鲁棒注册问题。
这篇文章就希望解决多模型3D配准问题。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Multi-Model 3D Registration: Finding Multiple Moving Objects in Cluttered Point Clouds
作者:David Jin, Sushrut Karmalkar, Harry Zhang, Luca Carlone
机构:MIT、威斯康星大学
原文链接:https://arxiv.org/abs/2402.10865
2. 摘要
我们调查了3D配准问题的一种变体,名为多模型3D配准。在多模型配准问题中,我们被给定了两个描述不同姿态下一组对象的点云(可能包括属于背景的点),我们希望同时重建出两个点云之间所有对象的移动方式。这种设置推广了标准的3D配准,其中一个要重建单一姿态,例如,描绘静态场景的传感器运动。此外,它为相关的机器人应用提供了一个数学基础的表述,例如,机器人上的深度传感器感知到一个动态场景,并且目标是估计自己的运动(来自场景的静态部分),同时恢复所有动态对象的运动。我们假设一个基于对应关系的设置,其中我们在两个点云之间有假设的匹配,并考虑这些对应关系受到离群值困扰的实际情况。然后,我们提出了一种基于期望最大化(EM)的简单方法,并建立了理论条件,使得EM方法收敛到地面真相。我们在从桌面场景到自动驾驶场景的模拟和真实数据集中评估了该方法,并且证明了当与最先进的场景流方法结合使用以建立密集对应关系时的有效性。
3. 效果展示
这篇文章提出了一种基于期望最大化的多模型3D配准方法,旨在从点云观测值中恢复场景中所有物体(和背景)的运动。注意底部图形左边的两辆车是静止的,因此它们被正确地认为是背景的一部分。

4. 主要贡献
(1)提出了一种解决多模型注册问题的方法,基于期望最大化(EM)算法.该算法计算了将测量分配给对象并为每个对象检索姿态的分配。该方法不需要事先知道对象数目M,并且还可以适应额外的约束(例如,即使远距离的对象表现出相似的运动,也可以将其视为不同的)。
(2)提供了对该算法的新颖理论分析,表明只要向量的初始化足以捕获所有感兴趣的对象,EM方案就会收敛到真值。
(3)在从桌面场景到大型自动驾驶场景的模拟和真实数据集中评估了EM方案,并展示了当与最先进的场景流方法结合使用以建立密集对应关系时的有效性。
5. 基本原理
期望最大化( Expectation-Maximization,EM )算法通过交替使用期望( Expectation,E )步和最大化( Maximization,M )步来迭代估计给定噪声数据的统计模型中的参数。在机器人学中,EM已经成为解决包括离散和连续变量的攻击估计问题的流行方法。在这里,作者使用EM算法的一种变体,称为"分类期望"。

作者首先观察到,找到关联θi可以等效地看作是一个聚类问题,将对应于同一对象的测量聚类在一起。用Hj ⊂ S表示聚类,其中S是给定的对应关系集合{(ai, bi)},H_j表示与对象j(可能)相关联的对应关系。在每次迭代中更新所有对象j的聚类H_j,而不是更新指示向量θi。
初始化。 该算法以初始猜测的匹配关系H作为输入,其中对于每个对象j,H_j是与j相关联的对应关系的集合。接下来提供了初始化的条件,在这些条件下,EM算法收敛到地面实况。
EM算法。 算法的每次迭代执行一次E步和M步。在每次迭代r中,算法首先为每个聚类计算一个变换(第3行);这是使用Horn的方法在该聚类中给定测量值完成的。算法还为每个聚类计算了权重(量化聚类j的相对大小)和聚类内方差(第3-5行)。然后,E步根据加权似然度估计数据点$a_i, b_i)属于聚类j的后验概率:

似然度的第一项主要量化了变换与对应关系(b_i, a_i)的一致性;加权似然度还考虑了聚类大小(即权重)。第二项将远离聚类j(距离大于阈值)的点分配零似然度,其中dcluster避免了将可能有相同运动但彼此远离的对象聚类在一起。
M步通过将每个(b_i, a_i)分配给最大化W的聚类H_j来更新样本的分配。这个M步的特定变体称为"分类M步"。在执行M步之前,算法移除了过小的聚类(第12行)。算法几乎是无参数的,只需要设置距离阈值,超出该距离认为两个对象是不同的。特别是,加权似然度仅取决于阈值,不需要设置噪声边界。此外,聚类数K在迭代过程中估计,并且理想情况下会收敛到真实对象数M。
6. 实验结果
在无噪声情况下,SRANSAC和该方法都取得了完美的分数(即误差在数值上为零)。然而,在有噪声的实验中,该方法在各种指标上都优于其他方法。这是因为该方法在每次迭代时会自动调整噪声方差,并相应地计算似然函数。

在FlyingThings3D和KITTI数据集上于其他基线方法的比较。 如箱线图所示,该方法优于其他基线方法。该方法始终恢复对象聚类(具有最高的IoU),并且在所有指标上与不同类型的初始化方法都能很好地配合。

7. 总结
这篇文章研究了3D配准问题的变种,称为多模型3D注册,它同时恢复了点云中多个对象的运动。作者提出了一种基于期望最大化(EM)的简单方法,并建立了EM方案恢复真值的理论条件。在从桌面场景到大型自动驾驶场景的合成和实际数据集中评估了EM方案,并展示了其有效性。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
下载
在公众号「3D视觉工坊」后台,回复「 3dcv」,即可获取工业3D视觉、SLAM、自动驾驶、三维重建、事件相机、无人机等近千余篇最新顶会论文;巴塞罗那自治大学和慕尼黑工业大学3D视觉和视觉导航精品课件;相机标定、结构光、三维重建、SLAM,深度估计、模型部署、3D目标检测等学习资料。
3D视觉方向交流群成立啦
目前工坊已经建立了3D视觉方向多个社群,包括SLAM、工业3D视觉、自动驾驶、三维重建、无人机方向,细分群包括:
[工业3D视觉]相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
[SLAM]视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
[自动驾驶]深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
[三维重建]NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
[无人机]四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
大家可以添加小助理:dddvisiona,备注:加群+方向+学校|公司, 小助理会拉你入群。

— 完 —
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~