点击下方卡片,关注「3D视觉工坊」公众号
选择星标,干货第一时间送达
来源:3D视觉工坊
添加小助理:dddvision,备注:方向+学校/公司+昵称,拉你入群。文末附行业细分群
扫描下方二维码,加入3D视觉知识星球,星球内凝聚了众多3D视觉实战问题,以及各个模块的学习资料:近20门视频课程(星球成员免费学习)、最新顶会论文、计算机视觉书籍、优质3D视觉算法源码等。想要入门3D视觉、做项目、搞科研,欢迎扫码加入!

0. 这篇文章干了啥?
三维配准问题的目标是找到一个旋转和平移,以最佳方式对齐一组输入的三维点对。理想情况下,所有点对的对齐误差都很小,我们称它们为内点。在实践中,内点被其他点对(称为离群值)污染,这些离群值会导致显著的对齐误差。给定一组内点和离群值点对,离群值鲁棒的三维注册旨在通过一些旋转和平移对齐三维内点对。在本文中,我们通过所提出的方法(称为截断逐项绝对残差,TEAR)解决了具有极多离群值的三维注册问题。从数值上看,TEAR 可以处理超过 10^7 个点对,其中 99.8% 是随机离群值,这种情况下没有现有方法被证明成功:它们要么不可扩展,要么低效,要么不准确。
首先,观察到离群值鲁棒的三维注册问题可以分解为两个子问题:(1)如果离群值已知,可以通过奇异值分解(SVD)轻松估计旋转和平移;(2)如果已知真实的旋转和平移,可以轻松去除离群值。这些观察立即转化为一种高效的交替最小化方法,它是经典方法的核心,包括迭代最近点法、迭代加权最小二乘法和逐步非凸性方法。在非常普遍的条件下,这样的交替最小化方案被证明是收敛的,但如果离群值比例很高,它可能无法收敛到期望的解。RANSAC 方法的步骤如下:随机抽取最小数量的点对(通常为 3 对),计算将它们对齐的旋转和平移,测量所有点对的对齐误差,重复这些步骤直到达到终止条件,并输出给出最小对齐误差的旋转和平移。只要迭代中抽取的所有点对都是内点,RANSAC 就可以立即终止,并给出正确的估计,但随着离群值比例的增加,达到这种情况的概率会降低,这表明 RANSAC 或其变体在极多离群值存在时可能效率低下。或者,可以为离群值鲁棒注册制定一些非凸目标(例如一致性最大化),并通过分支定界算法求解。分支定界通过设计保证了全局最优性,因此在最近几年已经作为验证工具发挥了很好的作用。其效率取决于两个关键方面:搜索空间的维数和目标的界限。需要注意的是,需要减少搜索空间的维数或紧缩界限,否则随着问题规模的增大,分支定界可能很快变得棘手。最近设计良好的分支定界方法 TR-DE,处理 10^5 个点对需要超过 10^3 秒。与直接解决非凸鲁棒注册问题不同,可以考虑将其放宽为凸半定规划,通常可以在多项式时间内求解。虽然半定放松可能恢复原始非凸目标的解,但这种恢复属性可能会以工作中使用平方多个优化变量和约束的代价为代价,因此大量计算开销:即使给定了平移,现代最优求解器也需要超过 7 小时才能解决这样的半定规划并对齐 1000 个点对。
异常值去除方法包含一个for循环:对于每一对点,假设其是一个内点,然后可以推断哪些点对与这个假设相冲突。这样做可以移除一些点对,而且这是一种优点------保证要移除的点对是异常值。虽然异常值去除通常用作预处理步骤,以便促进后续的对齐,但是它通过消耗大量时间来实现这一点(比如,与变量维度呈指数关系或至少与点的数量呈二次关系);例如,在我们的笔记本电脑上,之前方法对于带有95%异常值的10^5对点需要超过2小时。
接下来我们要回顾的几种方法都依赖于所谓的一致性图,一种图,其中一个顶点表示一个点对,一条边表示两个一致的点对,这两个点对都可以是内点。一致性图早就有了使用,并且是许多最近的异常值鲁棒3D注册方法的基石。例如,使用一致性图,TEASER++方法经常计算一个包含大多数内点和少数异常值的最大团;SC2-PCR方法将一致性图推广为第二阶段版本,更具区分性,可以区分内点和异常值;MAC方法将最大团公式推广为计算最大团的方法。尽管这些方法已经确立了最先进的性能,但也带来了一个难题:计算一致性图需要与点对数量呈二次关系的内存,例如,对于30,000对点,这样做将占用标准笔记本电脑的全部16GB内存,这限制了所有这些方法的适用性到更大规模的鲁棒3D注册问题。
最近出现了许多深度学习方法来提取和匹配输入点云的特征,其中与我们最相关的是执行鲁棒3D注册的方法,如PointDSC和VBReg。PointDSC建立在一致性图的基础上,并且需要额外的存储空间来存储一个大型网络和每个3D点的高维特征(在前向传递期间临时存储)。VBReg建立在PointDSC之上,并使用一个可变解释的递归网络,但它继承了PointDSC的不可扩展性的缺点。
由于可扩展性一直是影响3D注册方法最近成功的一个痛点,为什么不简单地对大规模点云进行降采样,然后从那里进行注册呢?对于这个症结的答案是,降采样忽略了一些输入信息,否则可以利用,因此最终会影响性能。因此,这使得降采样成为一种权宜之计,最终需要开发可扩展且高效的配准方法。
下面一起来阅读一下这项工作~
1. 论文信息
标题:Scalable 3D Registration via Truncated Entry-wise Absolute Residuals
作者:Tianyu Huang, Liangzu Peng, René Vidal, Yun-Hui Liu
机构:香港中文大学、宾夕法尼亚大学
原文链接:https://arxiv.org/abs/2404.00915
代码链接:https://github.com/tyhuang98/TEAR-release
2. 摘要
给定一组3D点对,离群点鲁棒的3D配准的目标是计算一些旋转和平移,使尽可能多的点对对齐。这是计算机视觉中的一个重要问题,最近提出了许多高度准确的方法。尽管它们的性能令人印象深刻,但这些方法缺乏可伸缩性,通常会溢出标准笔记本电脑的16GB内存,以处理大约30,000个点对。在本文中,我们提出了一种可以处理超过一千万(10^7)个点对且具有超过99%随机离群值的3D配准方法。此外,我们的方法高效,内存成本低,并且同时保持高准确性。我们将我们的方法称为TEAR,因为它涉及最小化计算截断的逐项绝对残差的离群值鲁棒损失。为了最小化这个损失,我们将原始的6维问题分解为分别解决的维度为3和2的两个子问题,通过定制的分支限界方法实现全局最优。虽然分支限界通常很慢且不可扩展,但这不适用于TEAR,因为我们提出了紧密且计算效率高的新颖边界函数。在各种数据集上进行实验证明了我们方法的可伸缩性和效率。
3. 效果展示
TEAR(我们的方法)与之前的方法在随机、合成、噪声数据(20次试验)上进行比较。异常值比率设置为95%,所有提出的方法均找到准确的解决方案。图1a:TEAR比基于一致性图的方法,包括TEASER++,SC2-PCR,MAC,以及基于深度学习方法,包括PointDSC和VBReg,可扩展性高103倍。图1b:TEAR比最近的分支定界方法TR-DE快100倍。

TEAR可视化的流程。绿色(分别红色)值表示内点(分别外点)的数量,绿色(分别红色)线表示内点(分别外点)对。左上角:输入点对;右上角:通过解TEAR-1后由ˆI1(1)索引的点对;右下角:通过解TEAR-2后由ˆI2(2)索引的点对;左下角:最终输出。

4. 主要贡献
上面审查过的哪种方法可以用来设计一个可扩展的方法来注册具有极多离群值的一千万个点对?交替最小化和RANSAC在高离群值比率下被认为是脆弱的。半定规划求解代价高昂。离群值移除通常需要二次时间,构建一致性图进一步消耗二次存储,深度学习则需要更多内存。
为了设计一个可扩展的方法,我们提倡分支限界法。这可能会让人感到惊讶(如果不是怀疑的话):传统智慧认为分支限界是慢的,并导致指数级运行时间!与常识相反,图1表明我们提出的方法(TEAR)的运行时间几乎线性增长。我们通过修改问题求解流程,从问题的形式化到数学推导(上下界),进而到实现细节来实现这一点。
更具体地说,我们做出了以下贡献:
• (问题形式化)我们使用我们称之为TEAR的鲁棒损失来制定3D配准问题,它是Truncated Entry-wise Absolute Residuals的简称。TEAR在精神上类似于常见的鲁棒损失(例如,共识最大化,截断最小二乘),但它具有使得可以推导出更快的分支限界算法的微妙差异。此外,我们将TEAR分解为分别具有3维和2维的两个子问题,进一步促进了分支限界实现的发展。实际上,在高层面上,我们的方法非常简单:我们通过基本的分支限界模板依次解决两个子问题。
• (上下界)我们方法的关键部分在于推导出分支限界方法的紧密上下界,我们实现这一点的关键思想如下。例如,为了解决三维子问题,我们的实现搜索一个二维空间(而不是三维)。在这个实现中,我们推导出可以通过解决一个特定的一维问题在O(N logN)时间内计算的上下界,其中N是点对的总数。我们按照类似的路径解决另一个二维子问题以达到全局最优,为了简单起见,我们将最终的算法称为TEAR。通过数值比较,我们将展示使用TEAR作为鲁棒损失确保了界限比使用常用的共识最大化损失更紧密,并且它还确保了界限的计算比使用截断最小二乘损失更高效。
• (实验)我们对合成和真实数据进行了标准实验,显示TEAR在大多数情况下达到了最先进的精度,同时更有效。我们对大规模点云进行了实验,在极多随机离群值(99.8%)存在的情况下,展示了TEAR作为一种独特方法,可以处理一千万(10^7)个点对。
5. 实验结果
使用分支界限法解决 TEAR-1 和 CM-1 在随机、合成、嘈杂数据上的问题。TR-DE 是最近提出的一种分支界限方法。异常值比率为 95%。N = 10000。进行了 30 次试验。

使用分支定界法在随机、合成、噪声数据上解决 TEAR-1 和 TLS-1 问题。异常值比率:99%。30 次试验。


MAC经常耗尽内存并不太奇怪,因为除了一致性图之外,它还存储了所有的最大团。在理论上,在最坏的情况下,一个图可以有多达3N/3个最大团。在我们的实验中,表2中的MAC(Python)通常产生超过10^4个团,在表1中,MAC(C++)通常产生超过10^5个,或偶尔产生几百万个最大团(这两个表中的N = 5000)。TR-DE通常比TEAR慢,这再次验证了我们的设计和实现:尽管TRDE也是一种分支限界方法(类似于TEAR),但TEAR在真实数据上比TR-DE快多达70倍。其他方法在给定所需内存后表现得非常好可能已经成为文献中已知的知识(例如,TEASER++,PointDSC,SC2-PCR)。但当内存不足或遇到大量点云时,它们无法扩展的缺点会显现出来;总的来说,在三个标准数据集上,我们发现TEAR在配准精度上具有竞争力,而且比第二快的方法快几倍。



表4显示了一致性图方法和深度学习方法无法扩展,RANSAC和FGR在极端离群值比率下不准确,GORE和TR-DE效率低下。图6可视化了表4中亚洲龙和露西的结果,其中TEAR是唯一能够准确对齐大规模点云的方法。尽管点云降采样可以使其他方法得以应用,但我们对这些方法进行了这样的实验以与TEAR进行比较。特别是,我们从露西生成了10^7个点对,并将其降采样为104个点对,然后作为输入提供给其他方法。在图7中,这些方法的旋转误差很大(平移误差显示在附录中)。事实上,降采样会丢弃内点,使得后续的配准问题更具挑战性。事实上,在图7b的实验中,我们发现降采样后不仅内点总数不可避免地减少,而且离群值比率甚至可能从95%增长到平均98.17%。相比之下,由于TEAR能够处理原始点云,因此其错误率低于执行降采样的其他方法。



7. 总结 & 未来工作
在本文中,我们展示了TEAR建立在分支限界的简单原理上,与最先进的方法在准确性上处于同一水平,与其他较慢的分支限界方法形成对比,并作为一种可扩展的异常值鲁棒3D配准方法脱颖而出。
我们发现展示分支限界的案例非常令人兴奋,这种技术以其全局最优保证而闻名,并因其速度慢而臭名昭著,实际上在异常值鲁棒的3D配准中竞争力十足。实现这一目标的关键思想包括使用截断的逐条绝对残差(TEAR)作为鲁棒损失,基于TEAR导出紧密的上下界,以及工程化有效的实现。我们期待将这些思想扩展到其他几何视觉问题,例如绝对姿态估计(2D-3D配准)。
对更多实验结果和文章细节感兴趣的读者,可以阅读一下论文原文~
本文仅做学术分享,如有侵权,请联系删文。
3D视觉工坊交流群
目前我们已经建立了3D视觉方向多个社群,包括2D计算机视觉、大模型、工业3D视觉、SLAM、自动驾驶、三维重建、无人机等方向,细分群包括:
2D计算机视觉:图像分类/分割、目标/检测、医学影像、GAN、OCR、2D缺陷检测、遥感测绘、超分辨率、人脸检测、行为识别、模型量化剪枝、迁移学习、人体姿态估计等
大模型:NLP、CV、ASR、生成对抗大模型、强化学习大模型、对话大模型等
工业3D视觉:相机标定、立体匹配、三维点云、结构光、机械臂抓取、缺陷检测、6D位姿估计、相位偏折术、Halcon、摄影测量、阵列相机、光度立体视觉等。
SLAM:视觉SLAM、激光SLAM、语义SLAM、滤波算法、多传感器融合、多传感器标定、动态SLAM、MOT SLAM、NeRF SLAM、机器人导航等。
自动驾驶:深度估计、Transformer、毫米波|激光雷达|视觉摄像头传感器、多传感器标定、多传感器融合、自动驾驶综合群等、3D目标检测、路径规划、轨迹预测、3D点云分割、模型部署、车道线检测、Occupancy、目标跟踪等。
三维重建:3DGS、NeRF、多视图几何、OpenMVS、MVSNet、colmap、纹理贴图等
无人机:四旋翼建模、无人机飞控等
除了这些,还有求职、硬件选型、视觉产品落地、最新论文、3D视觉最新产品、3D视觉行业新闻等交流群
添加小助理: dddvision,备注:研究方向+学校/公司+昵称(如3D点云+清华+小草莓), 拉你入群。

3D视觉工坊知识星球
3D视觉从入门到精通知识星球、国内成立最早、6000+成员交流学习。包括:星球视频课程近20门(价值超6000)、项目对接、3D视觉学习路线总结、最新顶会论文&代码、3D视觉行业最新模组、3D视觉优质源码汇总、书籍推荐、编程基础&学习工具、实战项目&作业、求职招聘&面经&面试题等等。欢迎加入3D视觉从入门到精通知识星球,一起学习进步。

3DGS、NeRF、结构光、相位偏折术、机械臂抓取、点云实战、Open3D、缺陷检测、BEV感知、Occupancy、Transformer、模型部署、3D目标检测、深度估计、多传感器标定、规划与控制、无人机仿真、三维视觉C++、三维视觉python、dToF、相机标定、ROS2、机器人控制规划、LeGo-LAOM、多模态融合SLAM、LOAM-SLAM、室内室外SLAM、VINS-Fusion、ORB-SLAM3、MVSNet三维重建、colmap、线面结构光、硬件结构光扫描仪,无人机等。

3D视觉相关硬件
图片 | 说明 | 名称 |
---|---|---|
![]() | 硬件+源码+视频教程 | 精迅V1(科研级))单目/双目3D结构光扫描仪 |
![]() | 硬件+源码+视频教程 | 深迅V13D线结构光三维扫描仪 |
![]() | 硬件+源码+视频教程 | 御风250无人机(基于PX4) |
![]() | 硬件+源码 | 工坊智能ROS小车 |
![]() | 配套标定源码 | 高精度标定板(玻璃or大理石) |
添加微信:cv3d007或者QYong2014 咨询更多 |
点这里👇关注我,记得标星哦~
一键三连「分享」、「点赞」和「在看」
3D视觉科技前沿进展日日相见 ~