《论文阅读06》Calib-Anything: Zero-training LiDAR-Camera Extrinsic CalibrationMethod Using SAM

一、论文


  • 研究领域:激光雷达-相机标定
  • 论文:Calib-Anything: Zero-training LiDAR-Camera Extrinsic Calibration Method Using Segment Anything 
  • 5 Jun 2023
  • Computer Vision and Pattern Recognition (cs.CV); Robotics (cs.RO)
  • 笔记链接
  • 论文链接

二、论文概要

 

三、全文翻译

Calib-Anything:零训练LiDAR相机外定标方法

  • 摘要

  光探测和测距(LiDAR)与相机之间的外部标定研究正在向更精确、自动和通用的方向发展。由于在校准中采用了深度学习,因此大大减少了对场景的限制。然而,数据驱动的方法具有可移植性低的缺点。它不能适应数据集的变化,除非进行额外的训练。随着基础模型的出现,这个问题可以大大缓解。通过使用段任何模型(SAM),我们提出了一种新的激光雷达相机校准方法,它需要零额外的训练,并适应常见的场景。在初始猜测的情况下,我们通过最大化每个图像掩模内投影的点的一致性来优化外部参数。一致性包括点云的三个属性:从一些分割方法得到的强度、法向量和类别。在不同数据集上的实验证明了该方法的通用性和相当的准确性。该代码可在www.example.com上获得https://github.com/OpenCalib/CalibAnything。

最大化每个图像掩模内投影的点的一致性来优化外部参数

  • 引言

  相机和激光雷达是自动驾驶汽车中使用的两种主要类型的传感器。这两个传感器的互补性使它们在许多感知任务中成为有利的组合,例如深度完成[1],对象检测[2]和对象跟踪[3]。

通过标定得到激光雷达坐标系到相机坐标系的外参[R,t]。当相机和激光经过联合标定后,可以将激光雷达的测量值准确地投影到相机图像中,从而实现激光点与三通道颜色信息的关联。相反,相机图像中的像素可以通过查询最近的激光得到深度值[参考]

为了融合这两个传感器的数据,校准是必不可少的时间同步和空间对准。在这里,我们专注于外部校准,这是获得相机坐标系和LiDAR坐标系之间的转换矩阵,包括旋转和平移。外参数的准确性从根本上限制了数据融合的结果。因此,已经做出了很多努力来从不同的角度处理这个问题。

  早期的方法使用具有容易检测的特殊图案的人造目标[4]-[8]。它可以以降低灵活性为代价实现高精度。由于在日常使用中外部参数的轻微漂移,需要一种更无条件和自动化的方法进行重新校准。为此,一些方法利用自然场景中的几何特征,例如线[9]-[11]和消失点(VP)[12],[13],这些特征通常存在于结构化场景中。为了进一步消除场景的约束,基于学习的方法在大规模数据集的帮助下占据了舞台。它适应于一般场景,并实现了较高的精度。然而,简单的监督网络[14]泛化能力弱,可解释性差。尽管添加了几何约束[15]-[17],但它仍然需要一个大的标记良好的数据集,并且在数据集变化下,精度下降。

  随着地基模型的出现,这些问题可以得到明显的缓解。最近发布的Segment Anything Model(SAM)[18]是图像分割的基础模型,展示了令人印象深刻的零拍摄能力,受益于大量的训练数据。考虑到在校准中使用分割[19],[20],我们提出了一种用于LiDAR相机校准的新方法,而不需要额外的训练或域自适应。

  • 早期的方法:使用具有容易检测的特殊图案的人造目标,以降低灵活性为代价实现高精度;
  • 利用自然场景中的几何特征,例如线[9]-[11]和消失点(VP)[12],[13],这些特征通常存在于结构化场景中,受到场景的约束;
  • 消除场景的约束,基于学习的方法在大规模数据集的帮助下占据了舞台

  我们首先使用SAM对整个图像进行语义分割,并得到一组掩码。该算法不需要在点云和模板之间建立明确的对应关系,而是计算模板内部点云属性的一致性,包括点云的强度、法向量和分割类别。如图1所示,在正确的外部条件下,汽车掩模内部的点的强度具有较高的一致性。对于法向量,平面遮罩上的点应具有一致的法向。通过平面拟合和欧几里德聚类简单地得到点云的分割类。像车辆和树干这样的对象将被聚类到一个类,因此在掩码上也具有一致性。我们用这三个属性计算每个掩码的一致性得分。通过给出初始外部,我们可以通过最大化所有掩码的总得分来优化它。

 图1.点云投影到汽车的掩模上的右外部(a)和误差外部(b)。点的颜色表示强度值。

  • 首先使用SAM对整个图像进行语义分割,并得到一组掩码;
  • 通过平面拟合和欧几里德聚类简单地得到点云的分割类
  • 用这三个属性计算每个掩码的一致性得分
  • 通过给出初始外部, 通过最大化所有掩码的总得分来优化它

PS:该算法不需要在点云和模板之间建立明确的对应关系,而是计算模板内部点云属性的一致性(点云的强度、法向量和分割类别)。

  与传统方法[21]相比,只要存在正交关系,我们的方法对场景具有更高的适应性。与基于学习的方法[17]相比,我们不需要在大型标记良好的数据集上进行额外的训练。与其他基于分割的方法[19],[22]相比,我们避免了在图像片段和点云之间找到确定的对应关系,这总是模糊的或只能在特定类型的对象中捕获。在不同数据集上的实验证明了该方法的通用性和相当的准确性。

这项工作的贡献如下: 

1)我们提出了一种新的自动激光雷达相机外部校准方法,使用SAM和点云一致性,需要零额外的训练。

2)外参数的优化准则是掩模上点云的强度、法向量和分割类别的一致性,使得我们的方法适用于大多数场景。

3)我们验证我们的方法在几个数据集上,以证明其通用性和可比的准确性。

  • 相关工作

  通常,激光雷达与相机之间的标定方法可以分为基于目标和无目标两类。在这里,我们更多地关注不需要目标的方法,这些方法只需要很少的手动工作。传统的方法包括使用几何特征,如线,最大化互信息和自我运动估计。通过利用大规模数据集,基于学习的方法被开发以提供具有小场景要求的相当准确的校准结果,大致分为回归和分割类型。

A 基于目标的方法

  这类方法需要人工目标,这些目标在颜色、形状和反射率上总是与众不同的,以便于在图像和点云中提取特征。目标的主流是其上具有特定图案的矩形板,例如棋盘[4]、圆形网格[23]和Apriltag [6]。由于矩形的水平边缘可能不与LiDAR扫描相交,因此还提出了其他形状的对象,例如球体[24],多边形板[25]。通过在点-点或点-平面之间建立强对应关系,这种类型的方法通常实现高精度,但需要低或高级别的人工干预。

B 无目标方法

  一些方法不需要定制目标,而是在自然场景中寻找几何特征。最常用的特征是线或边。一般有两个步骤。首先,通过边缘检测器[10]或分割[21]检测图像中的线。点云中的线主要通过距离不连续性[10],[11]和强度差[21]获得。然后根据其位置[10]、强度和影响范围[9]对齐线之间的多对多对应关系。除了直线特征,[12],[13]使用消失点来估计旋转矩阵。场景中至少需要两个VP。

  为了减少对场景的依赖,一些方法利用互信息来测量多模态配准,包括梯度[26],点云的强度和图像的灰度值[27],[28]。虽然上述方法需要相互可见的区域,但基于运动的方法分别估计每个传感器的自我运动,并通过手眼模型[29]或最小化投影误差[30]来解决外部问题。标定的精度基本上受视觉测距和LiDAR测距结果的限制。

C 最大值基于学习的方法

  基于学习的方法的简单范例是使用端到端网络来估计具有RGB图像和深度图像的输入的外部参数。RegNet [14]首先引入卷积神经网络(CNN)来回归6 DoF参数。为了提高模型的泛化能力,在损失函数中加入了几何约束。CalibNet [15]通过最大化图像和点云的几何和光度一致性来训练其网络。RGGNet [16]考虑了黎曼几何并利用了深度生成模型。LCCNet [17]利用成本体积层进行特征匹配,并预测从初始校准到地面实况的未校准偏差。

  尽管有端到端网络,但基于学习的分割被用作管道的一部分。[22]分别对图像和点云进行语义分割,然后在二维和三维点上匹配一类物体的质心。由于点云的稀疏性,[19]将多帧LiDAR数据组合在一起,需要高精度的定位设备。由于点云分割的困难,一些方法只对图像进行分割。[31]通过最大化点云落在图像中分割的前景区域上的数量来校准外部。[20]使用实例分割来获得对象边缘,并通过深度不连续性来定义损失函数。这些方法的一个问题是,网络只能预测特定类别的对象,建立有限的对应关系。此外,基于学习的方法的一个常见问题是对数据集变化的不适应性。

  • 方法论

A 方法概述

整个过程可以分为三个部分。

对于图像分割,我们使用SAM来生成整个图像的掩模。

对于点云,我们实现了正常的估计,简单的分割方法和强度归一化,以产生相应的每个点的属性。

优化目标是使落在同一个蒙版上的点具有相近的属性值。我们设计了一个评分函数来评价一致性。执行若干轮搜索以获得最终结果。图2显示了我们提出的方法的流水线。

图2.方法概述。对于图像,分段任意模型用于生成整个图像的遮罩。对于点云,我们实现了正常的估计,简单的分割方法和强度归一化,以产生相应的每个点的属性。在优化阶段,点云投影到掩模的外部。我们设计了一个损失函数,该函数由掩模区域内的点的属性一致性决定。

B 数据预处理

1> 数据预处理

SAM首先应用于整个图像,以获得多个不同对象的掩模。由于我们使用点云的一致性,因此我们希望分割更加细粒度和详细。因此,我们调整SAM的超参数,以获得具有较少重叠区域的更多掩模。掩模被注释为M = {Mi| i = 0,1,…N}。每个掩模都是与图像大小相同的二进制矩阵

值Mi(u,v)= {0,1}表示像素(u,v)是否属于片段i。

2> 点云预处理

  预处理有三个部分:正常估计、强度归一化和分割。

  对于正态估计,有许多方法[32],[33]可以直接使用。在这里,我们选择一个简单的,足以为我们的应用程序。曲面上一点的法线方向近似为与曲面相切的平面的法线。平面法线可以通过分析特征向量和特征值或从查询点的多个最近邻居创建的协方差矩阵的主成分分析(PCA)来估计。K-d树数据结构用于高效的k-最近邻(KNN)搜索。

  在点云强度范围根据LiDAR类型而不同的情况下,通过比例因子对点云的强度进行归一化,以用于随后的一致性计算。

  除了这两个属性,我们进行简单的分割方法的点云。我们首先应用RANSAC算法的平面拟合提取场景中的大平面,如地面和墙壁。然后,我们将一些欧几里得聚类[32]应用于剩余的点云,并获得车辆和树木等单个对象的聚类。我们给点赋一个数c,表示它属于哪一类。

点云中的点的最终属性可以表示为:

 其是点P的位置、法向量、反射率和分割类别。

C 外部优化

1)一致性功能:

点P可以通过初始外部T投影到图像帧:

 然后对于每个掩码Mi,我们可以得到在其上的一组点:

 测量点集Pi的一致性的分数可以计算为

反射率一致性仅通过所有值的标准偏差(std)计算:

 设矩阵A(3×n)由Pi中的法向量组成。一致性函数FN表示为:

 它是所有向量的成对点积的平均值。

对于分割类,首先对每个类别的点进行计数,并从最大到最小进行排序。这表示为(c0,c1,...),其中ci是第i个最大类中的点数。一致性是所有类的加权和:

 其中k是比例因子,在实践中使用k = 0.4。

调整函数用于补偿由较大点数引起的一致性损失。其表示为:

 其中n是Pi中的点数。k1和k2根据经验被设置为1.5和-0.4。函数曲线如图3所示。具有少量点的集合将被较低的系数惩罚。

 最终一致性得分是所有掩码的得分的加权平均值:

根据投影在掩模上的点的数量来设置每个掩模的权重。

2)外部搜索:

  对于每个外部,我们可以计算一致性分数来评估图像和点云之间的对齐。然后,我们可以搜索最好的外部与它的初始猜测。有两个步骤:首先,我们使用大步幅的蛮力搜索,仅校准其旋转。然后,我们在较小的范围内应用随机搜索来细化旋转和平移。

  因为平移误差通常很小,对投影的影响很小,所以我们只在蛮力搜索阶段改变旋转。对于初始猜测Tinit,我们首先计算其得分sinit。然后,我们在初始值附近的[−A,A]度范围内均匀采样3个DoF旋转参数的增量,步长为s。如果达到更高的分数,则将更新外部。在细化阶段,6自由度外部参数的增量在较小范围内以固定次数随机采样。

计算一致性分数来评估图像和点云之间的对:

  • 首先,使用大步幅的蛮力搜索,仅校准其旋转
  • 然后,在较小的范围内应用随机搜索来细化旋转和平移

  • 实验

A:实验设置

我们在两个数据集上进行了实验。第一个基于KITTI里程计基准[34]。第二个是我们自己的数据集,由HESAI Pandar64 LiDAR和彩色相机(FOV=60°)收集。

B. 定性结果

在这一部分中,我们可视化的投影之前和之后的校准定性地显示我们的方法的效果。

给定一个误差约为5度的初始外部参数,该算法可以将其校正回正确的投影,如图4所示。

C 定量结果

我们比较我们的方法与其他基于分割的方法在L2损失和Huber损失的度量的准确性。L2损失是平移Δ t和旋转Δ α的位移误差向量的平均向量范数。Huber损失[35]对离群值不太敏感。

  •  结论

总之,我们提出了一种新的激光雷达相机校准方法,使用段任何和点云一致性。我们的方法可以适应基础设施场景,而不需要在标记良好的数据集上进行额外的训练。在未来,我们将在更多的数据集上进行实验,以证明我们的方法的通用性。其他方法的定量实验也将实施,以证明我们的可比精度。由于外部参数的真实值也可能有误差,我们将进一步使用估计的稳定性作为另一个评估度量。

  • 2
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值