充分发挥大模型潜力!同济MIAS-LCEC:激光相机在线标定新SOTA

作者 | Zhiwei Huang  编辑 | 3D视觉之心

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心传感器标定技术交流群

本文只做学术分享,如有侵权,联系删文

在线标定的难点

现有的激光雷达和相机间外参标定(LiDAR-Camera Extrinsic Calibration, LCEC)方法主要分为基于目标无目标两类,取决于算法是否需要来自RGB图像和LiDAR点云的预定义特征:

  • 基于目标的方法:最先进的LCEC方法通常是离线的,依赖于定制的标定目标(通常是棋盘格),这些目标可以提供明确、可识别的特征,可以在LiDAR和相机数据中轻松识别。但是,对定制目标的依赖和额外设置的需求使其在机器人在动态变化的环境中操作时显得不切实际。

  • 无目标的方法:主要有基于线/边缘特征的方法(通过在LiDAR点云和RGB图像中提取线或边缘特征,并匹配这些跨模态的边缘特征来确定两个传感器之间的相对位姿)、基于点特征的方法(依赖于2D图像像素和3D LiDAR点在强度或深度上的显著变化进行特征匹配)、基于语义特征的方法(利用深度学习从RGB图像和LiDAR点云中提取语义特征进行匹配,如车辆、车道、杆和停车标志等)、基于深度学习的端到端方法(深度神经网络进行端到端的特征提取和外参参数估计)。无目标的优点是环境适应性强、灵活性高、自动化程度高;缺点也很明显:特征依赖性强、鲁棒性不足、匹配困难、视场对齐问题、语义一致性问题等。

9078940f5565cce01a55e233432af5e7.png

为了解决以上问题,MIAS-LCEC[1]充分发挥最先进的图像分割LVM MobileSAM[2]的潜力,采用了一种新颖的粗到细策略,以精确估计LiDAR-相机外参参数。整体思路为:

  1. 引入了虚拟相机,通过迭代姿态更新来投影给定的LiDAR点云,生成一个LiDAR强度投影(LIP)图像。

  2. 将LIP和RGB图像均使用MobileSAM进行分割。

  3. 然后,这些分割结果通过一种新颖的跨模态掩码匹配(C3M)算法进行处理,能够生成稀疏但可靠的匹配,并传播到目标掩码进行密集匹配。

  4. 最后PnP求解外参矩阵。

LCEC提供一个多功能的工具箱,带有交互式可视化界面,能够进行在线、无目标标定、离线、基于目标的标定和手动标定

标定方法

算法整体概览

如图2所示,MIAS-LCEC采用了一种新颖的粗到细流程。一个虚拟相机将LiDAR点强度投影到相机视角。然后,利用MobileSAM(一种最先进的图像分割大视觉模型)处理生成的LIP图像和RGB图像。通过C3M策略识别出的足够且可靠的对应关系被用作PnP求解器的输入,以估计外参矩阵。

3e4b3bc7f1478a114a11026907cea53a.png

先前的研究通常将虚拟相机设置为具有如下LiDAR相对变换的形式:

4210ef886e71781db20b3ec1e7ef749e.png

从而生成一个LIP图像 ,将LCEC问题表述为一个2D特征匹配问题,其中  和  分别表示其高度和宽度。考虑到不同视角引入的图像失真,(3)式约束了传感器的相对变换设置。因此通过迭代优化虚拟相机的姿态,直到LIP图像与从实际相机视角拍摄的图像相似。该迭代过程可以表示为:

ff2eca0fba1a2829f4ac2837f79fdf22.png

其中,下标  表示第  次迭代, 代表从LiDAR到虚拟相机的变换, 表示单位矩阵。

通过在每次迭代中捕获的LIP图像以及C3M方法,可以生成两个集合  和 ,分别存储由相机捕获的RGB图像中的2D像素和对应的3D LiDAR点。通过最小化平均重投影误差,可以有效地计算出外参矩阵 :

e09211e71e3c2176fdc9d230befc8cfa.png

其中, 表示通过选择子集对应关系从集合  和  得到的第  个PnP解, 表示相对于  的平均重投影误差。

MIAS-LCEC算法通过  更新 。根据 (4),当迭代过程收敛时,,从而最大程度地减少标定误差。在实际应用中,为了优化精度和效率之间的权衡,当  时终止迭代过程,并选择第  次迭代中的  作为最终标定结果,即 。

跨模态掩码匹配

采用两阶段策略来实现跨模态掩码匹配,如算法1所述。每个阶段都包括顺序的粗略实例匹配和细粒度的角点匹配。

  • 第一阶段生成可靠但稀疏的匹配,从中推导出仿射变换的参数,用于更新LIP图像中的掩码。

  • 在第二阶段,通过将获得的可靠参考匹配传播到目标掩码,实现稠密掩码匹配。这些稠密匹配最终用作PnP求解器的输入,以获得外参矩阵 ¥C_{LT}¥。

30d3968cf827ca0640f372f0bdf107d0.png

使用MobileSAM在LIP图像和RGB图像中检测到的掩码轮廓上的角点分别表示为两个集合: 和 。一个用于精确拟合每个掩码的实例(边界框)中心位于 ,尺寸为  像素。为了确定最佳实例匹配,构造了一个成本矩阵 ,其中元素在  处,即:

9f41d39eea9d59e2ab2449015b95f761.png

表示从LIP图像中的第 (i) 个实例到RGB图像中的第 (j) 个实例的匹配成本。(o_V) 在稀疏匹配阶段初始设置为 (o_V),并在稠密匹配阶段使用上述仿射变换更新,以最小化由不同视角引起的差异。横向和纵向方向上具有最低成本的匹配被确定为最佳粗略实例匹配。

随后,我们在匹配的实例内确定角点对应关系。类似地,构造一个成本矩阵 (M^C),其中元素在 (y = [r, s]^T) 处,即:

d52403a0e7a94ae7c696d0f1d60b1011.png

表示LIP图像中某个掩码的第  个角点与RGB图像中某个掩码的第  个角点之间的匹配成本。 在稀疏匹配阶段初始设置为 ,并在稠密匹配阶段使用相同的仿射变换更新。横向和纵向方向上具有最低成本的对应关系也被确定为最佳角点匹配结果。然而,第一阶段是相当关键的,往往无法为PnP求解器提供足够的输入。

e47d80a60e416f3e482f4c12132687b0.png

因此对LIP图像中的掩码应用仿射变换来调整  和 :

003e7a08828f2ce6c88f621be241cbab.png

其中, 表示旋转矩阵, 表示平移向量, 表示缩放因子。由于设计的稀疏匹配策略的关键性,可以假设在仿射变换后,LIP图像中给定掩码内的任何点与RGB图像中对应的点完全对齐,因此  和 。在这种情况下,可以使用以下表达式获得 :

bb5b321b818eff7d935d64b2c8232181.png

其中

dda0430c7b9b279fcd3e1904443c0433.png

是从掩码中心指向其各自匹配角点的向量之间的角度。然后可以得到 :

a1374a7314a46b8620716ae5eeeda239.png

表示RGB图像和LIP图像相关边界框区域之间的比例。最后,根据(8),可以得到 :

4d27a9030aca22669db423e585ee8d6e.png

这一阶段的稀疏匹配结果提供了PnP所需的足够输入。

假设在虚拟相机坐标系中有两个3D LiDAR点 (参考点)和 (目标点),它们在实际相机坐标系中的对应点  和  可以通过以下变换来建立:

19df431e6694d5efd74e7832d858f1f0.png

在LIP图像和RGB图像中的2D像素坐标  和  可以通过以下表达式得到:

4a44752adfd9941a48acd941b6ee9204.png

其中, 和  表示  和  的齐次坐标, 表示  的z坐标, 表示  的z坐标。

将上述公式代入,可以得到从  到  的仿射变换:

bd5087ef4ff4ea265a76a51badb4f1d3.png

其中  和  分别表示从  到  的仿射变换。

同理,对于目标点  和参考点  可以得到:

5b477ef112f51de43f3fe4c2c42ffa72.png

将(15)带入(17):

300f720d93d3c2584b95e6f3c4ca4f4c.png

当  和  深度相近时,即 ,上述表达式可以简化为:

24141b9b9e7f6d48cdb8d68ca5fff3b1.png

这表明当  和  在深度上接近时, 和  可以共享相同的仿射变换。在实际应用中,使用以下仿射变换来近似目标掩码的变换:

bbf6ec0d9170a865aed1ae62f6cd51f5.png

其中, 和  分别表示从参考掩码到目标掩码的缩放、旋转和平移变换。

实验对比

32a35a1043b63eb2443f70ccd9227919.png c2b96754527dc6207cfd8e517c122466.png 602b7252779559db8e40f507366b4473.png 1e4e68883d327a4a5fca7d3803e3228b.png a7214c60182f65518d6d2c73a5c12e9d.png 3e6a64b32be0aa53b43d278ea4ab6e26.jpeg fe9c5adbf5d7ddcceee95a17a18e0bda.png 7e23c3b8d300e7f9b0e8b4d113160b8e.png d86bfd5c69d45a8429b1d80d77aeaa67.png

总结一下

MIAS-LCEC是一种基于最先进的大视觉模型开发的全在线、无目标的LiDAR-相机外参标定方法。与现有技术相比,本方法在跨模态特征匹配方面更具能力,并且优于现有的最先进算法。作者设计了一个带有交互式可视化界面的标定工具箱。在三个真实世界数据集上进行了大量实验,全面评估了MIAS-LCEC的性能。效果表明:

  1. MIAS-LCEC无需任何目标即可实现鲁棒且精确的LiDAR-相机外参标定

  2. 通过引入带有迭代姿态更新的虚拟相机生成更精确的LiDAR强度投影,表现出对各种挑战场景的高度适应性

  3. 最先进的图像分割LVM成功应用于该特定任务,通过检测不同模态下的可区分和可匹配的掩码。

缺陷是实时性能仍需改进。

参考

[1] Online, Target-Free LiDAR–Camera Extrinsic Calibration via Cross-Modal Mask Matching

[2] Faster Segment Anything: Towards lightweight sam for mobile applications

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

3c804ee99ccc1b4d73e3c39a8f4eb163.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

c6045d179849971583cd6b38303e8909.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

1b171b17b4d25cc498d74ab1ab2cb980.jpeg

④【自动驾驶之心】全平台矩阵

f4294b96d30162583a41cd99dc40dc13.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值