港中文再创SOTA！DV-3DLane：多模态端到端车道检测新框架（ ICLR'24）

最新推荐文章于 2025-04-06 10:32:41 发布

自动驾驶之心

最新推荐文章于 2025-04-06 10:32:41 发布

阅读量1k

点赞数 25

文章标签： 3d

本文链接：https://blog.csdn.net/CV_Autobot/article/details/140148078

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心为大家分享港中文最新车道线检测的工作—DV-3DLane！全新端到端多模态3D车道线检测框架，性能拉满！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『车道线检测』技术交流群

论文作者 | Yueru Luo等

编辑 | 自动驾驶之心

车道线检测新SOTA！DV-3DLane：基于多模态端到端车道线检测新框架！

写在前面&笔者的个人理解

近年来，自动驾驶感知算法取得了非常显著的成绩。感知模块作为自动驾驶系统用于观察周围环境最为重要的途径之一，已经吸引了来自工业界和学术界的广泛关注。在感知模块当中，3D车道线的检测是其中非常关键的任务之一，是确保安全可靠导航的关键要素。由于3D车道线检测需要识别环境中车道线边界的3D空间位置，可以为路径规划和车辆控制等任务提供重要数据。

当前主流的3D车道线检测任务主要是采用视觉图像作为输入。其中一种典型的代表即单目的解决方案。这类单目的解决方案以单张彩色图像作为输入，利用IPM变换将二维的图像特征投影到BEV空间中。但由于IPM是基于平坦假设理论，所以基于此类的方法在遇到非平坦路面时会出现匹配错位的问题。此外，由于以视觉为输入数据的车道线检测算法在遇到恶劣的天气和光照条件下，不可避免的会出现感知现实世界驾驶场景的复杂性和困难性。

与采集图像数据的相机传感器相比，激光雷达传感器由于采集物体的点云数据信息，在空间定位和3D结构感知方面表现的更加出色，补充了相机传感器缺少的深度等信息，并且由于硬件的先进性而得到了工业界和学术界的广泛青睐。此外，最近在3D目标检测任务开展的一系列工作已经证明了激光雷达传感器和多模态融合在自动驾驶感知任务中展现出了广泛的发展前景。

考虑到采集到的图像数据中包含丰富的语义信息，以及BEV空间表示可以提供准确的空间位置信息，我们利用多模态融合的方法来提高3D车道线的检测性能。具体而言，我们同时参考来自PV空间和BEV空间的特征表达结果，进而提高模型的学习表示，提出了一种新颖的端到端多模态3D车道线检测框架，称之为DV-3DLane算法模型。提出的算法模型在OpenLane数据集上实现了SOTA的检测性能，分数提升了，错误率降低了。

提出的DV-Lane算法模型与其它算法模型的精度和推理耗时对比

论文链接：https://arxiv.org/pdf/2406.16072

网络模型的整体架构&细节梳理

在详细介绍本文提出的基于多模态的端到端3D车道线检测算法模型DV-3DLane之前，下图展示了我们提出的DV-3DLane算法的整体网络结构。

DV-3DLane算法模型的整体网络结构图

通过上述的网络结构可以看出，我们为了实现保持PV空间和BEV空间的双视角空间的特征表示，我们采用了由PV分支和BEV分支组成的对称主干网络分别用于提取PV空间和BEV空间的特征信息。此外，为了充分利用图像特征信息与点云特征信息各自的优势可以在PV和BEV空间进行充分的学习，我们设计了一种双向特征融合策略（Bidirectional Feature Fusion）。然后，为了有效地利用保留的双视图特征进行基于查询的检测，我们设计了统一查询生成器（Unified Query Generator）。此外，为了实现双视角查询过程的统一，我们提出了一种以车道线为中心的聚合技术。同时，我们使用了Transformer解码器将来自两个视角空间的特征集成到统一的查询中。而且，为了在不同的视角空间中有效聚合特征，我们引入了一种3D双视角可变形注意力机制（3D Dual-View Deformable Attention），将对应的参考点投影到PV和BEV两类视图平面上，从而在每个相应视图空间中产生2D采样点，用于完成在各类视图空间上的特征采样。

接下来我们将详细介绍上述提到的各类关键模块的实现细节

双向特征融合模块（Bidirection Feature Fusion）

考虑到2D图像当中包含有丰富的语义信息以及点云数据中包含丰富的几何结构信息，代替将不同视角的特征信息全部融合到单独的一个视角空间中，我们同时保留了PV和BEV空间中的特征信息，同时为每个视角空间合并多模态的特征信息。具体而言，我们采用了PV和BEV双分支来提取每个视图的特征，然后在对称分支中进行双向的特征融合用于增强每个视角空间的多模态特征，其处理流程如下图所示。

双向特征融合模块实现流程图

在双向特征融合模块当中，先分别利用点云和图像主干网络分别提取两类模态的特征信息。在获得每个分支内的低级特征后，我们进行双向的特征融合过程。通过把3D点投影到PV空间上，获得了在PV空间的2D坐标。

对于点云信息向像素信息的融合过程：我们采用了Scatter操作去构建稠密的点云特征网格，其中上图中的蓝色点代表3D空间点投影到PV空间上的对应位置
对于像素信息向点云信息的融合过程：我们采用双线性插值来对三维点投影所对应的二维位置的特征进行采样，我们记作

最后，在PV和BEV空间中跨模态的特征和他们各自原始模态的特征进行通道维度的合并。每个视角空间中多模态的特征被送入到相应分支中随后的模块里，用于生成最终的多模态特征以及，整个过程的算法流程如下所示。

双向特征融合策略的逻辑流程图

统一查询生成器（Unified Query Generator）

在这一部分中，我们引入了一个用于端到端3D车道线检测的统一查询生成器。具体而言，我们首先从之前获得的多模态特征和生成两类不同的车道线查询集合，称为双视图查询。然后，我们提出一种以车道为中心的聚合策略，将这些双视图查询统一为一组有凝聚力的查询。

双视图查询生成（Dual-view Query Generation）

为了有效捕捉与车道线相关的语义和空间特征，我们采用实例激活图在PV和BEV空间中生成车道线查询。这里，我们以PV分支为例，通过如下的公式我们生成一组实例激活图集合：

其中，代表sigmoid激活函数，Concat代表通道合并操作，代表包含每个像素的双通道空间定位特征。由实例激活图辅助的车道线感知查询通过以下方式生成：

类似的，车道线感知查询可以通过下式获得：

为了强制查询集学习车道感知特征，在训练期间，我们在查询集之上为每个分支使用辅助实例分割。辅助分割的标签是为这两个分支成对生成的，然后使用基于掩码的二分匹配进一步分配给预测，其整体流程如下图所示。

一对一匹配和车道中心聚类流程图

双视图查询聚合（Dual-view Query Clustering）

给定双视图查询集合以及，我们采用一种以车道线为中心的聚合技术来生成一组统一的查询集合用于实现端到端的车道线检测。具体而言，我们的方法侧重于统一来自不同视角的查询。来自以及的针对同一个车道线的查询将合并到同一个聚类当中。具体而言，我们初始化车道线聚类中心，并且分配每一个在中的查询到它最近的聚类中心。需要注意的是，聚类中心可以从以及中进行选择。为了实现聚类，我们采用了来自和的注意力，同时沿着聚类中心的维度利用argmax来计算：

其中代表来自双视角的更新的中心统一查询。

考虑到车道的变化和细长性，我们采用了精修的点查询方案来增强车道线的检测性能。我们不再对每条车道使用单个查询，而是使用多个点查询来更精确地捕捉车道线信息。

查询聚合监督（Supervision on Query Clustering）

由于考虑到深度监督对于聚类的重要性，我们使用了InfoNCE Loss损失以车道为中心的方式监督查询聚类，其数学公式表述如下：

其中，是温度超参数，代表一个查询，代表是一个正类样本，表示相对于包含的来自不同查询集的所有负样本的集合。

需要注意的是，分配给背景的查询不会在聚类学习过程中受到惩罚。通过这种监督的方式，来自不同视图的查询在与同一真实车道匹配时会分组在一起。因此，两个视图空间中的车道感知知识被协同到统一查询中。

3D双视角可变形注意力（3D Dual-View Deformable Attention）

除了信息查询生成之外，特征聚合在提出的DV-3DLane算法模型中也发挥着至关重要的作用。我们采用稀疏查询从不同视角对特征进行采样，而不是将密集采样网格或其提升柱上的点投影到PV平面上进行特征采样，其算法流程如下图所示。

3D双视角可变形注意力与其它算法模型的对比情况

具体而言，我们提出的3D双视角可变形注意力的算法流程如下所示

3D双视角可变形注意力的算法流程伪代码

我们利用3D空间的固有属性，通过使用查询预测3D参考点及其3D偏移量，形成3D的可变形点。然后将这些3D可变形点投影到每个空间中，建立跨空间的一致特征采样策略。

实验结果&评价指标

定量分析部分

为了验证我们提出的算法模型DV-3DLane对于3D车道线检测任务的效果，我们在OpenLane数据集上进行了算法模型的实验对比，相关的实验结果如下表所示。

不同算法模型在OpenLane数据集上的性能表现

在具体的实验过程中，我们同时使用了以及的两种评估标准，进而实现全面的算法模型性能比较。可以看到，我们提出的DV-3DLane算法模型在所有的评测指标上的表现性能始终要高于之前SOTA的车道线检测算法。同时更值得注意的是，当应用更严格的阈值时，提出的DV-3DLane算法模型的F1指标得分显著提高了。并且我们算法模型的定位效果也更加出色，显著降低了定位误差。

此外，通过上述的实验结果可以看出，与单独使用图像或仅依赖激光雷达点云数据相比，DV-3DLane算法模型显著提高了车道线的检测性能。值得注意的是，我们的方法在所有指标上都显著超越了仅使用激光雷达作为输入为LATR算法模型配备的配置，凸显了DV-3DLane算法模型在利用两种模式的信息方面取得的重大改进。

下表展示了我们提出的统一查询生成器的消融实验，其实验结果汇总在下表中。通过表格中展现的实验结果可以看出，我们的双视图策略，即针对两个视图分别各自生成车道线感知查询，可以将整体的F1性能指标提高到，从而取得了最佳的检测结果。这表明我们提出的方法有效地整合了两个空间特征的优势，形成了一个有凝聚力的查询集合。

统一查询生成器的消融对比实验汇总

此外，我们也评估了3D双视角可变形注意力模块的表现性能，实验结果如下表所示。

3D双视角可变形注意力模块消融对比实验汇总

通过结果可以看出，我们提出的方法优于要优于DeepInteration算法模型，F1分数提高了。此外，与FUTR3D中提出的模态无关方法相比，我们的方法实现了的改进，从而进一步强调了在不同空间中变形注意力中一致采样位置的重要性。

定性分析部分

为了更加直观的展示我们提出的车道线检测模型DV-3DLane的性能，我们将提出的算法模型与LATR算法模型的检测结果进行了可视化，用于展现我们提出的算法模型在各种场景下均可以实现更为稳健和准确的预测过程，可视化结果如下图所示。

DV-3DLane和LATR算法模型车道线检测结果可视化对比

结论

考虑到PV空间和BEV空间带来的双重优势，本文提出了一种新颖的端到端多模态3D车道线检测框架。在OpenLane开源数据集上大量的实验结果表明，本文提出的算法模型实现了SOTA的表现性能。

参考

[1] DV-3DLane: End-to-end Multi-modal 3D Lane Detection with Dual-view Representation

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频