车道线检测新SOTA!DV-3DLane:基于多模态端到端车道线检测新框架
附赠自动驾驶最全的学习资料和量产经验:链接
网络模型的整体架构&细节梳理
在详细介绍本文提出的基于多模态的端到端3D车道线检测算法模型DV-3DLane之前,下图展示了我们提出的DV-3DLane算法的整体网络结构。
DV-3DLane算法模型的整体网络结构图
通过上述的网络结构可以看出,我们为了实现保持PV空间和BEV空间的双视角空间的特征表示,我们采用了由PV分支和BEV分支组成的对称主干网络分别用于提取PV空间和BEV空间的特征信息。此外,为了充分利用图像特征信息与点云特征信息各自的优势可以在PV和BEV空间进行充分的学习,我们设计了一种双向特征融合策略(Bidirectional Feature Fusion)。然后,为了有效地利用保留的双视图特征进行基于查询的检测,我们设计了统一查询生成器(Unified Query Generator)。此外,为了实现双视角查询过程的统一,我们提出了一种以车道线为中心的聚合技术。同时,我们使用了Transformer解码器将来自两个视角空间的特征集成到统一的查询中。而且,为了在不同的视角空间中有效聚合特征,我们引入了一种3D双视角可变形注意力机制(3D Dual-View Deformable Attention),将对应的参考点投影到PV和BEV两类视图平面上,从而在每个相应视图空间中产生2D采样点,用于完成在各类视图空间上的特征采样。
接下来我们将详细介绍上述提到的各类关键模块的实现细节
双向特征融合模块(Bidirection Feature Fusion)
考虑到2D图像当中包含有丰富的语义信息以及点云数据中包含丰富的几何结构信息,代替将不同视角的特征信息全部融合到单独的一个视角空间中,我们同时保留了PV和BEV空间中的特征信息,同时为每个视角空间合并多模态的特征信息。具体而言,我们采用了PV和BEV双分支来提取每个视图的特征,然后在对称分支中进行双向的特征融合用于增强每个视角空间的多模态特征,其处理流程如下图所示。
双向特征融合模块实现流程图
在双向特征融合模块当中,先分别利用点云和图像主干网络分别提取两类模态的特征信息。在获得每个分支内的低级特征后,我们进行双向的特征融合过程。通过把3D点���={(��,��,��)|�∈�}投影到PV空间上,获得了在PV空间的2D坐标���2��={(��,��)|�∈�}。
-
对于点云信息向像素信息的融合过程:我们采用了Scatter操作去构建稠密的点云特征网格���2��,其中上图中的蓝色点代表3D空间点投影到PV空间上的对应位置
-
对于像素信息向点云信息的融合过程:我们采用双线性插值来对三维点投影所对应的二维位置的特征进行采样,我们记作���2��
最后,在PV和BEV空间中跨模态的特征和他们各自原始模态的特征进行通道维度的合并。每个视角空间中多模态的特征被送入到相应分支中随后的模块里,用于生成最终的多模态特征���以及����,整个过程的算法流程如下所示。
双向特征融合策略的逻辑流程图
统一查询生成器(Unified Query Generator)
在这一部分中,我们引入了一个用于端到端3D车道线检测的统一查询生成器。具体而言,我们首先从之前获得的多模态特征���和����生成两类不同的车道线查询集合,称为双视图查询。然后,我们提出一种以车道为中心的聚合策略,将这些双视图查询统一为一组有凝聚力的查询。
双视图查询生成(Dual-view Query Generation)
为了有效捕捉与车道线相关的语义和空间特征,我们采用实例激活图在PV和BEV空间中生成车道线查询。这里,我们以PV分支为例,通过如下的公式我们生成一组实例激活图集合:
(1)���=�(�(������(���,���)))
其中,�代表sigmoid激活函数,Concat代表通道合并操作,���代表包含每个像素的双通道空间定位特征。由实例激活图辅助的车道线感知查询���通过以下方式生成:
(2)���=���⨂����
类似的,车道线感知查询����可以通过下式获得:
(3)����=�(�([����,����]))⨂�����
为了强制查询集学习车道感知特征,在训练期间,我们在查询集之上为每个分支使用辅助实例分割。辅助分割的标签是为这两个分支成对生成的,然后使用基于掩码的二分匹配进一步分配给预测,其整体流程如下图所示。
一对一匹配和车道中心聚类流程图
双视图查询聚合(Dual-view Query Clustering)
给定双视图查询集合���以及����,我们采用一种以车道线为中心的聚合技术来生成一组统一的查询集合用于实现端到端的车道线检测。具体而言,我们的方法侧重于统一来自不同视角的查询。来自���以及����的针对同一个车道线的查询将合并到同一个聚类当中。具体而言,我们初始化车道线聚类中心�∈��×�,并且分配每一个在����中的查询到它最近的聚类中心。需要注意的是,聚类中心可以从���以及����中进行选择。为了实现聚类,我们采用了来自�和����的注意力,同时沿着聚类中心的维度利用argmax来计算:
�=������(�×�����)�^=�⋅����+�
其中�^代表来自双视角的更新的中心统一查询。
考虑到车道的变化和细长性,我们采用了精修的点查询方案来增强车道线的检测性能。我们不再对每条车道使用单个查询,而是使用多个点查询来更精确地捕捉车道线信息。
查询聚合监督(Supervision on Query Clustering)
由于考虑到深度监督对于聚类的重要性,我们使用了InfoNCE Loss损失以车道为中心的方式监督查询聚类,其数学公式表述如下:
����=−������(�⋅�+/�)���(�⋅�+/�)+∑�−∈����(�⋅�−/�)
其中,�是温度超参数,�代表一个查询,�+代表是一个正类样本,�表示相对于包含�的来自不同查询集的所有负样本的集合。
需要注意的是,分配给背景的查询不会在聚类学习过程中受到惩罚。通过这种监督的方式,来自不同视图的查询在与同一真实车道匹配时会分组在一起。因此,两个视图空间中的车道感知知识被协同到统一查询中。
3D双视角可变形注意力(3D Dual-View Deformable Attention)
除了信息查询生成之外,特征聚合在提出的DV-3DLane算法模型中也发挥着至关重要的作用。我们采用稀疏查询从不同视角对特征进行采样,而不是将密集采样网格或其提升柱上的点投影到PV平面上进行特征采样,其算法流程如下图所示。
3D双视角可变形注意力与其它算法模型的对比情况
具体而言,我们提出的3D双视角可变形注意力的算法流程如下所示
3D双视角可变形注意力的算法流程伪代码
我们利用3D空间的固有属性,通过使用查询预测3D参考点及其3D偏移量,形成3D的可变形点。然后将这些3D可变形点投影到每个空间中,建立跨空间的一致特征采样策略。
实验结果&评价指标
定量分析部分
为了验证我们提出的算法模型DV-3DLane对于3D车道线检测任务的效果,我们在OpenLane数据集上进行了算法模型的实验对比,相关的实验结果如下表所示。
不同算法模型在OpenLane数据集上的性能表现
在具体的实验过程中,我们同时使用了��ℎ��=1.5�以及��ℎ��=0.5�的两种评估标准,进而实现全面的算法模型性能比较。可以看到,我们提出的DV-3DLane算法模型在所有的评测指标上的表现性能始终要高于之前SOTA的车道线检测算法。同时更值得注意的是,当应用更严格的0.5�阈值时,提出的DV-3DLane算法模型的F1指标得分显著提高了11.2%。并且我们算法模型的定位效果也更加出色,显著降低了定位误差。
此外,通过上述的实验结果可以看出,与单独使用图像或仅依赖激光雷达点云数据相比,DV-3DLane算法模型显著提高了车道线的检测性能。值得注意的是,我们的方法在所有指标上都显著超越了仅使用激光雷达作为输入为LATR算法模型配备的配置,凸显了DV-3DLane算法模型在利用两种模式的信息方面取得的重大改进。
下表展示了我们提出的统一查询生成器的消融实验,其实验结果汇总在下表中。通过表格中展现的实验结果可以看出,我们的双视图策略,即针对两个视图分别各自生成车道线感知查询,可以将整体的F1性能指标提高到70.7%,从而取得了最佳的检测结果。这表明我们提出的方法有效地整合了两个空间特征的优势,形成了一个有凝聚力的查询集合。
统一查询生成器的消融对比实验汇总
此外,我们也评估了3D双视角可变形注意力模块的表现性能,实验结果如下表所示。
3D双视角可变形注意力模块消融对比实验汇总
通过结果可以看出,我们提出的方法优于要优于DeepInteration算法模型,F1分数提高了2.0%。此外,与FUTR3D中提出的模态无关方法相比,我们的方法实现了0.5%的改进,从而进一步强调了在不同空间中变形注意力中一致采样位置的重要性。
定性分析部分
为了更加直观的展示我们提出的车道线检测模型DV-3DLane的性能,我们将提出的算法模型与LATR算法模型的检测结果进行了可视化,用于展现我们提出的算法模型在各种场景下均可以实现更为稳健和准确的预测过程,可视化结果如下图所示。
DV-3DLane和LATR算法模型车道线检测结果可视化对比
结论
考虑到PV空间和BEV空间带来的双重优势,本文提出了一种新颖的端到端多模态3D车道线检测框架。在OpenLane开源数据集上大量的实验结果表明,本文提出的算法模型实现了SOTA的表现性能。