BLOS-BEV:导航地图助力BEV分割实现200米超远感知新SOTA

BLOS-BEV:导航地图助力BEV分割实现200米超远感知新SOTA

早期,由于感知算法模型的感知能力还比较有限,在城市中的自动驾驶车辆通常都需要依赖高精地图(High-Definition,HDMap)来提供丰富和精确的道路信息,比如道路的拓扑结构,停止线,车道线曲率等相关路况信息。但由于高精地图的采集和制作成本非常高,同时地图的鲜度也很难得到保证。与高精地图在细丰富度节和资源要求方面形成鲜明对比,导航地图虽然精度较弱且元素信息也比较模糊,但是可以作为一种轻量级的语义导航方案来提供道路曲率和连通性的道路拓扑结构。

考虑到BEV感知算法可以为自动驾驶车辆提供对周围环境的紧凑而准确的信息表示,同时提供路径规划和预测所必需的自上而下的鸟瞰视角,目前已经被广泛应用于在线的车道线检测任务当中。虽然目前工业界和学术界都已经普遍认识到了BEV感知的重要性,但其感知范围仍被探索的比较有限。现有感知方法的一个常见感知范围大约是50米左右,受限的范围导致在较长距离下缺乏有意义的上下文理解。在需要全面了解周围环境的场景中,迫切需要扩大感知范围,特别是在高速或大曲率曲线上的远程规划中。较大的环境感知范围可以提高自动驾驶安全性能。

综合考虑远距离感知对于自动驾驶任务的重要程度以及导航地图可以带来的道路拓扑结构,本文提出结合了导航地图先验的视觉BEV分割方法BLOS-BEV,进而实现了200米范围的感知任务。大量实验表明,我们提出的方法在nuScenes和Argoverse数据集上的BEV分割任务中实现了SOTA的表现性能。

附赠自动驾驶最全的学习资料和量产经验:链接

image

BLOS-BEV输出的BEV分割结果实现了超远距离感知

文章链接:https://arxiv.org/pdf/2407.08526

网络模型的整体架构&细节梳理

在详细介绍本文提出的BLOS-BEV算法模型之前,下图展示了我们提出的BLOS-BEV算法的整体网络结构。通过下图可以看出,BLOS-BEV包括四个主要组成部分,分别是BEV Backbone模块,SD Map Encoder模块,BEV Fusion模块以及BEV Decoder模块。该架构最终通过协同集成互补输入模态实现了增强的感知范围和规划预见性。

image

BLOS-BEV算法模型的整体网络架构图

BEV Backbone(BEV主干网络

考虑到算法模型轻量化、有效性以及易插拔的设计理念,我们采用了LSS算法的网络架构作为BEV特征的提取模块。具体而言,LSS算法模型利用其深度估计网络估计像素的深度概率分布,并且利用相机的内外参数实现2D相机视锥特征向BEV空间特征的转换过程。

其中,环视相机为模型提供了环视视觉输入,以实现全面的态势感知。视角转换模块的输出是BEV特征��∈��×�×�,�×�代表BEV特征的宽度和高度,�代表BEV特征的嵌入向量维度。在此之后,我们采用了包含四层的FPN特征金字塔网络作为BEV Encoder来进一步的提取BEV特征,每个阶段将特征图的高度和宽度减半,同时将通道维度加倍。我们采用了第二层的特征��2∈��2×�2×2�以及第四层的特征��4∈��8×�8×8�作为BEV Fusion模块的输入。

SD Map Encoder(导航地图编码器)

SD Map Encoder模块采用了卷积神经网络的架构模式,同时输入是以自车位置为中心的SD导航地图。在导航地图数据的选择上,我们采用了OpenStreetMap,OpenStreetMap是一个众包项目,提供免费且可编辑的世界地图,提供丰富的道路信息,该地图包含有关各种地理特征的丰富信息,例如道路、交通标志、建筑区域等。下图的(a)子图展示了OpenStreetMap的典型道路信息表示。

image

OpenStreetMap的原始地图以及栅格化后的结果

此外,为了简化SD地图数据并消除不相关地图元素对最终任务的影响,我们仅对OpenStreetMap中的道路骨架进行了栅格化。这使SD地图编码器能够更精确地关注道路的拓扑结构。上图中的(b)子图说明了我们的方法中对OpenStreetMap进行栅格化的结果。在得到栅格化的SD地图之后,我们采用 VGG网络架构作为SD Map Encoder的特征提取主干网络。这会生成一个空间编码地图表示,进而保留了先前 OpenStreetMap环境注释提供的语义、位置和关系信息。为了使得SD Map Encoder输出的特征结果可以和BEV Encoder模块输出的特征结果尺寸进行对齐,我们选择的SD地图特征分别是���2∈��2×�2×2�以及���4∈��4×�4×8�。

BEV Fusion Module(BEV融合模块)

我们为了实现视觉的BEV特征以及SD地图语义信息的高效融合,我们在实验过程中采用了多种特征融合方式来探索这一过程。在具体实现过程中,我们分别测试了元素加法、通道合并以及交叉注意力机制来确定最有效以及高效的集成技术,以增强导航预见性。

由于BEV特征提取分支和SD地图特征提取分支都提供不同大小的高分辨率和低分辨率特征,因此我们对来自两个分支的相同大小的特征应用相同的融合操作,从而产生两个多模态融合特征,�����ℎ以及������分别代表高分辨率和低分辨率的特征图。在这里,我们采用��以及���来表示BEV特征以及SD地图特征。

  • 基于元素相加的特征融合方式:由于视觉BEV特征��以及导航地图特征���有着相同的特征图尺寸,所以我们可以采用基于元素相加的方式来进行融合,整体流程如下图(a)子图所示,融合的过程可以按照下式进行计算:

(1)�����=��+���

  • 基于通道合并的特征融合方式:我们也采用了将视觉BEV特征以及导航地图特征沿着通道维度进行合并的融合方式,并采用了两个3×3的卷积层来集成通道合并后的特征图并且减少他们通道的大小,整体流程如下图(b)子图所示,融合的过程可以按照下式进行计算:

(2)�����=����3×3(������(��,���))

  • 基于交叉注意力机制的特征融合方式:我们也尝试采用了交叉注意力机制来融合视觉BEV特征以及SD地图特征。具体而言,我们使用���作为查询Query,��作为键Key以及值Value。我们这样设计的动机是,由于���编码了感知范围之外的道路先验信息,因此查询局部视觉特征��可以更好地推理视野之外的道路结构。通过交叉注意获得的融合特征计算如下:

(3)�����=���������(���,��,��)(4)���������(�,�,�)=����(����,����,����)(5)����(�,�,�)=�������(���(��))�

其中,���,���,���代表第�层用于映射为�,�以及�的映射矩阵,��是特征�和�的特征通道维度。

image

探索的不同视觉BEV特征以及导航地图特征融合方式

BEV解码器和训练损失函数设计

在BEV解码器模块中,我们对得到的高分辨率和低分辨率两种融合特征进行处理,分别记作�����ℎ以及������。我们首先将低分辨率的融合特征进行上采样的操作实现和高分辨率特征图的空间尺寸大小对齐。然后我们将二者沿着通道的维度进行拼接,并利用两个卷积层以及上采样操作解码出BEV语义分割地图,其语义分割地图的特征尺寸大小为�×�×�,其中�代表语义种类的数量。

在模型训练过程中,我们对包含车道、道路、车道分隔线和道路分隔线的类别集合采用交叉熵损失:

(6)����=−1�∑�∈Ω�����(��)+(1−��)���(1−��)

实验结果&评价指标

nuScenes&Argoverse数据集上的实验结果分析

在实验部分中,我们分别在nuScenes和Argoverse数据集上来验证我们提出的BLOS-BEV算法模型的有效性。下表展示了我们提出的BLOS-BEV算法模型在nuScenes数据集上的结果对比情况。

image

在nuScenes数据集上的BEV分割结果对比情况

通过上表展示出来的结果可以看出,受益于视觉BEV特征以及导航地图特征融合的优势,在050米的范围内以及远距离的50200米范围内,我们提出的算法模型要大幅领先其它SOTA的算法模型,充分证明了导航地图可以充分发挥远距离感知的重要性。值得注意的是,SD地图融合可将远距离的分割精度mIoU提高18.65%,在视线之外的距离处的mIoU精度下降最小。这是因为SD地图中丰富的几何先验为分割提供了上下文指导。我们的结果展示了融合SD地图在近距离和远距离上实现准确且稳健的BEV语义分割的有效性。

除此之外,我们为了更直观地比较不同算法模型的BEV分割结果,我们在下图中展示了nuScenes数据集中场景的分割比较结果。通过下图的可视化结果可以观察到,如果没有SD导航地图的先验信息,BEV的分割效果会随着距离的增加而迅速恶化。相比之下,受益于地图先验信息,我们提出的BLOS-BEV算法模型即使在远距离预测中也能保持稳健的分割性能。

image

在nuScenes数据集上BLOS-BEV与其他方法的可视化结果比较

下图的可视化结果也很明显的展示了我们算法在其他场景下的泛化结果,包括曲率弯曲较大的场景。在这种情况下,尤其受益于我们提出的BLOS-BEV算法模型的扩展可见性,通过为自动驾驶系统提供更长的时间和空间来主动做出反应,大大提高了安全性。

image

BLOS-BEV在曲率弯曲较大场景下的表现性能可视化

为了更好的验证我们提出算法模型的泛化性,我们也在Argoverse数据集上进行了相关实验结果的对比,相关实验结果总结在下表中。

image

提出的BLOS-BEV算法模型在Argoverse数据集上的表现性能

上表展示出了不同方法在不同范围内的BEV空间语义分割结果。很明显可以看出,融合了SD导航地图和BEV视觉特征的算法模型,相比于LSS基线模型有显著的改进。在融合方法中,交叉注意融合机制在所有范围内都取得了最佳的表现性能。此外,对于长距离(150 ~ 200m的感知范围),SD导航地图的交叉注意融合方案将mIoU精度从34.8%提升到了60.8%。表格中的实验结果还展示了BLOS-BEV算法模型在不同范围内、不同类别的整体分割结果。这些结果表明,我们的方法在各种数据集上都实现了出色的泛化性能,凸显了其卓越的适应性和有效性。

消融对比实验分析

我们分别探索了基于元素相加、通道拼接以及交叉注意力三种特征融合方式,相关的实验结果汇总在下表当中。

image

不同的融合方法在nuScenes数据集上的性能指标汇总

通过实验结果可以看出,所有的特征融合技术方案都比没有SD导航地图的方法取得了显著的进步,从而证明了融合SD导航地图的优势。此外,表格中的相关实验结果表明,仅使用SD导航地图的特征可以预测准确的路面,但在预测需要更精细几何形状的道路边界时,其性能有限。我们认为,SD导航地图可以提供强大的道路拓扑结构先验,提供了对传感器感知至关重要的粗粒度结构信息。通过融合BEV视觉特征和SD导航地图特征分支,我们的网络实现了准确的环境感知,充分利用了两者的优势。

结论

在本文中,我们提出了一个SD导航地图与视觉感知相融合的BEV分割算法模型BLOS-BEV,该算法模型可以实现200米的超远距离感知结果。提出的算法模型利用导航地图包含的地理空间先验信息,实现了更具预见性和更安全的轨迹规划。我们在nuScenes和Argoverse数据集上进行了大量的实验,相关实验结果可以证明,我们提出的BLOS-BEV算法模型在近距离和远距离都实现了SOTA的 BEV分割表现性能。

参考

[1] BLOS-BEV: Navigation Map Enhanced Lane Segmentation Network, Beyond Line of Sight

  • 7
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值