BLOS-BEV:打破感知边界,检测距离达200米!

论文标题:

BLOS-BEV: Navigation Map Enhanced Lane Segmentation Network, Beyond Line of Sight

论文作者:

Hang Wu, Zhenghao Zhang, Siyuan Lin, Tong Qin, Jin Pan, Qiang Zhao, Chunjing Xu, Ming Yang

导读:
高效的环境感知自动驾驶至关重要。本文介绍了BLOS-BEV,它融合了导航地图和视觉特征,实现了200米范围的精确感知。在nuScenes和Argoverse数据集上的测试显示,BLOS-BEV显著提升了自动驾驶的感知和规划能力。©️【深蓝AI】编译

1. 背景介绍

鸟瞰图表示(Bird’s-eye-view, BEV)对于自动驾驶中的感知任务尤为重要。平衡BEV表示的准确性、效率和范围是非常困难的。现有的工作通常将感知范围限制在50米以内。扩展BEV表示的范围可以通过提供更全面的信息和反应时间,大大有利于下游任务,如拓扑推理、场景理解和规划。标准定义(SD)导航地图可以提供道路结构拓扑的轻量级表示,具有获取方便和维护成本低的特点。为了充分利用SD地图信息,作者将车载摄像头的近距离视觉信息与SD地图的视线外(BLOS)环境先验结合,以实现扩展的感知能力。

在这里插入图片描述
图1|BLOS-BEV架构©️【深蓝AI】编译

如图1所示,BLOS-BEV有效地整合了环视图像和SD地图的互补信息。通过融合视觉信息和几何先验,BLOS-BEV生成的BEV语义分割远远超出了之前方法的范围,实现了对自动驾驶至关重要的扩展范围场景解析。

2. 方法提出

在本文中,作者提出了BLOS-BEV,这是一种新的BEV分割模型,结合了SD地图,用于高达200米的精确视线外感知。本方法适用于常见的BEV架构,通过整合从SD地图中获得的信息可以取得优异的效果。作者探索了各种特征融合方案,以便于有效地整合视觉BEV表示和SD地图的语义特征,旨在最佳地利用这两种信息源的互补信息。多次实验证明,本方法在nuScenes和Argoverse基准上的BEV分割表现达到了最先进的水平。通过多模态输入,BEV分割在50米以内的近距离显著增强,同时在50-200米的长距离场景中也表现出色,超过其他方法20%以上的mIoU。

在这里插入图片描述
图2|BLOS-BEV模型的流程©️【深蓝AI】编译

如图2所示,该pipeline以来自自我车辆的环视摄像机图像与栅格化SD地图作为输入。SD地图提供了关键的道路拓扑结构。BLOS-BEV通过BEV融合模块有效地融合了视觉特征和地图编码。通过整合图像和地图的互补信息,BLOS-BEV生成的超视距BEV分割大大超出了之前方法的范围。

3. 方法介绍

作者提出的BLOS-BEV框架由四个主要组件组成:BEV主干网络、SD地图编码器、BEV融合模块和BEV解码器。该架构通过协同整合互补的输入模式,实现了增强的感知范围和规划前瞻性。

3.1 BEV主干网络

采用Lift-Splat-Shoot(LSS)作为BEV特征提取的基线,因为它具有轻量、高效和易于插入的特点。其他BEV架构(例如HDMapNet)也可以在本框架内进行适应。LSS学习了每个像素的深度分布,并使用相机参数将视锥转换为BEV表示。六个方向(前、前左、前右、后、后左、后右)的车载摄像头为模型提供了全面的视觉输入,以实现全面的情境感知。视图转换的输出是视觉BEV特征 F v ∈ R H × W × C F_v∈R^{H×W×C} FvRH×W×C,其中 H × W H×W H×W C C C是BEV表示的分辨率和嵌入维度。随后,作者采用一个四阶段的FPN作为BEV编码器,以进一步编码BEV特征,每个阶段将特征图的高度和宽度减半,同时将通道维度加倍。作者选择第二阶段特征 F v 2 ∈ R H 2 × W 2 × 2 C F_{v2} \in R^{\frac{H}{2} \times \frac{W}{2} \times 2C} Fv2R2H×2W×2C和第四阶段特征 F v 4 ∈ R H 8 × W 8 × 8 C F_{v_4}\in R^{\frac{H}{8} \times \frac{W}{8} \times 8C} Fv4R8H×8W×8C作为BEV融合模块的输入。

在这里插入图片描述
图3|原始和栅格化SD地图的对比©️【深蓝AI】编译

如图3所示,栅格化只保留了关键的道路布局,减少了杂乱,同时为BEV场景理解提供了必要的环境背景。这展示了作者的地图预处理和栅格化方法,生成清晰的拓扑表示作为SD地图编码器的输入。

3.2 SD地图编码器

SD地图编码器主要基于卷积神经网络(CNN)架构,输入为以自车辆位置为中心的SD地图。

· 地图数据:

利用OpenStreetMap(OSM),一个提供免费和可编辑地图的众包项目,提供先验的道路信息。OSM包含关于各种地理特征(如道路、交通标志、建筑区域等)的丰富信息。图3(a)展示了OSM的典型表示。

· 预处理:

为了简化SD地图数据并消除与最终任务无关的地图元素的影响,作者仅对OSM的道路骨架进行光栅化处理。这使SD地图编码器能够更准确地关注道路的拓扑结构。图3(b)展示了本方法中光栅化后的OSM。

· 编码:

借鉴OrienterNet的灵感,作者采用VGG 架构作为SD地图编码器的主干。这生成了一个空间编码的地图。

在这里插入图片描述
图4|在BLOS-BEV中探索的BEV特征和SD地图表示融合的替代技术。(a)BEV和地图编码的元素级加法;(b)沿通道维度连接BEV和地图特征,然后使用3×3卷积减少通道;(c) 交叉注意力机制,其中地图编码查询视觉BEV特征©️【深蓝AI】编译

3.3 BEV融合模块

BLOS-BEV的一个关键贡献是探索不同的融合方案,以结合视觉BEV特征和SD地图语义,达到最佳表示和性能。作者主要评估了三种常见的方法:加法、拼接和交叉注意机制。

由于BEV分支和SD地图分支都提供了不同大小的高分辨率和低分辨率特征,作者对来自两个分支相同大小的特征应用相同的融合操作,生成两种多模态融合特征 F f u s e h F^h_{fuse} Ffuseh F f u s e l F^l_{fuse} Ffusel,分别表示高分辨率和低分辨率。为了简化记号,作者使用 F v F_v Fv F s d F_{sd} Fsd分别表示高分辨率或低分辨率的BEV特征( F v 2 F_{v2} Fv2 F v 4 F_{v4} Fv4)和SD地图特征( F s d 2 F_{sd2} Fsd2 F s d 4 F_{sd4} Fsd4)。同样地,将 F f u s e h F^h_{fuse} Ffuseh F f u s e l F^l_{fuse} Ffusel统称为 F f u s e F_{fuse} Ffuse

· 逐元素相加:

由于视觉BEV特征Fv和SD地图特征 F s d F_{sd} Fsd具有相同的形状,作者通过逐元素相加来融合它们(见图4(a))。融合特征 F f u s e F_{fuse} Ffuse的计算公式如下:

F f u s e = F v + F s d F_{fuse}=F_v+F_{sd} Ffuse=Fv+Fsd

· 按通道拼接:

作者还探索了在通道维度上拼接BEV和地图表示,使用两个3×3卷积层来整合拼接后的特征并减少通道数(见图4(b))。通过拼接获得的融合特征 F f u s e F_{fuse} Ffuse的计算公式如下:

F f u s e = C o n v 3 × 3 ( C o n c a t ( F v , F s d ) ) F_{fuse}=Conv3×3(Concat(Fv,Fsd)) Ffuse=Conv3×3(Concat(FvFsd))

· 交叉注意机制:

此外,作者采用交叉注意机制来融合SD地图特征和视觉BEV特征。交叉注意机制应用跨模态门控,选择性地强调每个空间位置上最相关的特征。具体来说,作者使用 F s d F_{sd} Fsd作为查询 Q , F v Q,F_v Q,Fv作为键K和值V(见图4(c))。作者设计这个的动机是, F s d F_{sd} Fsd编码了超出感知范围的先验信息,通过查询局部的视觉特征 F v F_v Fv,可以更好地推理视野外的道路结构。通过交叉注意获得的融合特征 F f u s e F_{fuse} Ffuse的计算公式如下:

F f u s e = A t t n B l o c k ( F s d , F v , F v ) F_{fuse}=AttnBlock(Fsd,Fv,Fv) Ffuse=AttnBlock(Fsd,Fv,Fv)
A t t n B l o c k ( Q , K , V ) = A t t n ( Q W i Q , K W i K , V W i V ) AttnBlock(Q,K,V)=Attn(QW^Q_i,KW^K_i,VW^V_i) AttnBlock(Q,K,V=Attn(QWiQ,KWiK,VWiV
A t t n ( Q , K , V ) = s o f t m a x ( Q K T d k ) V Attn(Q, K,V) = softmax(\frac{QK^T}{\sqrt{dk}})V Attn(Q,K,V=softmax(dk QKTV

其中 W i Q , W i K , W i V W^Q_i,W^K_i,W^V_i WiQ,WiK,WiV是第 i i i层的Q、K和V的投影矩阵, d k d_k dk是特征Q和K的通道维度。

在这里插入图片描述
图5|nuScenes数据投影到对齐的SD地图坐标上,可视化局部区域:来自一个nuScenes序列的车道和道路段注释被转换并在SD地图上可视化©️【深蓝AI】编译

3.4 BEV解码器和训练损失

BEV解码器会接收高分辨率和低分辨率的融合特征 F f u s e h F^h_{fuse} Ffuseh F f u s e l F^l_{fuse} Ffusel。作者首先将 F f u s e l F^l_{fuse} Ffusel上采样4倍,使其特征高度和宽度与 F f u s e h F^h_{fuse} Ffuseh对齐。然后作者将其与 F f u s e h F^h_{fuse} Ffuseh沿通道维度拼接,接着进行两个卷积层和上采样,将它们解码为大小为 H × W × N H×W×N H×W×N的BEV分割图,其中N是语义类别数。

在训练阶段,作者对包含车道、道路、车道分界线和道路分界线的类别集合Ω使用二元交叉熵(BCE)损失:

L s e g = − 1 N ∑ c ∈ Ω y c log ⁡ ( x c ) + ( 1 − y c ) log ⁡ ( 1 − x c ) L_{seg} = -\frac{1}{N}\sum_{c\in\Omega} y_c\log(x_c) + (1-y_c)\log(1-x_c) Lseg=N1cΩyclog(xc)+(1yc)log(1xc)

其中 x c x_c xc y c y_c yc分别是像素级的语义预测和真实标签。

4. 实验结果

BLOS-BEV模型在nuScenes和Argoverse数据集上进行了实验,使用从OSM获取的SD地图数据进行补充。结果显示BLOS-BEV在所有距离范围内均优于现有方法,特别是在长距离范围(150~200m)表现突出。

作者探索了三种SD地图融合方法:加法、连接和交叉注意力。虽然所有融合方法都优于不使用SD地图的方法,但交叉注意力融合在nuScenes和Argoverse数据集上表现最佳,展示了出色的泛化性能。

考虑到GPS噪声的影响,实验还测试了位置噪声对分割性能的影响。结果表明,通过噪声增强训练可以有效提高模型的鲁棒性,其中交叉注意力融合方法展现出最强的抗噪能力。

具体实验结果如下:

在这里插入图片描述
表I|在nuScenes数据集上Beyond Line-Of-Sight分割的性能比较。作者将视距分为50米的间隔,覆盖四个主要道路结构元素,比较了本的方法(BLOS-BEV†采用HDMapNet方法,BLOS-BEV*采用LSS方法与拼接融合)与之前的SOTA方法©️【深蓝AI】编译

在这里插入图片描述
表II|在nuScenes数据集上各种融合方法的性能比较。作者在超视距设置下测试了各种融合方法的分割性能,同时保持相同的训练轮数©️【深蓝AI】编译

在这里插入图片描述
表IV|在nuScenes数据集上SD获取位置噪声的鲁棒性测试。考虑到GPS误差,作者在测试阶段对SD地图的获取位置应用了小于10m和10°的随机漂移。作者对所有SD融合方法进行了零偏移测试和偏移训练增强测试。©️【深蓝AI】编译

在这里插入图片描述
图6|BLOS-BEV与nuScenes数据集上其他方法的定性比较。第一列图像展示了车辆的周围视图、当前位置的SD地图、BEV分割真实标签以及BLOS-BEV模型的结果。为了比较,第二列展示了HDMapNet、CVT、LSS和PON这些缺乏SD地图先验信息的模型的输出结果©️【深蓝AI】编译

在这里插入图片描述
图7|BLOS-BEV在nuScenes数据集上的扩展范围BEV分割结果。BLOS-BEV在近距离和远距离都能准确标记语义特征,但在远距离的一些分割区域显示出轻微的模糊,用红色虚线圈标记©️【深蓝AI】编译

5. 未来展望

BLOS-BEV成功将鸟瞰图感知范围扩展至200米,显著提升了自动驾驶系统的安全性能和轨迹规划能力。这一突破使车辆能更早识别潜在风险,实现更平稳、安全的驾驶。未来研究将聚焦于高效整合SD地图与实时视觉数据的先进算法,探索扩散模型在BEV特征生成中的应用,以及优化多模态数据融合和计算效率。这些创新旨在进一步提高BLOS-BEV在复杂实际驾驶环境中的表现,推动自动驾驶技术向更安全、智能的方向发展。

编译|Deep蓝同学

审核|Los

移步公众号【深蓝AI】,第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态👇
深蓝AI·赋能AI+智驾+机器人

  • 14
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值