[ICRA23‘论文阅读]BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation.

Liu, Z., Tang, H., Amini, A., Yang, X., Mao, H., Rus, D. L., & Han, S. (2023). BEVFusion: Multi-Task Multi-Sensor Fusion with Unified Bird’s-Eye View Representation. 2023 IEEE International Conference on Robotics and Automation (ICRA), 2774–2781. https://doi.org/10.1109/ICRA48891.2023.10160968

BEVFusion: 多任务多传感器融合与统一鸟瞰图表示"

摘要
多传感器融合对于实现准确可靠的自动驾驶系统至关重要。最近的方法基于点级别的融合:将激光雷达点云与摄像头特征进行增强。然而,摄像头到激光雷达的投影丢失了摄像头特征的语义密度,阻碍了这类方法的有效性,特别是对于语义导向任务(如3D场景分割)。在本文中,我们通过BEVFusion打破了这一根深的传统,这是一个高效且通用的多任务多传感器融合框架。它在共享的鸟瞰图(BEV)表示空间中统一了多模态特征,很好地保留了几何和语义信息。为了实现这一点,我们诊断并提升了视图变换中的关键效率瓶颈,通过优化的BEV池化减少了超过40倍的延迟。BEVFusion基本上与任务无关,几乎不需要任何架构更改,可以无缝支持不同的3D感知任务。它在nuScenes上确立了新的技术水平,3D目标检测的mAP和NDS分别提高了1.3%,BEV地图分割的mIoU提高了13.6%,计算成本降低了1.9倍。我们的结果的代码复现可在 https://github.com/mit-han-lab/bevfusion 上找到。

在这里插入图片描述
图1:BEVFusion在共享的BEV空间中统一摄像头和激光雷达特征,而不是将一种模态映射到另一种模态。它保留了摄像头的语义密度和激光雷达的几何结构。

在这里插入图片描述
图2:BEVFusion从多模态输入中提取特征,并使用视图变换将它们有效地转换为共享的鸟瞰图(BEV)空间。它通过完全卷积的BEV编码器融合统一的BEV特征,并通过特定于任务的头部支持不同的任务。

在这里插入图片描述
图3:摄像头到BEV的转换(a)是在统一的BEV空间中执行传感器融合的关键步骤。然而,现有的实现速度非常慢,可能需要长达2秒的时间处理单个场景。我们提出了高效的BEV池化(b),使用间隔缩减和预计算的快速网格关联,将视图变换模块的速度提高了约40倍(c,d)。

在这里插入图片描述
图4:BEVFusion在3D目标检测和BEV地图分割上的定性结果。它准确识别远处和小型物体(顶部),并解析拥挤的夜间场景(底部)。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

王知为

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值