自动驾驶BEV感知的下一步是什么?

本文探讨了自动驾驶中BEV感知的现状与挑战,提出了一种名为DA-BEV的隐式深度学习方法,结合深度感知空间交叉注意力模块和深度对比学习,提升3D目标检测性能。在nuScenes数据集上,DA-BEV方法表现优越,解决了深度信息模糊导致的重复预测问题。
摘要由CSDN通过智能技术生成

自动驾驶BEV感知的下一步是什么?

目前BEV感知似乎已经成了nuScenes/Waymo leaderboard上的主流,如纯camera的BEVFormer等,做Sensor fusion的TransFusion等,那么BEV感知还有什么可以填的坑吗?或者说BEV感知目前是否存在一个通病,学术界和工业界的关注点分别在哪里,区别是什么,需要在下一步解决?

附赠自动驾驶最全的学习资料和量产经验:链接

导读

本文提出了一种隐式深度学习方法 DA-BEV,这是一种以环视图像作为输入,在 BEV 视角下利用 Transformer 进行 3D 目标检测的方法。该方法包括两个关键部分:深度感知空间交叉注意力 (Depth-Aware Spatial Cross-AttentionDA-SCA)模块和深度对比学习 (Depth-wise Contrastive LearningDCL)。DA-SCA 模块负责将深度信息融合至 BEV 特征中,以至于能更好地捕捉目标的深度信息。而 DCL 则通过对正负 BEV 特征进行采样,进一步增强了 BEV 特征的深度感知能力。实验结果表明,DA-BEV 方法在 nuScenes 数据集上取得了 SOTA 检测性能。源码即将开源,敬请期待!

BEV感知

image

image

相当于给自动驾驶开启了“上帝视角”,能够让车辆无遮挡的“看清”道路上的实况信息,在BEV视角下统一完成感知和预测任务。

隐式深度学习

隐性深度学习的主要思想是在不需要显式定义输出的情况下学习目标函数。与传统的显式表示方法相比,隐性深度学习不需要人工标注的数据来指定输出,因此可以更好地适应各种复杂的任务和数据类型。

创作背景

3D 目标检测是自动驾驶和机器人等许多应用中的基本任务。相较于基于激光雷达的方法,基于相机的方法具有成本低、感知范围长、可以识别纯视觉信号(如红绿灯和停止标志)等优势**。但是,相机方法面临的一个关键挑战是缺乏深度信息**。

前人研究表明,高质量的深度信息能够显著提高 3D 检测性能,因此当前许多研究工作致力于从相机图像中恢复深度信息,然而,深度估计仍是一个

  • 27
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值