自动驾驶BEV感知的下一步是什么？

最新推荐文章于 2024-08-28 17:50:36 发布

自动驾驶打工人

最新推荐文章于 2024-08-28 17:50:36 发布

阅读量702

点赞数 27

文章标签：自动驾驶人工智能 BEV DA-BEV

本文链接：https://blog.csdn.net/NEON7788/article/details/139100438

版权

本文探讨了自动驾驶中BEV感知的现状与挑战，提出了一种名为DA-BEV的隐式深度学习方法，结合深度感知空间交叉注意力模块和深度对比学习，提升3D目标检测性能。在nuScenes数据集上，DA-BEV方法表现优越，解决了深度信息模糊导致的重复预测问题。

摘要由CSDN通过智能技术生成

自动驾驶BEV感知的下一步是什么？

目前BEV感知似乎已经成了nuScenes/Waymo leaderboard上的主流，如纯camera的BEVFormer等，做Sensor fusion的TransFusion等，那么BEV感知还有什么可以填的坑吗？或者说BEV感知目前是否存在一个通病，学术界和工业界的关注点分别在哪里，区别是什么，需要在下一步解决？

附赠自动驾驶最全的学习资料和量产经验：链接

导读

本文提出了一种隐式深度学习方法 DA-BEV，这是一种以环视图像作为输入，在 BEV 视角下利用 Transformer 进行 3D 目标检测的方法。该方法包括两个关键部分：深度感知空间交叉注意力 (Depth-Aware Spatial Cross-Attention, DA-SCA)模块和深度对比学习 (Depth-wise Contrastive Learning, DCL)。DA-SCA 模块负责将深度信息融合至 BEV 特征中，以至于能更好地捕捉目标的深度信息。而 DCL 则通过对正负 BEV 特征进行采样，进一步增强了 BEV 特征的深度感知能力。实验结果表明，DA-BEV 方法在 nuScenes 数据集上取得了 SOTA 检测性能。源码即将开源，敬请期待！

BEV感知

相当于给自动驾驶开启了“上帝视角”，能够让车辆无遮挡的“看清”道路上的实况信息，在BEV视角下统一完成感知和预测任务。

隐式深度学习

隐性深度学习的主要思想是在不需要显式定义输出的情况下学习目标函数。与传统的显式表示方法相比，隐性深度学习不需要人工标注的数据来指定输出，因此可以更好地适应各种复杂的任务和数据类型。

创作背景

3D 目标检测是自动驾驶和机器人等许多应用中的基本任务。相较于基于激光雷达的方法，基于相机的方法具有成本低、感知范围长、可以识别纯视觉信号（如红绿灯和停止标志）等优势**。但是，相机方法面临的一个关键挑战是缺乏深度信息**。

前人研究表明，高质量的深度信息能够显著提高 3D 检测性能，因此当前许多研究工作致力于从相机图像中恢复深度信息，然而，深度估计仍是一个

最低0.47元/天解锁文章

自动驾驶打工人

关注

27
点赞
踩
14

收藏

觉得还不错? 一键收藏
0
评论
自动驾驶BEV感知的下一步是什么？

图2. 本文方法的训练Pipeline本文方法主要解决的是，之前 DETR-based 3D 检测器在处理图像特征时存在的深度信息缺失问题。本方法将深度信息编码到查询query) 和值value) 中，并提出了一个深度感知的空间交叉注意力模块和一个深度感知的对比学习方法，以增强深度信息的学习和比较。DA-BEV 的训练流程分为四个部分，包括特征提取BEV编码器深度感知的空间交叉注意力模块和深度对比学习，最后通过 DETR 检测器对 BEV 特征进行预测，得出物体的 3D 边界框和类别信息。
复制链接

扫一扫