一、前言
虽然自己主要精力在做单目3D检测,但基于多摄融合BEV视角的3D检测也是热度比较高的方向,因此学习补充这方面的知识很有必要,自己也将对论文和代码的一些理解也分享出来。
二、BEV
随着车载传感器类型和数量的不断增多,研究者们期望找到一个统一的表征空间,将多传感器感知统一表达,较为常用的方法是感知后融合方式,这类后融合方式方法较为复杂,且很多融合都需要先验知识和手工设计,鲁棒性不高。2021年的特斯拉AI Day提出了基于BEV的自动驾驶方案,之后国内各大车企也开始探索这一方向。
三、BEVDET
BEVDET也是比较早提出的论文,该论文较为工程化,没有花里胡哨的东西,主要是结合一些现有的方法,实现了在BEV视角的3D检测。

从上图中可以看到作者将其划分为Image View Space 和 BEV Space,分别表示透视视角空间和鸟瞰图视角空间。
Image View Space:在透视视角空间,主要做的是对多摄图像的特征提取,这里的backbone可以选择resnet、swin-transformer等等,然后经过FPN_LSS进行简单的层级特征融合,输出16倍下采样的特征图。

文章介绍了BEV(BirdsEyeView)在自动驾驶中的重要性,特别是BEVDET论文中的方法,包括ImageViewSpace和BEVSpace的特征处理,以及ViewTransformer的作用。作者强调了数据增广在BEV空间的重要性,并提出了在BEV空间进行增强的策略。此外,还讨论了BEV检测的优势和挑战,如信息丢失和硬件要求。
最低0.47元/天 解锁文章
3064

被折叠的 条评论
为什么被折叠?



