BEV（Bird’s-eye-view）三部曲之一：综述

最新推荐文章于 2025-04-05 15:55:42 发布

mathlxj

最新推荐文章于 2025-04-05 15:55:42 发布

阅读量4.2k

点赞数 4

分类专栏：自动驾驶目标检测文章标签：人工智能深度学习 BEV 自动驾驶

本文链接：https://blog.csdn.net/mathlxj/article/details/127695482

版权

13 篇文章

订阅专栏

12 篇文章

订阅专栏

论文名：Delving into the Devils of Bird’s-eye-view Perception: A Review, Evaluation and Recipe
Github
论文网址

零、摘要

BEV perception 主要的4个问题是：

本文基于输入的数据，将BEV研究分为：

Significance.
- 当前在nuScenes数据集上，仅视觉的算法比基于LiDAR的算法NDS指标低20%；在Waymon数据集上，甚至低超过30%。
- 单个相机的价格低于LiDAR的1/10
Space.
Readiness.
- 数据集：KITTI、Waymo、nuScenes、Argoverse
- 结构：Transformer，ViT, Mased Auto-encoders, CLIP

主要的数据集如下：
在这里插入图片描述

LET-3D-APL：类似于3D-AP，但给纵向位置一定的容许偏差.
mAP: 在BEV视角下，根据不同距离阈值
NDS：The nuScenes detection score，综合考虑mAP, mATE (Average Translation Error), mASE (Average Scale Error), mAOE (Average Orientation Error), mAVE (Average Velocity Error) and mAAE (Average Attribute Error)给出的分数。

近期主要的文献有如下：
[Image]

这些方法的表现如下表
[Image]

我们比较关心使用LiDAR和不适用的差距，由标黄的部分可以发现，两者差距还是较大。
与仅仅使用雷达的算法，例如CenterPoint,仍有部分差距。但已经超过了PointPillars.

算法主要分为：
- 2D特征提取器：backbone；
- 2D<->3D的转换矩阵：两种视角转换，2d->3d和3d->2d. 使用物理先验或者3D监督。
- 3D解码器：输入2D/3D的特征，输出3D bbox、BEV视角的地图分割、3D车道线

视角转换在仅摄像头的3D感知中非常关键。主要由两种思路：

使用2D特征来估计深度信息（bin-wise distribution to voxel space），将2D特征lift到3D空间
使用3D-2D映射关系将2D特征编码到3D空间，基于Inverse Perspective Mapping (IPM)，投影矩阵由相机的内参和外参建模。
3.2 BEV LiDAR

提取的3D点云特征转换为BEV特征图，再有一个解码器获得输出。3D点云->BEV的两种思路：

Pre-BEV特征提取
原始点云->体素化点云为离散的网格->3D卷积和3D稀疏卷积
Post-BEV特征提取
3D卷积计算量太大，因此转换为BEV grid, 网格中点的height、instensity、density来表示grid特征，常用的PointPillars、PointNet正是类似的思路