BEV（Bird’s-eye-view）三部曲之三：demo和验证

最新推荐文章于 2024-04-15 21:26:27 发布

mathlxj

最新推荐文章于 2024-04-15 21:26:27 发布

阅读量1.9k

点赞数 1

分类专栏：目标检测 CV 自动驾驶文章标签：人工智能计算机视觉深度学习 BEV 自动驾驶

本文链接：https://blog.csdn.net/mathlxj/article/details/127696916

版权

CV 同时被 3 个专栏收录

24 篇文章 5 订阅

订阅专栏

目标检测

13 篇文章 5 订阅

订阅专栏

自动驾驶

12 篇文章 19 订阅

订阅专栏

1. PYVA: Projecting Your View Attentively (CVPR 2021)

数据集：KITTI
paper，github，35 FPS
输入：单张摄像头前向图
输出：road layout estimation and vehicle occupancy estimation

在这里插入图片描述

目标检测

在这里插入图片描述

道路分割

在这里插入图片描述

2. FIERY (ICCV 2021)

github
主页
数据集：NuScenes
输入：6个视角的相机图像+内参+外参
模型推断输出示意图：
在这里插入图片描述

3. HDMapNET（ ICRA 2022）

暂时没有预训练好的模型，但可以可视化其如何如何处理标注

paper，github，主页，知乎
输入：多摄像头or/and 雷达
输出：HD语义地图分割
数据集：NuScenes
其处理结果如下：

4. Lift, Splat, Shoot (ECCV 2020，NVIDIA)

paper，github，主页， 35 hz on a Titan V
输入：6个摄像头
输出：语义分割，道路和交通参与者
数据集：NuScenes

模型推断结果的例子：
在这里插入图片描述

5. 一个比赛：nuScence 3D Camera-Only Detection

主页

请添加图片描述

5.1 BEFormer: 基于Transformer的BEV编码器

BEVFormer: Learning Bird’s-Eye-View Representation from Multi-Camera Images via Spatiotemporal Transformers

paper，github，中文blog，中文论文，测速V100上，R101-DCN，input size 900X1600，大约2FPS
输入：多视角相机图像
输出：3D目标检测/语义分割
论文汇报的与带LiDAR方法对比：与基于lidar的基线性能相当; 对速度有很好的估计结果.
衡量标准：
- mAP：根据地平面上的中心距离计算，而非IoU上的3D IoU
- ATE: 平移
- ASE: 尺度
- AOE：方向
- AVE：速度
- AAE：属性
一些细节：
- 主干网络：ResNet-101 / VoVnet99
- BEV特征的中心默认对应自我车的位置
- 鸟瞰图询问query Q为一组网格形状的可学习参数，维度为HxWxC，H, W为BEV的高和宽，一一对应到BEV平面中的网格单元区域。大小为200x200，感知范围[-51.2m, 51.2m].
- 空间交叉注意力机制：
  - 将BEV空间上的每个query向量提升到一个柱状查询向量
  - 采样 $N_{ref}$ 个3D参考点，将其投影到二维视图（需要知道相机投影矩阵），对于一个BEV query，只能命中部分视图。（这里的坐标系为以本车为原点的三维坐标系，根据BEV的坐标和分辨率获取真实的x,y, 通过锚点采样得到z）
  - 将这些命中视图中的二维点作为参考点，围绕参考点从命中视图中抽取特征
  - 对这些采样的特征进行加权求和，作为空间交叉注意力的输出.
- 时间注意力机制：融合t时刻的BEV query向量和t-1时刻的历史BEV特征
- BEV特征的应用：拿到的是HxWxC的通用的二维特征
  - 对于3D检测任务，设计DETR的检测head，预测三维检测框和速度，无需NMS
  - 对于地图分割，采用Panopic SegFormer作为地图分割头