BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

kebijuelun

已于 2022-05-21 16:02:26 修改

阅读量1.8k

点赞数

分类专栏： paper_reading 文章标签： 3d 目标检测计算机视觉自动驾驶深度学习

于 2022-05-21 14:49:03 首次发布

本文链接：https://blog.csdn.net/kebijuelun/article/details/124613261

版权

100 篇文章 12 订阅

订阅专栏

Paper name

BEVDet: High-Performance Multi-Camera 3D Object Detection in Bird-Eye-View

Paper Reading Note

URL: https://arxiv.org/pdf/2112.11790v1.pdf

提出了一种在 BEV 视角下检测 3d 物体的方法，主要是在 LSS（lift, splat, shot）基础上增加 CenterPoint 的 head 进行 3d 检测，另外增加了 BEV 空间的数据增广，在 nuscenes 上取得了 sota 效果

提出了一种在 BEV 视角下检测 3d 物体的方法，包含以下模块
- an image-view encoder：编码图像视角的特征
- a BEV encoder：编码 BEV 视角下的特征
- a view transformer：将图像视角转换到 BEV 视角下
- a task-specific head：预测 BEV 下的目标
设计了一种独特的在 BEV 视角下的数据增广方法实现多相机视角下的 3d 物体检测
能在降低计算量的同时提升精度
- 输入尺寸 704x256，mAP 29.4%，NDS 38.4%，239.4 GFLOPs，7.3 FPS
- 输入尺寸 1408x512，mAP 34.9%，NDS 41.7%，601.4 GFLOPs， 2.3 FPS
  - 对比(FCOS3D)：输入尺寸 1600x900，mAP 29.5%，NDS 37.2%，2000 GFLOPs，1.7 FPS

在这里插入图片描述

Image-view Encoder
- backbone：使用 resnet 或 SwinTransformer
- FPN
- head： LSS
View Transformer（集成 LSS 的 view transformer）
- 基于图像特征预测 depth
- 基于预测的 depth 和图像特征 render 点云
- 竖直方向上做 pooling 得到 BEV 特征
BEV Encoder
- resnet + FPN-LSS
Heads
- task-specific head，这里复用 CenterPoint 的 head

1. 图像域数据增广

view transformer 的转换方式如下

其中 I 是相机内参，d 是 depth
对于图像域做的数据增广，比如 flipping、cropping、rotating 都可以用一个 3x3的变化矩阵 A 表示；为了保证图像 pixel 和 3d 空间中对应点的一致性，对于做过图像域数据增广的样本需要在 view transformer 阶段将这部分增广补偿回来

所以在图像域做的数据增广并不会影响 BEV 下的空间分布