论文速读 -- BEVerse-CSDN博客

本文链接：https://blog.csdn.net/weixin_36354875/article/details/126602249

论文速读 – BEVerse: Unified Perception and Prediction in Birds-Eye-View for Vision-Centric Autonomous Driving

先赞后看，养成好习惯。有帮助的话，点波关注！我会坚持更新，感谢您的支持！

参考：
1. BEVerse
2. 3D视觉工坊解析
 3. 评价指标mAP
4. nuScenes数据集评价指标

一. 摘要

文中提出了BEVerse网络，是一个统一的架构，完成基于多视觉的感知和预测任务。利用多时间戳和多视角图像进行共享特征提取，提升（lifting）生成4D BEV表征。自运动补偿之后，利用时空编码器进一步BEV特征提取。最后，使用多任务解码器进行联合推理和预测。在解码器上，提出栅格采样器（grid sampler）来生成支持不同范围和粒度的BEV特征。此外，还设计一个迭代流（iterative flow）方法，实现内存高效的预测。实验发现，时域信息可以提升3D目标检测和语义地图的构建，而多任务学习也有利于运动预测。

二. 介绍

在这里插入图片描述
主要工作：

提出了统一了感知和预测任务，多相机视角BEV表征的框架BEVerse。
提出了迭代流的方法，进行高效的未来预测和多任务学习。
BEVerse 作为多任务模型，在3D目标检测、语义地图构建和运动预测任务上，达到sota水平。

相关工作：
3D目标检测：FCOS3D、PGD、DETR3D、PETR、BEVDet
语义地图构建：HDMapNet（在线构建）、BEVSegFormer
运动预测：非监督学习方式居多、FIERY （第一个BEV运动预测框架）、StretchBEV
多任务学习：工作集中在怎样设计共享结构、怎样平衡优化多任务。FAFNet、MotionNet

三. 网络和方法

BEVerse从N个时间戳中获取M个环视摄像头图像，并将车辆自运动(ego-motion)和摄像头参数作为输入。数据结果包含当前帧障碍物的3D boundingbox、语义地图和运动预测。BEVerse由四个子模块组成：图像-视图编码器、视图转换器、时空BEV编码器和多任务解码器。
在这里插入图片描述

3.1 图像-视图编码器

采用SwinTransformer做主干网络（backbone），创建多层次特征C2、C3、C4、C5，每一层宽高减半。采用BEVDet中上采样C5，将其与C4进行concatenate。

3.2 视图转换器

因为要学习3D时序信息，视图转换器将多视图特征F 和输出的BEV特征G。采用LSS（LiftSplat-Shoot）方法，特征F使用1*1卷积处理预测分类深度分布F’。

3.3 时空BEV编码器

先将过去帧进行时间对齐，使用FIERY方法，BEV编码器由一组时域块组成。主要包含3D卷积和全局池化和中间特征压缩层。

3.4 任务解码器

多任务解码器是并行和独立的一组解码器组成，每个任务解码器包括栅格采样器（grid sampler）、任务编码器（task encoder）和任务头（task head）。栅格采样器作用是裁剪任务特殊区域，通过bi-linear插值转化到理想的分辨率。任务编码器是按照BEVDet，使用ResNet中的基础模块取构建主干网络，并结合与图像-视图解码器类似的多尺度特征。

3.5 输出头

3D物体检测头。与激光存在的维度间隙（dimension gap）已经消失，直接使用CenterPoint第一阶段作为3D检测头。
语义地图构建头。
运动预测头。不同于以上只关心当前帧的头，运动预测是对未来状态的预报。FIERY预测模块有效性受两个重要因素制约：（1）每个BEV像素共享采样的全局潜向量φt，不能代表许多个体的不确定性。（2）仅从采样潜向量初始化未来状态，这样会提高预测的难度。与FIERY不同，我们提出了迭代流的方案，直接预测和采样潜在图，可以分离不同目标的不确定性。
在这里插入图片描述

四. 实验和结果

数据集：Nuscenes， 1000个自动驾驶视频片段，每个片段20s

700 --> 训练
150 --> 验证
150 --> 测试

评价标准：
3D目标检测：nuScenes数据集评价指标
mAP：PR曲线下面积，各类的平均值
ATE、ASE、AVE、AOE、AAE
语义地图构建：mIoU，主要包含元素有车道线，人行横道，道路边界
运动预测：IoU和VPQ（Future Video Panoptic Quality）
在这里插入图片描述