BEVDet论文精度

最新推荐文章于 2024-10-07 06:31:57 发布

马喽爱打代码

最新推荐文章于 2024-10-07 06:31:57 发布

阅读量661

点赞数 14

文章标签：目标跟踪人工智能计算机视觉

本文链接：https://blog.csdn.net/2301_77102499/article/details/140998697

版权

一.前言

1.论文摘要

自动驾驶感知周围环境进行决策，这是视觉感知中最复杂的场景之一。范式创新在解决2D目标检测任务中的成功激励我们寻求一种优雅、可行和可扩展的范式，从根本上推动该领域的性能边界。为此，我们在本文中贡献了BEVDet范式。BEVDet在鸟瞰视图（BEV）中执行3D目标检测，其中大多数目标值被定义，并且可以方便地执行路线规划。我们只是重用现有的模块来构建它的框架，但通过构建一个独占的数据扩充策略和升级非最大抑制策略来实质性地发展它的性能。在实验中，BEVDet在准确性和时间效率之间提供了一个很好的折衷。作为一个快速版本，BEVDet-Tiny在nuScenes val集上获得了31.2%的地图和39.2%的NDS。它与FCOS3D相当，但只需要11%的215.3 GFLOPs计算预算，运行速度为15.6 FPS，快9.2倍。另一个被称为BEVDet-Base的高精度版本获得了39.3%的mAP和47.2%的NDS，大大超过了所有公布的结果。在相当的推理速度下，它以+9.8%的mAP和+10.0%的NDS的大幅度超过了FCOS3D。源代码是公开的，可供进一步研究1。

2.研究背景

2D视觉感知在过去几年中经历了快速发展，并出现了一些杰出的范例，如Mask R-CNN[13]，它具有高性能、可扩展性[2，4]和多任务兼容性。然而，对于要求准确性和时间效率的基于视觉的自动驾驶场景，像3D目标检测和地图恢复（即鸟瞰（BEV）语义分割）这样的主要任务仍然在最新的基准中由不同的范例进行。例如，在nuScenes[1]基准，基于图像视图的方法，如FCOS3D[49]和PGD[50]在多摄像机3D目标检测跟踪中具有领先的性能，而BEV语义分割跟踪由基于BEV的方法主导，如PON[39]，Lift-Splat-Shoot[33]和VPN[31]。在自动驾驶中，哪个视图空间对感知更合理，我们能在一个统一的框架内处理这些任务吗？针对这些问题，本文提出了BEVDet。通过BEVDet，我们探索了在BEV中检测3D目标的优势，期望与最新的基于图像视图的方法相比具有更好的性能，并与BEV语义分割保持一致。通过这种方式，我们可以进一步验证多任务学习的可行性，这对于时间高效的推理是有意义的。

二.主体结构

1.输入和输出

输入:

N : 表示图像个数

HxW : 表示图像尺寸

3 : 表示通道数

2.图像编码 Image-view Encoder

输入: 多视角图像

步骤1: 2D Backbone : resnet网络+swintranformer

步骤2: 多尺度融合 :FPN

输出: Camera Features

3.视角转换 VIew Transformer

Bevdet想做的是从图像空间转换到Bev空间转换过程是一个2D到3D的转换图像过程从2D到3D 再拍扁成BEV特征，将图像特征转换到 BEV 空间。作者使用了 LSS 里的 view transformer 来构建 BEVDet。View transformer 的输入是图像特征，以分类的方式稠密地预测深度值。然后，用分类得分和图像特征来渲染点云。最后，沿着垂直方向（Z坐标轴）使用池化操作，输出 BEV 特征。

输入: 多视角图像特征

步骤1: 深度分布预测 用深度分布预测网络去预测对应的深度分布网络维度:NxDxH/16xW/16

O:外积矩阵运算。

步骤2: 2D ->3D 特征映射

输出: 3D视锥特征(伪体素)

3.BEV编码 BEV Encoder

对BEV特征做一个进一步编码

BEV Encoder设计流程:

输入 : 3D视锥特征(伪体素)

步骤1 : Pooling 上采样

步骤2 : 多尺度融合

从512x32x32特征上采样到 640x64x64

这两个一和得到 768x64x64 最后卷积得到256x128x128

4.任务头 Head

三.作者发现的问题

在BEVDet过程中作者发现了一个非常严重的问题 过拟合现象问题

原因:在原始图像上进行增广比如随机裁剪旋转但是原始图像随机怎么变但是bev特征是不变的

比如图像原本映射在这个固定的位置，在经过图像裁剪反转之后，还应该映射在这个位置，而不应该产生一点变化。图像表层的增广应该提升图像的表层能力，而不应该是BEV Encoder的表层能力。

解决办法: 作者将两个编码器数据增广的过程分开了图像数据的Encoder 图像数据按照原始数据去进行数据增广转化到BEV空间之后呢(View Transformer) BEV空间也进行相似的数据增广图像裁剪反转之后 BEV空间也能得到相似的数据增强从而保证BEV空间上也能得到相应的训练从而缓解了过拟合