BEVDet论文精度

一.前言

1.论文摘要

自动驾驶感知周围环境进行决策,这是视觉感知中最复杂的场景之一。范式创新在解决2D目标检测任务中的成功激励我们寻求一种优雅、可行和可扩展的范式,从根本上推动该领域的性能边界。为此,我们在本文中贡献了BEVDet范式。BEVDet在鸟瞰视图(BEV)中执行3D目标检测,其中大多数目标值被定义,并且可以方便地执行路线规划。我们只是重用现有的模块来构建它的框架,但通过构建一个独占的数据扩充策略和升级非最大抑制策略来实质性地发展它的性能。在实验中,BEVDet在准确性和时间效率之间提供了一个很好的折衷。作为一个快速版本,BEVDet-Tiny在nuScenes val集上获得了31.2%的地图和39.2%的NDS。它与FCOS3D相当,但只需要11%的215.3 GFLOPs计算预算,运行速度为15.6 FPS,快9.2倍。另一个被称为BEVDet-Base的高精度版本获得了39.3%的mAP和47.2%的NDS,大大超过了所有公布的结果。在相当的推理速度下,它以+9.8%的mAP和+10.0%的NDS的大幅度超过了FCOS3D。源代码是公开的,可供进一步研究1。

2.研究背景

2D视觉感知在过去几年中经历了快速发展,并出现了一些杰出的范例,如Mask R-CNN[13],它具有高性能、可扩展性[2,4]和多任务兼容性。然而,对于要求准确性和时间效率的基于视觉的自动驾驶场景,像3D目标检测和地图恢复(即鸟瞰(BEV)语义分割)这样的主要任务仍然在最新的基准中由不同的范例进行。例如,在nuScenes[1]基准,基于图像视图的方法,如FCOS3D[49]和PGD[50]在多摄像机3D目标检测跟踪中具有领先的性能,而BEV语义分割跟踪由基于BEV的方法主导,如PON[39],Lift-Splat-Shoot[33]和VPN[31]。在自动驾驶中,哪个视图空间对感知更合理,我们能在一个统一的框架内处理这些任务吗?针对这些问题,本文提出了BEVDet。通过BEVDet,我们探索了在BEV中检测3D目标的优势,期望与最新的基于图像视图的方法相比具有更好的性能,并与BEV语义分割保持一致。通过这种方式,我们可以进一步验证多任务学习的可行性,这对于时间高效的推理是有意义的。

二.主体结构

1.输入和输出

输入:

N : 表示图像个数

HxW : 表示图像尺寸

3 : 表示通道数

2.图像编码 Image-view Encoder

输入: 多视角图像

步骤1: 2D Backbone : resnet网络+swintranformer

步骤2: 多尺度融合 :FPN

输出: Camera Features

3.视角转换 VIew Transformer

Bevdet想做的是从图像空间转换到Bev空间 转换过程是一个2D到3D的转换 图像过程从2D到3D 再拍扁成BEV特征,将图像特征转换到 BEV 空间。作者使用了 LSS 里的 view transformer 来构建 BEVDet。View transformer 的输入是图像特征,以分类的方式稠密地预测深度值。然后,用分类得分和图像特征来渲染点云。最后,沿着垂直方向(Z坐标轴)使用池化操作,输出 BEV 特征。

输入: 多视角图像特征

步骤1: 深度分布预测 用深度分布预测网络去预测对应的深度分布网络 维度:NxDxH/16xW/16

O:外积矩阵运算。

步骤2: 2D ->3D 特征映射

输出: 3D视锥特征(伪体素)

3.BEV编码 BEV Encoder

对BEV特征做一个进一步编码

BEV Encoder设计流程:

输入 : 3D视锥特征(伪体素)

步骤1 : Pooling 上采样

步骤2 : 多尺度融合

从512x32x32特征 上采样到 640x64x64

这两个一和得到 768x64x64 最后卷积得到256x128x128

4.任务头 Head

三.作者发现的问题

在BEVDet过程中 作者发现了一个非常严重的问题 过拟合现象问题

原因:在原始图像上进行增广 比如随机裁剪 旋转 但是原始图像随机怎么变 但是bev特征是不变的

比如图像原本映射在这个固定的位置,在经过图像裁剪反转之后,还应该映射在这个位置,而不应该产生一点变化。图像表层的增广应该提升图像的表层能力,而不应该是BEV Encoder的表层能力。

解决办法: 作者将两个编码器数据增广的过程分开了 图像数据的Encoder 图像数据按照原始数据去进行数据增广 转化到BEV空间之后呢(View Transformer) BEV空间也进行相似的数据增广 图像裁剪反转之后 BEV空间也能得到相似的数据增强 从而保证BEV空间上也能得到相应的训练 从而缓解了过拟合

四.Scale-NMS设计过程

目标检测一般通过NMS来去除冗余框

BEV空间不同类别的空间分布和图像类别的空间分布是完全不同的:

图像是从相机的透视成像机制,不同类别共享相似的空间分布 2D检测中 两个实例分割的Bounding-box的IOU总是低于0.5的

BEV空间中 两个实例的重叠是0 预测结果之间IOU也因类别而异

现根据每个对象的类别放缩大小,通过缩放的方式调整IOU的分布,有了交集之后就可以和NMS一样去做滤除,滤除后的结果进行缩放到原始尺寸。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值