BEV 环视感知算法,能否摆脱预训练?

环视感知(Bird's-Eye View perception)检测模型用于多视角相机的纯视觉感知任务,在当前自动驾驶感知中展现出了优越的性能与广泛的应用。

环视感知算法输出高精度的感知结果,依赖于长时间、大规模的深度预训练,如无预训练的 ConvNeNt-XL 使用的参数量是预训练的 V99 的三倍,但两者的感知输出结果精度却相差不大

在视觉领域,通用的图像主干网络在近几年发展迅速,如:CNN 结构的 ConvNext,InternImage、ViT(Transformer结构),Swin Transformer 等等,这些模型的新结构、大规模,让其 2D 感知任务的性能取得了显著提升。

图片


图像主干网络类型

但是使用大规模深度预训练的过程繁琐、算力与数据消耗巨大,限制了最新的架构技术与网络结构调整应用。在环视感知中采用最新的网络结构,会面临以下挑战:

  • 自然图像和自动驾驶场景之间存在较大的差异

  • 环视感知模型结构复杂,而且对图像主干网络缺少直接的监督,这会带来相应的优化问题

商汤科技联合清华大学、中科院、上海人工智能实验室提出 BEVFormer V2 ,来解决上述问题。

BEVFormer V2 模型架构

BEVFormer V2 的整体框架如下,其核心设计有两个部分:

  • 用辅助损失函数(Loss)引入透视监督(Perspective Supervision)

  • 同时以混合物体询问向量(Hybrid Object Query)作为二阶段检测器

图片

BEVFormer V2 模型架构示意

  • 模型优化辅助:透视监督

首先,BEV 环视感知模型都需要通过视角变换的 View Transformer 模块,将相机透视视角的特征图转化为在 BEV 视角下的特征图。目标检测器也会在 BEV 视角下的特征图上进行结果的预测与损失函数 (Loss) 的计算。

在梯度回传时,监督信息需通过 View Transformer 后,再传递到相机透视视角下的特征图,导致监督信号在过长的优化链路中难以高效优化图像主干网络(backbone)。

而之前提供了帮助的 3D 预训练任务,直接在相机视角下添加检测任务和监督信号,并将监督信号直接输入主干网络(backbone),帮助主干网络优化。

这也是环视感知摆脱大模型深度预训练的关键之一。

图片

透视监督和环视监督架构

我们在 BEVFormer V2 的主干网络(backbone)同时使用两个检测器(detection head):相机视角下的透视检测器(perspective head)和环视感知检测器(BEV head)

两个检测器一起训练,同时为主干网络提供透视视角上的检测结果与监督信号,在两个视角下预测同样的目标物体,然后分别计算损失函数。

透视检测器的损失函数(Loss)作为一项辅助损失函数协助主干网络(backbone)的优化,并不依赖特定的检测器,因此在 BEV 感知模型中具有通用性

图片

二阶段检测器构成示意图

  • 二阶段检测器:利用透视与鸟瞰图信息

当两个检测器一起训练时,我们将其结合成一个二阶段检测器:

透视检测器(perspective head)作为第一阶段,多个相机视角的 proposal 经过后处理,取检测框(bounding box)的中心作为参考点(reference point)。

BEV 检测器(DETR head)为第二阶段,把来自第一阶段 proposal 的参考点和原有的 learnable query 结合,形成混合物体询问向量(hybrid object query),用于第二阶段的检测。

图片

二阶段检测器工作示意图

透视监督和环视监督的优势

  • 感知场景、目标检测物的多重属性

BEV 检测器融合了多个相机视角的信息,其感知结果的 mAP 更高。但是透视检测器有更低的 mATE 和 mAOE,在预测深度、方向等 3D 属性上更为准确。

通过比较采用 BEV 检测器和采用二阶段检测器检测的感知效果:

基于二阶段检测器的感知效果在 NDS 上提升了 2.5,mAP 提升了 1.9

其中,mATE,mAOE 和 mAVE 显著降低,也说明相机视角下的监督信号有助于骨干网络(backbone)的优化,让它更好地感知 3D 场景,获取深度、方向和速度等属性

图片

  • 基于不同图像主干网络的性能提升

通过实验,我们验证了透视监督(perspective supervision)的通用性,对于不同的主干网络,我们的方法均能带来明显的提升,NDS 和 mAP 分别提升约 3 个点 和 2 个点,物体位置偏移、方向和速度的预测误差明显降低

图片

  • 新纪录:nuScenes 主流数据集训练结果性能同期最佳

同时,BEVFormer V2 在自动驾驶 nuScenes 数据集的 3D 检测任务上也创造了新的纪录,其 NDS 为 63.4,mAP 为 55.6,对比此前最好的方法分别提升了 2.4 和 3.1

值得注意的是,我们使用 InternImage-B 作为主干网络的模型,其感知结果也超过了之前的方法。InternImage-B 和 V2-99 参数量相近,但没有使用 3D 预训练,这也证明了 3D 预训练不是必须的,使用透视监督(perspective supervision)和更好的主干网络(backbone)能取得更优异的效果。

这也意味着未来更强大的主干网络(backbone)能够进一步提升 BEV 检测器性能。

图片

「BEVFormer V2」 x 「书生大模型」

在构建新的 BEV 环视感知算法体系时,我们基于透视 3D 检测技术,将 2D 检测与现有的 BEV 环视感知框架融合。而在用于部署的小模型预训练与训练过程中,对部署模型的网络各个部分进行充分监督,以较低的成本获得性能的提升。

结合书生大模型,兼容各类任务的感知框架,能在训练阶段充分处理、利用不同形式的数据与标注。

例如,高质量 3D 检测标注数据获取成本较高,且累积数量相对较少。而 2D 检测标注数据相对较多,同时通用的检测分类极其丰富。

在网络训练的不同阶段以及网络的不同位置,针对这类数据进行监督,能够有效提升各类场景下的物体感知丰富度缓解跨域、跨相机的性能损失,让模型在离线端能够自动生成高质量的标注数据。

书生多模态大模型已经在开放世界的各类任务上都取得了突出成果。未来,将通用领域的多模态大模型引入自动驾驶感知中,是解决自动驾驶感知长尾问题有效手段。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值