时序融合新思路!Cyclic Refiner:用于BEV空间下的检测与跟踪

作者 | 自动驾驶Daily  编辑 | 自动驾驶Daily

点击下方卡片,关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

>>点击进入→自动驾驶之心BEV感知技术交流群

本文只做学术分享,如有侵权,联系删文

本篇介绍近期由KargoBot(卡尔动力)和北京交通大学联合发表在顶刊IJCV上的一篇BEV检测和跟踪的文章Cyclic Refiner: Object-Aware Temporal Representation Learning for Multi-View 3D Detection and Tracking.

Motivation

从nuScenes的榜单上我们可以看到,当前主流的SOTA BEV检测算法都依赖时序融合。不同的策略诸如BEVFormer中多帧拼接后做Deformable Attention,SparseBEV中将object query投到不同历史帧做特征采样被引入。然而很少有文章去讨论这些时序融合带来的负面影响。

回顾最近的相关方法,我们观察到这些模型通常以“顺序”的方式构建整个时序融合模型,形成了“多视图输入→提取视图/BEV特征→ 时序融合→检测”的流程 (见图1a的黑色箭头)。

在该策略中,“视图/BEV特征”被用于当前帧的前向推理和下一帧的时序融合。然而,现实世界中复杂的驾驶场景包含各种各样的干扰因素和背景杂波(图1a中的三角形)。在时序融合中直接和简单地使用前一帧的特征可能会引入历史背景干扰,降低未来帧表示学习的质量,最终导致FP(见图1a中的紫色箭头)。历史帧的背景干扰信息会随着时间不断积累,进一步影响感知的准确性。

在图1b时间t中,模型已经正确识别蓝色广告牌为背景干扰物(青色圆圈)。然而在时间t+1,时序模型BEVFormer-Temporal错误地把此干扰物判定为目标、产生FP,而静态模型BEVFormer-Static没有出现误判。这表明历史帧中高语义的背景可能会在时序融合后干扰未来特征学习和感知。相比之下,认知科学已经证明,人类的识别系统更加出色,它可以在下一次推理之前利用已学习知识进行归纳反思,并在未来遇到此类问题提供参考。

89c9f5d03f5eb5f8b3756366eaaa9857.png
图1:a)所提出的循环优化机制;b)时序融合中背景干扰示例。

Method

28d3dcb656cb467c517293e41672321b.png

基于上述观察,我们提出一种循环优化机制。其核心是将历史帧的预测结果(例如目标位置和大小) 作为后验信息来修正已得到的视图/BEV特征(见图1a中的红色箭头),即“反向优化”。这种方式类似于深度网络的训练流程,预测结果中的物体信息被当作“假梯度”以优化原始的多视图/BEV特征,即期望抑制背景干扰物的响应。在“反向优化”后,修正后的特征会通过时序融合模块参与下一帧的视图/BEV表征学习,其历史信息会作为先验知识引导下一帧的目标感知与特征建模,进而增强最终预测的准确性与鲁棒性。

d488b015953f11e295aea7784afcf25d.png
图2:循环优化机制中反向优化模块

具体而言,对于预测的目标,我们将其对应的多种特征线索(包括2D视图RoI特征、BEV ROI特征和预测头嵌入向量)融合用以预测用于过滤背景干扰物的掩模。掩膜可以看作是不同目标对应的二维高斯分布的组合,其中的峰值是各目标的中心位置,权重值通过对目标特征进行线性映射预测。

此外,我们意识到不同类别的物体在BEV空间中的大小差异极大(例如卡车和锥桶)。因此,有必要将目标尺度信息编码到分布掩膜中,以防止过大的掩膜范围包含背景干扰或过小的掩码范围丢失目标信息。在我们的方法中,每个目标会预测一个尺度级别,以确定其在分布掩模中的空间范围。最终。不同尺度目标生成的分布掩膜会与原始视图/BEV特征进行交互与融合,形成修正后特征并参与下一帧的时序信息融合。

Results

我们所提出的泛化框架可方便地嵌入到不同设计的模型中,例如基于dense-query的BEVFormer、基于sparse-query的SparseBEV和基于LSS的BEVDet4D。

在nuScenes检测和跟踪任务的实验结果表明,我们的框架CycBEVFormer、CycSparseBEV和CycBEVDet4D相比基线方法分别带来1.7%/1.8%/2.9% mAP和13.0%/13.9%/16.0% AMOTA(我们也将检测模型用到了跟踪任务,并做了针对的优化,详见论文)的性能提升,证明其有效性和通用性。

a181602fad4885865eb08d0be70faa8c.png

Other Analysis

1.计算cost

389470524cced0df293729ab5fc908c3.png

如上表所示,我们的模块增加的计算量十分小,但是提升比较明显,性价比较高。

2.时序融合分析

3f52d465cff0c400899df3add77f9b0a.png

如上表所示,intersection set是BEVFormer的static/temporal版本共同检测出来的目标,而difference set是一个模型检测出来但一个模型没有检测出来的目标。在共同检测出来的目标上,可以看到,时序信息的确可以帮助提升感知的准确性。然而,部分在“Difference Set”中被静态版本BEVFormer-Static检测出的目标,在引入历史帧特征后却令人惊讶地丢失了。这证明了我们的观点,即前一帧大量的背景干扰会通过时序融合模块干扰当前帧的特征学(如3.9%的mAP损失)。相比之下,加入我们所设计循环优化模块的CycBEVFormer-Small仅损失了0.9%的mAP,表明所提出的“反向优化”能够有效缓解历史帧背景干扰对时序表征学习的负面影响。

527a69ceda93df8fabe2018a05fed0f4.png

如上左图,FP曲线显示,与static模型相比,直接进行时序融合产生的FP更多,说明历史背景干扰会影响目标预测的注意力。值得注意的是,随着筛选分数阈值提高,static版本和temporal版本的FP差异越来越大,这表明FP受到高语义的历史干扰物的影响更大(如阈值>0.6,如图1b所示)。相比之下,我们的CycBEVFormer-Temporal产生的FP更少。而FN曲线表明与static版本相比,时序融合能够降低丢失目标的风险。我们的方法同样显著减少了基线BEVFormer-Temporal在所有分数阈值下的FN数目。

3.可视化分析

下图8、9可视化了循环优化模块中分布掩膜在多视图/BEV的响应位置,证明其能够锁定目标区域进行关键信息提取,并通过时序信息的累积进一步提升目标/背景的判别能力。图10表明分布掩膜优化后的目标感知特征能够避免产生背景区域的预测,提高感知准确性。

6451b0527b462fe6e1e64b458ea53cc1.png bd8908043c88e738fb0450ea017b0855.png a83824bace386eeddc07498406217140.png

图11、12说明直接引入历史信息会干扰特征采样,在所学习表征中引入目标无关的背景干扰信息。而经过循环优化后,模型能够感知目标区域并生成对应位置的采样点,提高时序表征学习的建模质量。

0990fe35044ade5781c713a6a1be03c1.png 4b7589a60f068b7055f9dec5b3eca57f.png

投稿作者为『自动驾驶之心知识星球』特邀嘉宾,欢迎加入交流!

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合多传感器标定多传感器融合多模态3D目标检测车道线检测轨迹预测在线高精地图世界模型点云3D目标检测目标跟踪Occupancy、cuda与TensorRT模型部署大模型与自动驾驶Nerf语义分割自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码即可学习

3f1948a4adf90b5a4c17dcd44f738e98.png

网页端官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业,近3000人的交流社区,已得到大多数自动驾驶公司的认可!涉及30+自动驾驶技术栈学习路线,从0到一带你入门自动驾驶感知2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪)、自动驾驶定位建图SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案大模型、端到端等,更有行业动态和岗位发布!欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频

59e5ef62efc3d9e10ae6138ad0c9cb38.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦感知、定位、融合、规控、标定、端到端、仿真、产品经理、自动驾驶开发、自动标注与数据闭环多个方向,目前近60+技术交流群,欢迎加入!扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

abadc64ef0fdc0b6946ef78761f7ed50.jpeg

④【自动驾驶之心】全平台矩阵

9b5bc005539e3b779cf236cbba16e590.png

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值