IJCAI2023 | PowerBEV:一个强大且轻量的环视BEV实例预测框架!

作者 | P Li  编辑 |  自动驾驶与AI

原文链接:https://zhuanlan.zhihu.com/p/639784607

点击下方卡片,关注“自动驾驶之心”公众号

ADAS巨卷干货,即可获取

点击进入→自动驾驶之心【BEV感知】技术交流群

论文:PowerBEV: A Powerful Yet Lightweight Framework for Instance Prediction in Bird's-Eye View

论文中稿CCF-A类人工智能国际顶会IJCAI 2023

论文地址:arxiv.org/abs/2306.10761

代码地址:github.com/EdwardLeeLPZ/PowerBEV

作者名单:
Peizheng Li, Shuxiao Ding, Xieyuanli Chen, Niklas Hanselmann, Marius Cordts, Jürgen Gall

作者单位:德国梅赛德斯奔驰公司,波恩大学, 图宾根大学

摘要

准确地感知物体实例并预测它们未来的运动是自动驾驶车辆的关键任务,使它们能够在复杂的城市交通中安全导航。虽然鸟瞰图(BEV)表示在自动驾驶感知中是常见的,但它们在运动预测中的潜力尚未得到充分探索。现有的从环绕摄像头进行BEV实例预测的方法依赖于多任务自回归设置以及复杂的后处理,以便以时空一致的方式预测未来的实例。在本文中,我们不同于这中范例,提出了一个名为PowerBEV的高效新型端到端框架,采用了几种旨在减少先前方法中固有冗余的设计选择。首先,与其按自回归方式预测未来,PowerBEV采用了由轻量级2D卷积网络构建的并行多尺度模块。其次,我们证明,分割和向心反向流对于预测是足够的,通过消除冗余输出形式简化了先前的多任务目标。基于此输出表示,我们提出了一种简单的基于流变形的后处理方法,可在时间上产生更稳定的实例关联。通过这种轻量化但强大的设计,PowerBEV在NuScenes数据集上胜过了最先进的方法,并为BEV实例预测提供了一种替代范例。项目代码已经开源:https://github.com/EdwardLeeLPZ/PowerBEV

主要贡献

  • 我们提出了PowerBEV,一个新颖而优雅的基于视觉的端到端框架,它只由2D卷积层组成,用于在BEV中执行多个对象的感知和预测。

  • 我们证明,由于冗余表示引起的过度监督会影响模型的预测能力。相比之下,我们的方法通过简单地预测分割和向心反向流来实现语义和实例级别的代理预测。

  • 我们提出的基于向心反向流的提议分配优于以前的前向流结合传统的匈牙利匹配算法。

主要方法

我们的方法的框架如图1所示。它主要由三个部分组成:感知模块、预测模块和后处理阶段。感知模块将 M 个多视角相机图像作为  个时间戳的输入,并将他们转换为个BEV特征图。然后,预测模块融合提取的BEV特征中包含的时空信息,并同时预测一系列分割地图和向心反向流,用于  未来帧。最后,通过基于变形的后处理。从预测的分割和流中恢复未来的实例预测。

73227602c0d3bfc2c6934c7d34dac18a.png
图1:PowerBEV框架

1、基于LSS的感知模块

a8ee92ba1a6f76ef789a4bb018af872e.png f92cd36ebe6835ae3bc38889638d023e.png 14989e72d9a60e4fe56e25ef437b25a5.png

2、多尺度预测模块

86d62e16facf28428cbfbdacb237de89.png
图2:多尺度预测模块结构

获得过去环境的简洁表示S后,我们使用一个多尺度U-Net类编码器解码器架构,将观察到的BEV特征图作为输入,并预测未来的分割地图和向心反向流场,如图2所示。为了仅使用2D卷积进行时空特征处理,我们将时间和特征维度折叠成一个单一的维度,从而得到输入张量。664b349262e700dd40d7eba3089c67ea.png

3、多任务的设置

现有的方法遵循自下而上的原则,为每个帧生成实例分割,然后根据前向流使用匈牙利匹配算法在帧之间关联实例。因此,需要四个不同的头部:语义分割、中心性、未来前向流和BEV中的每像素向心偏移。这导致由于多任务训练而产生模型冗余和不稳定性。相比之下,我们首先发现,流和向心偏移都是实例掩模内的回归任务,并且流可以理解为运动偏移量。此外,这两个量与中心性在两个阶段中组合:(1)向心偏移将像素分组到每个帧中预测的实例中心,以将像素分配给实例ID;(2)流用于匹配两个连续帧中的中心以进行实例ID关联。基于以上分析,使用统一表示形式直观地解决这两个任务。为此,我们提出了向心反向流场,它是从时间t处的每个前景像素到时间t−1处关联实例标识的对象中心的位移向量。这将像素到像素的反向流向量和向心偏移向量统一为单一表示形式。使用我们提出的流,可以直接将每个占用的像素关联到上一帧中的实例ID。这消除了将像素分配给实例的额外聚类步骤,将先前工作中使用的两阶段后处理简化为单阶段关联任务。此外,我们发现语义分割地图和中心性的预测非常相似,因为中心基本对应于语义实例的中心位置。因此,我们建议直接从预测的分割地图中提取局部最大值来推断对象中心。这消除了分别预测中心的需要,如图3所示:

69af6dc89ab16acde5060e297e8af668.png
图3:多任务设置
15dd3ef6558ff6359cb3414eeb581711.png b539ecccdc6150fa39dcb4b0a4603525.png

其中 =0.95,和使用不确定性权重自动的更新。

4、实例关联

61a18f15e0afb0c8c6f88871978144a8.png
图4:实例关联

3ad3c94b875ba96620c21e2502da2abe.png这种方法执行实例级别的关联,其中实例身份由其中心表示。因此,仅使用位于对象中心上的流向量用于运动预测。这有两个缺点:首先,没有考虑对象旋转;其次,单个位移向量比覆盖整个实例的多个位移向量更容易出错。在实践中,这可能导致重叠的预测实例,导致错误的ID分配。这在长期预测范围内的近距离物体上尤为明显。利用我们提出的向心反向流,我们进一步提出了基于变形的像素级关联来解决上述问题。我们的关联方法的说明如图4.b所示。对于每个前景网格单元,该操作将实例ID直接从前一个帧中流向量目标处的像素传播到当前帧。使用此方法,每个像素的实例ID都被单独分配,从而产生像素级关联。与实例级别关联相比,我们的方法对严重的流预测错误更具有容忍度,因为真实中心周围的相邻网格单元倾向于共享相同的身份,而错误往往发生在单个外围像素上。此外,通过使用向后流变形,可以将多个未来位置与前一帧中的一个像素关联起来。这对于多模式未来预测是有益的。正如所述,向后关联需要在前一帧中的实例ID。特殊情况是第一个帧(t=0)的实例分割生成,其没有其前一帧 (t=-1) 的实例信息可用。因此,仅针对时间戳 (t=0) ,我们通过将像素分组到过去实例中心来分配实例ID。

主要结果

我们首先将我们的方法与其他baseline相比较,结果如表1所示。我们的方法在感知范围设置下的评估指标IoU(Intersection-over-Union)和VPQ(Video Panoptic Quality)均取得了显着的改进。在长距离设置中,PowerBEV的表现优于重新生成的FIERY,在IoU方面提高了1.1%,在VPQ方面提高了2.9%。此外,尽管使用较低的输入图像分辨率和更少的参数,PowerBEV在所有指标上的表现都优于BEVerse。与其他引入模型随机过程的方法相比,PowerBEV是一种确定性方法,能够实现准确的预测。这也展示了反向流在捕捉多模态未来方面的能力。

2b764a75f4a0dac31d1ef81786efbe01.png
图5:定量评估解决

下图展示了我们方法的定性结果。我们展示了在三种典型驾驶场景中(城市道路上交通密集的情况、停车场中静态车辆众多的情况和雨天驾驶场景)与FIERY的比较。我们的方法为最常见的交通密集场景提供了更精确、更可靠的轨迹预测,这在第一个例子中变得特别明显,其中车辆转向自车左侧的侧街。而FIERY只对车辆位置作出了一些模糊的猜测,并且难以处理它们的动态特征,与之相反,我们的方法提供了更好地匹配真实车辆形状以及未来可能轨迹的清晰物体边界。此外,从第二个例子的比较中可以看出,我们的框架可以检测到位于较远距离的车辆,而FIERY则失败了。此外,我们的方法还可以检测到在雨天场景中被墙壁遮挡的卡车,即使对于人眼来说也很难发现。

51b63bff676388cbb4e39b7f903c77ed.png
图6:可视化对比结果

结论

在这项工作中,我们提出了一个新颖的框架PowerBEV,用于BEV的未来实例预测。我们的方法只预测语义分割和向心后向流,使用平行方案的2D-CNNs。此外,它还采用了一种新的后处理方法,能更好地处理多模式的未来运动,在NuScenes基准中取得最先进的实例预测性能。我们提供了彻底的消融研究,分析了我们的方法并显示了其有效性。实验证实,尽管产生了更好的性能,PowerBEV比以前的方法更轻量化。因此,我们认为这种方法可以成为BEV中实例预测的新设计范式。

① 全网独家视频课程

BEV感知、毫米波雷达视觉融合、多传感器标定、多传感器融合、3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、协同感知、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频(扫码免费学习)

464f96bd517a86b421136a6d5a14ccde.png 视频官网:www.zdjszx.com

② 国内首个自动驾驶学习社区

近2000人的交流社区,涉及30+自动驾驶技术栈学习路线,想要了解更多自动驾驶感知(2D检测、分割、2D/3D车道线、BEV感知、3D目标检测、Occupancy、多传感器融合、多传感器标定、目标跟踪、光流估计)、自动驾驶定位建图(SLAM、高精地图、局部在线地图)、自动驾驶规划控制/轨迹预测等领域技术方案、AI模型部署落地实战、行业动态、岗位发布,欢迎扫描下方二维码,加入自动驾驶之心知识星球,这是一个真正有干货的地方,与领域大佬交流入门、学习、工作、跳槽上的各类难题,日常分享论文+代码+视频,期待交流!

3eaf28f11294f1cfb87f92b31d4b85f1.png

③【自动驾驶之心】技术交流群

自动驾驶之心是首个自动驾驶开发者社区,聚焦目标检测、语义分割、全景分割、实例分割、关键点检测、车道线、目标跟踪、3D目标检测、BEV感知、Occupancy、多传感器融合、大模型、SLAM、光流估计、深度估计、轨迹预测、高精地图、NeRF、规划控制、模型部署落地、自动驾驶仿真测试、产品经理、硬件配置、AI求职交流等方向。扫码添加汽车人助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

510fa2a5430acb77650a9f9f321b4137.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值