ECCV‘24开源 _ 预测未来!CarFormer:打造最强自动驾驶 + 世界模型!

ECCV’24开源 | 预测未来!CarFormer:打造最强自动驾驶 + 世界模型!

0. 这篇文章干了啥?

一句话总结:我们介绍了CarFormer,这是一种自回归Transformer模型,既可以驱动也可以作为世界模型,预测未来的状态。我们证明,基于槽注意力的学习、自我监督、以对象为中心的自动驾驶表示包含了驾驶所需的信息,如车辆的速度和方向。

附赠自动驾驶最全的学习资料和量产经验:链接

1. 论文信息

标题:CarFormer: Self-Driving with Learned Object-Centric Representations

作者:Shadi Hamdan, Fatma Güney

机构:KUIS AI Center

原文链接:https://arxiv.org/abs/2407.15843

代码链接:https://github.com/Shamdan17/CarFormer

官方主页:https://kuis-ai.github.io/CarFormer/

2. 摘要

在自动驾驶中,表示方法的选择起着关键作用。近年来,鸟瞰图(BEV)表示方法展现出了卓越的性能。在本文中,我们提出在BEV中学习以物体为中心的表示方法,以将复杂的场景提炼为更易于自动驾驶系统操作的信息。我们首先使用基于BEV序列的槽注意力模型,学习将物体放置到槽位中。在这些以物体为中心的表示基础上,我们训练一个Transformer模型,使其学会驾驶,并能够对其他车辆的未来行为进行推理。我们发现,以物体为中心的槽位表示方法在性能上优于使用物体精确属性的场景级和物体级方法。槽位表示方法自然地融合了物体在空间和时间上下文中的信息,如位置、朝向和速度,而无需显式提供这些信息。我们的带槽位模型提高了所提供路线的完成率,从而获得了更高的驾驶评分,并且在多次运行中的方差更低,这证实了槽位在以物体为中心的方法中是一种可靠的替代方案。此外,我们通过预测实验验证了我们的模型作为世界模型的性能,证明了其准确预测未来槽位表示的能力。代码和预训练模型可在https://kuisai.github.io/CarFormer/上找到。

3. 效果展示

image

4. 主要贡献

– 一种基于槽注意力机制的、自监督的、以物体为中心的自动驾驶表示方法,它包含驾驶所需的信息,如车辆的速度和方向,而无需显式提供这些信息。

– CarFormer,一种自回归Transformer,既可以驾驶也可以作为世界模型,预测未来状态。

– 在Longest6基准测试的特权设置下,达到了最先进的性能,优于精确的物体级属性。

5. 基本原理是啥?

我们介绍了CarFormer,用于在CARLA的城市环境中学习驾驶。由于本车与其他车辆之间的交互,城市驾驶呈现出复杂性。我们的目标是通过槽位表示来捕捉场景动态,从而学习驾驶行为。我们将行为学习表述为一个序列建模问题,如图1所示。该序列由表示目标、状态和动作的标记组成。在详细介绍模型架构之前,我们首先定义了每个方面的表示。

image

6. 实验结果

比较:我们在表1中展示了在Longest6基准上的在线评估结果。该表根据表示类型的不同分为三个部分:顶部是场景级表示,其次是精确物体级属性,底部是物体级槽位表示。在场景级表示中,CarFormer落后于另一种模仿学习方法AIMBEV和一种强化学习方法ROACH。尽管使用VQ-VAE可以准确地重建输入BEV,但该模型无法关注物体,这由明显较低的违规分数(IS)证明。

与使用VQ-VAE的场景级表示相比,我们发现物体级表示的性能有显著提升。尽管由于行驶距离更长而导致IS较低,但带有槽位的CarFormer在远程控制(RC)方面的表现优于PlanT,其平均驾驶分数(DS)更高,且方差仅为PlanT的一半(见表1)。这一成就尤其值得注意,原因有两点:首先,槽位模型(底部一行)仅凭BEV就实现了这一点。虽然PlanT和带有属性的CarFormer可以访问精确的代理位置,但槽位模型学会了将代理准确地放置在槽位中。其次,槽位模型的方差显著降低,表明其在多次运行中的稳定性更高,从而证实了槽位是属性向量的一种更可靠的替代方案。请注意,我们模型性能的提升不能归因于架构的变化,因为带有属性的CarFormer的性能比方差更高的PlanT更差。

image

7. 总结 & 未来工作

在本文中,我们介绍了CarFormer,这是首个采用物体级槽位表示的自动驾驶方法。我们证明了使用槽位进行推理不仅提高了驾驶评分,还提高了在多次在线评估中面对各种变化时的鲁棒性。我们训练和验证了CarFormer的性能,既将其作为预测动作的策略,又将其作为预测物体未来状态的视觉动力学模型。与PlanT利用Transformer编码器处理单个时间步长不同,我们在CarFormer中采用了自回归Transformer解码器。这种设计有潜力扩展到使用奖励/回报令牌的多步推理,正如在机器人任务中所展示的。

与机器人任务相比,自动驾驶的状态表示更为复杂,除了众所周知的外观挑战外,还涉及物体之间复杂的动态关系,特别是在从摄像机中提取信息时。我们目前假设在我们的模型中可以使用真实的鸟瞰图(BEV)地图。尽管近年来在学习BEV表示方面取得了显著进展,但在城市驾驶场景中,BEV感知仍然缺乏从中提取槽位所需的准确性。与其采用先估计BEV再从中提取槽位的两阶段方法,不如采用更直接的方法在BEV中提取槽位,这既提高了效率,又避免了级联错误。随着从现实世界视频中提取槽位的技术进步,任何可以被放入槽位的物体都可以成为我们模型中的推理部分。

  • 1
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值