上海AI Lab又放大招DriveArena：首个高保真闭环生成仿真平台

最新推荐文章于 2024-12-06 07:30:37 发布

自动驾驶之心

最新推荐文章于 2024-12-06 07:30:37 发布

阅读量880

点赞数

文章标签：人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=Mzg2NzUxNTU1OA==&mid=2247621884&idx=2&sn=c247ee34651c768a4efb04811272eac5&chksm=cf77fd58896c3cc2a2f3e147ab6e9eaadba4bbff9c90bb8aa1ba15452efecea0daab0d531e04&scene=126&sessionid=0

版权

点击下方卡片，关注“自动驾驶之心”公众号

戳我-> 领取自动驾驶近15个方向学习路线

今天自动驾驶之心大家分享一篇自动驾驶闭环生成仿真平台DriveArena，由上海人工智能实验室等机构出品！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『闭环仿真』技术交流群

编辑 | 自动驾驶之心

写在前面

DRIVEARENA是首个为高保真度闭环模拟系统设计的驾驶agent，用于在真实场景中进行导航。DRIVEARENA具有灵活、模块化的架构，可无缝交换其核心组件：交通管理器（Traffic Manager），这是一种能够在全球任何街道地图上生成逼真车流的交通模拟器；以及World Dreamer，这是一个具有无限自回归特性的高保真条件生成模型。这种强大的协同作用使任何能够处理现实世界图像的驾驶agent都能够在DRIVEARENA的模拟环境中进行导航。agent通过世界梦想家生成的图像感知周围环境并输出轨迹。这些轨迹被输入到交通管理器中，以实现与其他车辆的逼真交互并产生新的场景布局。最后，最新的场景布局被传回World Dreamer，从而延续模拟循环。这一迭代过程促进了在高度逼真的环境中的闭环探索，为在不同且具挑战性的场景中开发和评估驾驶agent提供了一个宝贵的平台。DRIVEARENA标志着在利用生成图像数据构建驾驶模拟平台方面取得了重大飞跃，为闭环自动驾驶提供了新见解。

代码链接：https://github.com/PJLab-ADG/DriveArena

DRIVEARENA与现有自动驾驶方法和平台在交互性和逼真度方面的比较。交互性表示平台对车辆的控制程度，范围从开环、不可控闭环到可控闭环。逼真度反映了驾驶场景的真实性，从下到上分为：仅交通流、不现实场景、现实场景和多样场景。DRIVEARENA独特地占据了右上方的位置，是第一个为所有车辆生成多样交通场景和环视图像并具有闭环可控性的模拟平台。

当前领域背景

近几十年来，自动驾驶（AD）算法取得了飞速发展，从模块化流程发展到端到端模型和知识驱动方法。尽管这些算法在各种基准测试中表现出色，但在使用回放的开环数据集进行评估时，仍存在重大挑战，掩盖了它们在现实世界中的有效性。公共数据集虽然提供了真实的驾驶数据、真实的传感器输入和交通行为，但本质上偏向于简单的直线行驶场景。在这种情况下，agent只需保持当前状态即可获得看似良好的表现，从而使在复杂情况下评估实际驾驶能力变得复杂。此外，在开环评估中，agent的当前决策不会影响执行或后续决策，这阻止了它反映现实世界驾驶场景中的累积错误。此外，记录的数据集具有静态特性，其他车辆无法对自车的行为做出反应，这进一步阻碍了在动态、真实世界条件下对自动驾驶算法进行评估。

如图1所示，这里对现有的自动驾驶方法和平台进行了分析，发现其中大多数都不足以进行高保真度的闭环模拟。理想情况下，作为具身智能的一部分，agent应在闭环环境中进行评估，在该环境中，其他agent会对自车（ego vehicle）的行为做出反应，而自车也会相应地接收到变化的传感器输入。然而，现有的模拟环境要么无法模拟传感器输入，要么与现实世界存在显著的领域差异，这使得算法难以无缝集成到现实世界中，从而对闭环评估构成了巨大挑战。我们认为，模拟器不仅应紧密反映现实世界的视觉和物理特性，还应在探索性闭环系统中促进模型的持续学习和进化，以适应各种复杂的驾驶场景。为实现这一目标，建立一个符合物理定律并支持交互功能的高保真模拟器至关重要。

因此，我们推出了DRIVEARENA，这是一款基于条件生成模型的开创性闭环模拟器，用于训练和测试驾驶agent。具体而言，DRIVEARENA提供了一个灵活的平台，可以与任何基于摄像头输入的驾驶agent集成。它采用模块化设计，自然支持每个模块的迭代升级。DRIVEARENA由交通管理器（Traffic Manager）和基于自回归生成的“世界梦想家”（World Dreamer）组成。交通管理器可以在全球任何道路网络上生成逼真的交互式交通流，而World Dreamer是一个具有无限自回归能力的高保真条件生成模型。驾驶agent应根据“World Dreamer”生成的图像做出相应的驾驶动作，并将这些动作反馈给交通管理器以更新环境中车辆的状态。新的场景布局将返回给“World Dreamer”进行新一轮的模拟。这一迭代过程实现了驾驶agent与模拟环境之间的动态交互。具体贡献如下：

高保真闭环模拟：我们提出了首个针对自动驾驶的高保真闭环模拟器DRIVEARENA，该模拟器能够提供逼真的周围图像，并与现有的基于视觉的驾驶agent无缝集成。它能够紧密反映现实世界的视觉和物理特性，使agent能够以闭环方式持续学习和进化，适应各种复杂的驾驶场景。

可控性和可扩展性：我们的交通管理器（Traffic Manager）可以动态控制场景中所有车辆的移动，并将道路和车辆布局输入给World Dreamer。“World Dreamer”利用条件扩散框架以稳定且可控的方式生成逼真的图像。此外，DRIVEARENA支持使用全球任何城市的道路网络进行模拟，能够创建具有不同风格的各种驾驶场景图像。

模块化设计：驾驶agent（Driving Agent）、交通管理器（Traffic Manager）和World Dreamer通过网络接口进行通信，构建了一个高度灵活且模块化的框架。这种架构允许使用不同的方法替换每个组件，而无需特定的实现。作为这些参与者的竞技场，DRIVEARENA促进了基于视觉的自动驾驶算法和驾驶场景生成模型的全面测试和改进。

DRIVEARENA框架

如图2所示，提出的DRIVEARENA框架包含两个关键组件：一个是作为后端物理引擎的交通管理器（Traffic Manager），另一个是作为现实世界图像渲染器的World Dreamer。与传统方法不同，DRIVEARENA不依赖于预建的数字资产或重建的3D道路模型。相反，交通管理器能够适应OpenStreetMap（OSM）格式中任何城市的道路网络，这些网络可以直接从互联网下载。这种灵活性使得在不同城市布局上进行闭环交通模拟成为可能。

交通管理器接收自动驾驶agent输出的自车轨迹，并管理所有背景车辆的移动。与依赖扩散模型来进行图像生成和车辆运动预测的世界模型方法不同，我们的交通管理器采用显式的交通流生成算法。这种方法能够生成更广泛的不常见且可能不安全的交通场景，同时也便于实时检测车辆之间的碰撞。

“World Dreamer”能够生成逼真的camera图像，这些图像与交通管理器的输出精确对应。此外，它还允许用户自定义提示来控制生成图像的各种元素，如街景风格、一天中的时间和天气状况，从而增强了生成场景的多样性。具体来说，它采用了一种基于扩散的模型，该模型利用当前的地图和车辆布局作为控制条件来生成环视图像。这些图像作为端到端驾驶agent的输入。鉴于DRIVEARENA的闭环架构，扩散模型需要保持生成图像中的跨视图一致性和时间一致性。

当前帧生成的多视图图像被输入到端到端自动驾驶agent中，该agent可以输出自车（ego vehicle）的运动情况。随后，将规划的自车轨迹发送给DRIVEARENA进行下一步的模拟。当自车成功完成整个路线、发生碰撞或偏离道路时，模拟结束。完成后，DRIVEARENA执行全面的评估过程，以评估驾驶agent的能力。

值得注意的是，DRIVEARENA采用了分布式模块化设计。交通管理器（Traffic Manager）、World Dreamer和自动驾驶（AD）agent通过网络使用标准化接口进行通信。因此，DRIVEARENA并不强制要求World Dreamer或自动驾驶agent的具体实现方式。我们的框架旨在为这些“参与者”提供一个“竞技场”，促进端到端自动驾驶算法和真实驾驶场景生成模型的全面测试和改进。

方法介绍

1）Traffic Manager

大多数现有的真实驾驶模拟器依赖于公共数据集中有限的布局，缺乏动态环境的多样性。为了应对这些挑战，我们利用LimSim作为底层交通管理器来模拟动态交通场景，并为后续的环境生成生成道路和车辆布局。LimSim还提供了一个用户友好的前端图形用户界面（GUI），该界面直接显示鸟瞰图（BEV）地图以及来自World Dreamer和驾驶agent的结果。

我们的交通管理器能够实现交通流中多辆车的交互式模拟，包括全面的车辆规划和控制。我们采用了一个层次化的多车决策和规划框架，该框架对流中的所有车辆进行联合决策，并通过高频规划模块迅速响应动态环境。该框架还融入了合作因子和轨迹权重集，在社交和个人层面为交通中的自动驾驶车辆引入了多样性。

此外，动态模拟器支持从OpenStreetMap获取任何城市的各种自定义高清地图，便于构建多样化的道路图以进行便捷的模拟。交通管理器控制所有背景车辆的移动。对于主体车辆（即自动驾驶车辆本身），提供两种不同的模拟模式：开环和闭环。在闭环模式下，驾驶代理为主体车辆进行规划，交通管理器则使用agent输出的轨迹来相应地控制主体车辆。在开环模式下，驾驶agent生成的轨迹并不实际用于控制主体车辆；相反，交通管理器以闭环方式保持控制。

2）World Dreamer

与最近使用神经辐射场（Neural Radiance Fields, NeRF）和3DGS（3D Gaussian Splatting）从记录的视频中重建环境的自动驾驶生成方法不同，我们设计了一个基于扩散的World Dreamer。它利用来自交通管理器的地图控制条件和车辆布局来生成几何和上下文上准确的驾驶场景。框架具有以下几个优势：（1）更好的可控性。生成的场景可以通过交通管理器中的场景布局、文本提示和参考图像来控制，以捕捉不同的天气条件、光照和场景风格。（2）更好的可扩展性。框架可以适应各种道路结构，而无需事先对场景进行建模。理论上，通过利用OpenStreetMap的布局，支持为世界上任何城市生成驾驶场景。

在图3中展示了基于扩散的“World Dreamer”。在稳定的扩散流程的基础上，“World Dreamer”利用了一个有效的条件编码模块，该模块可接受包括地图和车辆布局、文本描述、相机参数、自我姿态和参考图像在内的多种条件输入，以生成逼真的环视图像。考虑到对于驾驶agent而言，确保跨不同视图和时间跨度的合成场景一致性至关重要，这里借鉴了[29]的灵感，集成了一个跨视图注意力模块，以保持不同视图之间的一致性。此外，采用了一种图像自回归生成范式来强制时间一致性。这种方法使“World Dreamer”不仅能够最大限度地保持生成视频的时间一致性，还能在无限流中生成任意长度的视频，为自动驾驶模拟提供了极大的支持。

条件编码。先前的工作将鸟瞰图（BEV）布局作为条件输入来控制扩散模型的输出，这增加了网络学习生成几何和上下文准确的驾驶场景的难度。本工作提出了一种新的条件编码模块来引入更多的指导信息，这有助于扩散模块生成高保真度的环视图像。具体来说，除了使用与[29]类似的条件编码器对每个视图的相机姿态、文本描述、3D目标边界框和BEV地图布局进行编码外，还明确地将地图和目标布局投影到每个相机视图上，以生成更准确的车道和车辆生成指导的布局画布。具体来说，文本嵌入是通过使用CLIP文本编码器对文本描述进行编码获得的。每个相机的参数（其中K、R、T分别代表相机内参、旋转和平移）和3D边界框的8个顶点通过傅里叶嵌入编码为和。2D BEV地图网格使用与[29]中相同的编码方法获得嵌入。然后，将高清地图和3D边界框的每个类别分别投影到图像平面上，以获得地图canvas和边界框canvas。这些canvases被连接起来以创建layout canvas。最后，通过条件编码网络对layout canvas进行编码，得到最终的特征。

此外，这里还引入了一个参考条件来提供外观和时间一致性指导。在训练过程中，随机从过去的L帧中提取一帧作为参考帧，并使用预训练的CLIP模型从多视图图像中提取参考特征。编码后的参考特征隐含了语义上下文，并通过交叉注意模块整合到条件编码器中。为了使扩散模型能够感知到自车的运动变化，还将自车相对于参考帧的姿态编码到条件编码器中，以捕捉背景的运动变化趋势。相对姿态嵌入通过傅里叶嵌入进行编码。通过整合上述控制条件，我们可以有效地控制周围图像的生成。

自回归生成。为了促进在线推理和流式视频生成，同时保持时间一致性，我们开发了一个自回归生成流程。在推理阶段，之前生成的图像和相应的相对自车姿态被用作参考条件。这种方法引导扩散模型生成当前周围图像，以增强一致性，确保与先前生成的帧之间的过渡更加平滑和连贯。

本文中我们设计的只是World Dreamer的一个简单实现。我们还验证了将自回归生成扩展到多帧版本（使用多个过去帧作为参考并输出多帧图像）以及添加额外的时间模块可以提高时间一致性。

3）Driving Agent

最近的工作已经证明了在公共数据集上进行开环评估以证明驾驶agent规划行为的挑战，这主要是由于所呈现的驾驶场景过于简单。虽然一些研究已经使用如CARLA等模拟器进行了闭环评估，但这些模拟与现实世界的动态环境之间仍存在外观和场景多样性的差异。为了弥补这一差距，DRIVEARENA提供了一个真实的模拟平台，并配备了相应的接口，供基于camera的驾驶agent进行更全面的评估，包括开环和闭环测试。此外，通过改变输入条件（如道路和车辆布局），DRIVEARENA可以生成极端情况，并促进这些驾驶agent在分布外场景下的评估。不失一般性，我们选择了一个具有代表性的端到端驾驶agent，即UniAD在DRIVEARENA中进行开环和闭环测试。UniAD利用周围图像来预测自车和其它agent车辆的运动轨迹，这可以无缝地与我们动态模拟器的API集成以进行评估。此外，感知输出（如3D检测和地图分割）有助于提升我们环境中生成场景的现实性验证。

4）自车控制模式与评估指标

DRIVEARENA 本质上支持驾驶agent的“闭环”仿真模式。即，系统采用agent在每个时间步长输出的轨迹，基于该轨迹更新自车的状态，并模拟背景车辆的动作。随后，它生成下一个时间步长的多视图图像，从而保持连续的反馈闭环。此外，认识到一些自动驾驶agent在开发过程中可能无法进行长期闭环仿真，DRIVEARENA 还支持“开环”仿真模式。在这种模式下，交通管理器将接管自车的控制，而自动驾驶代理输出的轨迹将被记录下来以供后续评估。

在开环和闭环模式下，从结果导向的角度全面评估自动驾驶agent的性能至关重要。受 NAVSIM 和 CARLA 自动驾驶排行榜的启发，DRIVEARENA 采用两种评估指标：PDM 分数（PDMS）和 Arena 驾驶分数（ADS）。

PDMS（路径偏差和速度匹配分数），最初由 NAVSIM提出，用于评估每个时间步长输出的轨迹。遵循 PDMS 的原始定义，该定义综合了以下子分数：

其中，惩罚包括与道路使用者无碰撞（NC）和可行驶区域合规性（DAC），以及包括自我进展（EP）、碰撞时间（TTC）和舒适度（C）的加权平均数。我们对DRIVEARENA进行了小幅修改：在NC评分中，我们不区分“过错方”碰撞；在EP评分中，我们使用交通管理器的自车路径规划器作为参考轨迹，而不是预测驾驶员模型。在模拟结束时，将所有模拟帧的最终PDM分数进行平均。

对于开环模拟，PDMS直接作为自动驾驶agent的评估指标。然而，对于在“闭环”模拟模式下运行的驾驶agent，这里采用了一个更全面的指标，称为Arena Driving Score (ADS)，该分数结合了轨迹PDMS和路线完成度：

其中，Rc ∈ [0, 1] 表示路线完成度，定义为agent完成的路线距离百分比。由于“闭环”模拟会在agent与其他道路使用者发生碰撞或偏离道路时终止，因此ADS为区分agent的驾驶安全性和一致性提供了一个合适的指标。

实验对比

图5. 不同提示和参考图像对相同场景影响的展示。该图展示了DRIVEARENA为同一个30秒模拟序列生成的四个不同的图像序列，每个序列都使用了不同的提示和参考图像。所有序列都严格遵循给定的道路结构和车辆控制条件，保持跨视图的一致性。值得注意的是，这四个序列在天气和光照条件上呈现出显著的差异，但在整个30秒的过程中都始终如一地保持了各自独特的风格。点击此处查看视频演示。

参考

[1] DRIVEARENA: A Closed-loop Generative Simulation Platform for Autonomous Driving.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频