ChatSim:使用大语言模型代理LLM-Agents实现自动驾驶场景仿真,获取训练数据

Abstract

自动驾驶中的场景仿真因其在生成定制数据方面的巨大潜力而备受关注。然而,现有的可编辑场景仿真方法在用户交互效率、多摄像头逼真渲染和外部数字资产集成方面存在局限性。为了应对这些挑战,本文介绍了ChatSim,这是第一个通过自然语言命令和外部数字资产实现可编辑逼真3D驾驶场景仿真的系统。为了实现高命令灵活性的编辑,ChatSim利用了一个大语言模型(LLM)代理协作框架。为了生成逼真的结果,ChatSim采用了一种新颖的多摄像头神经辐射场方法。此外,为了释放高质量数字资产的潜力,ChatSim采用了一种新颖的多摄像头光照估计方法,以实现场景一致的资产渲染。我们在Waymo Open Dataset上的实验表明,ChatSim可以处理复杂的语言命令并生成相应的逼真场景视频。代码地址:

https://github.com/yifanlu0227/ChatSim

图片

Introduction

为了有效地模拟定制的驾驶场景,我们确定了三个关键属性是基本的。首先,仿真应该能够遵循复杂或抽象的需求,从而促进生产。其次,仿真应该生成逼真、视图一致的结果,这样可以最接近车辆在真实世界场景中的观察。第三,它应该允许集成外部数字资产,并保持逼真的纹理和材料,同时适应照明条件。这种能力将通过引入各种外部数字资产来解锁数据扩展的潜力,满足定制需求。

虽然已经提出了大量重要的工作用于场景仿真,但它们未能满足所有三个要求。传统的图形引擎,如CARLA和UE,提供了可编辑的虚拟环境和外部数字资产,但数据真实性受限于资产建模和渲染质量。图像生成方法,如BEVControl、DriveDreamer、MagicDrive,可以基于各种控制信号生成逼真的场景图像,包括鸟瞰视图地图、边界框和相机姿态。然而,由于缺乏3D空间建模,它们难以保持视图一致性,并且在导入外部数字资产方面面临挑战。基于渲染的方法已被提出以获得逼真且视图一致的场景仿真。著名的例子如UniSim和MARS配备了一套场景编辑工具。然而,这些系统在每一步编辑中都需要大量的用户参与,通过代码实现每个细节步骤,这在执行编辑时效率低下。此外,虽然它们在处理观测到的场景中的车辆时效果显著,但它们不支持外部数字资产,限制了数据扩展和定制的机会。

图片

协作LLM代理进行编辑

ChatSim系统分析具体的用户命令并返回符合定制需求的视频。由于用户命令可能是抽象和复杂的,要求系统具有灵活的任务处理能力。直接应用单个LLM代理难以处理多步骤推理和交叉引用。为了解决这个问题,我们设计了一系列协作LLM代理,每个代理负责编辑任务的独特方面。

图片

1.具体代理

 ChatSim中的代理包括两个关键组件:一个大语言模型(LLM)和相应的角色功能。LLM负责理解接收的命令,而角色功能则处理接收到的数据。每个代理配备了专门针对其具体职责设计的LLM提示和角色功能。代理首先使用LLM和提示将接收的命令转换为结构化配置。然后,角色功能将结构化配置用作参数,处理接收到的数据并产生所需的结果。

1.1项目经理代理

项目经理代理将直接命令分解为清晰的自然语言指令并发送给其他编辑代理。为了使项目经理代理具有命令分解的能力,我们为其LLM设计了一系列提示。提示的核心思想是描述动作集,给出总体目标,并通过示例定义输出形式;角色功能将分解的指令发送给其他代理进行编辑。项目经理代理的存在增强了系统在解释各种输入方面的稳健性,并简化了操作,使其更加清晰和细致。

1.2视图调整技术代理

视图调整代理生成适当的外部相机参数。代理中的LLM将视图调整的自然语言指令翻译为移动参数,目标视图的位置和角度。在角色功能中,这些移动参数被转化为外部所需的变换矩阵,然后与原始参数相乘以生成新视点。

1.3背景渲染技术代理

背景渲染代理基于多摄像头图像渲染场景背景。LLM接收渲染命令,然后操作角色功能进行渲染。值得注意的是,在角色功能中,我们专门集成了一种新颖的神经辐射场方法(McNeRF),接收多摄像头输入并考虑曝光时间,解决了多摄像头渲染中的模糊和亮度不一致问题,详见第4.1节。

1.4车辆删除技术代理

车辆删除代理从背景中删除指定的车辆。代理首先从给定的场景信息或场景结果中识别当前车辆属性,如3D边界框和颜色。

2. Agent协作工作流程

带有定制功能的代理共同合作,基于用户命令进行编辑。项目经理协调和分配指令给编辑代理。编辑代理组成两个团队:背景生成和前景生成。对于背景生成,背景渲染代理使用视图调整代理的外部参数生成渲染图像,然后由车辆删除代理进行修复。对于前景生成,前景渲染代理使用视图调整代理的外部参数、3D资产管理代理选择的3D资产以及车辆运动代理生成的运动信息渲染图像。最终,前景和背景图像组合在一起,创建并交付给用户一个视频。每个代理配置中的编辑信息由项目经理代理记录,以便可能的多轮编辑。

新颖的渲染方法

基于第3节介绍的协作LLM代理框架,本节介绍了两种增强模拟真实性的新渲染技术。为了解决多摄像头带来的渲染挑战,我们提出了多摄像头神经辐射场(McNeRF),一种考虑不同相机曝光时间的视觉一致性新型NeRF模型。为了使用位置特定的光照和准确的阴影渲染逼真的外部数字资产,我们提出了McLight,一种结合McNeRF的新型混合光照估计方法。需要注意的是,McNeRF和McLight分别被背景渲染代理和前景渲染代理使用。

图片

1. 用于背景渲染的McNeRF

自动驾驶车辆通常装备多个摄像头以实现全面的感知视图。然而,这对NeRF训练提出了挑战,因为来自不同步的相机触发时间和不同曝光时间的亮度不一致会导致多摄像头姿势不对齐。为了解决这些问题,所提出的McNeRF采用了两种技术:多摄像头对齐和亮度一致性渲染。

1.1 多摄像头对齐

尽管自动驾驶车辆具有用于精确相机姿势的定位模块,但由于多摄像头的异步触发时间,姿势对齐仍然存在挑战。为了对齐NeRF训练的相机外部参数,我们的核心思想是利用Agisoft Metashape提供的一致空间坐标系统对齐不同时间戳捕获的多摄像头图像。

图片

1.2 亮度一致性渲染

相机的曝光时间可能会显著不同,导致图像间的亮度差异大,影响NeRF训练。McNeRF通过将曝光时间纳入HDR辐射场来解决这个问题,从而实现亮度一致性。

图片

通过预测HDR场景辐射并将其乘以曝光时间,我们恢复了传感器接收的光强度,解决了两张曝光时间不同的相机图像在交叉点处的颜色不一致问题。此外,McNeRF输出的HDR光强度可以为前景对象渲染提供场景级光照,为了训练渲染网络,我们在渲染图像(预测值)和捕获图像(真值)之间强制辐射一致性。给定真值图像 I,损失函数为:

图片

2. 用于前景渲染的McLight

为了用大量数字3D资产丰富场景内容,我们采用Blender进行前景虚拟对象渲染。无缝插入的关键在于准确估计场景的照明条件。因此,如图4所示,我们提出了McLight,一种由穹顶光照和周围光照组成的新型混合光照估计方法。

图片

2.1 穹顶光照估计

从图像中估计穹顶光照对恢复准确的太阳行为具有挑战性。为此,我们提出了一种从估计的峰值强度到HDR重建的新型残差连接,解决过度平滑输出问题。此外,我们采用自注意力机制融合多摄像头输入,捕获互补的视觉线索。

Experimets

1. 主要结果

1.1 通过语言命令进行编辑

我们选择了三个代表性的命令来展示编辑结果。所有结果都显示,我们在 McNeRF 和 McLight 的帮助下,达到了逼真的广角效果。

1.2 混合和复杂命令

我们向系统发送了一个混合和复杂的命令,暗示警车正在追逐一辆逆行赛车。目标场景、命令和结果如图 5 所示。我们看到:i)得益于我们的多代理协作设计,复杂命令中的每个要求都准确执行;ii)这个命令成功模拟了一种罕见但危险的驾驶情况,这在事故测试中非常重要。

1.3 高度抽象的命令

第二种类型是高度抽象的命令。输入和结果如图 6 所示。我们看到:i)这种高度抽象的命令难以通过句子划分进行分解,但我们的方法仍能正确执行;ii)我们的3D资产库提供了大量可添加的对象。

图片

1.4 多轮命令

我们还与系统进行了多轮对话,不同轮次的命令存在上下文依赖关系。最终结果如图 7 所示。我们看到:i)我们的系统能够很好地处理多轮命令,并精确执行每一轮的命令;ii)得益于项目经理代理的记录能力,我们的系统可以处理不同轮次的上下文依赖。

图片

1.5 使用模拟数据进行 3D 检测

我们验证了将模拟作为数据增强在 Waymo 开放数据集上的下游 3D 对象检测任务中的好处。我们模拟了 1960 帧,源自训练数据集中的场景。在模拟中,添加了各种类型、位置和方向的汽车。检测模型采用了 Lift-Splat。图 8 显示了在不同数量的真实数据下,有无固定增强的检测性能。我们看到:i)在不同数据规模下,显著且一致地提升了性能;ii)当真实数据有限时,我们的模拟显著帮助了粗略检测(AP30);iii)当真实数据量增加时,我们的模拟进一步显著提升了细粒度检测(AP70),反映了我们模拟的高质量。

图片

2. 组件结果

2.1 多代理协作

我们通过检查命令是否成功执行来评估多代理协作的有效性,结果如表 2 所示。在没有多代理协作的情况下,所有操作都由一个 LLM 代理执行。我们看到,由于过程限制,单一 LLM 代理导致所有类别的执行精度显著降低。相反,多代理协作方法能够管理大多数命令,这归功于其任务分工和代理角色的专门性。

图片

2.2 背景渲染

我们将我们的 McNeRF 与其他几种在背景新视角合成任务上的最新方法进行了比较。我们对 32 个选定场景进行了重建和渲染。表 3 显示了在三个指标(PSNR、SSIM 和 LPIPS)上的量化结果比较。我们看到:i)McNeRF 在所有三个指标上都达到了最新的性能,显著优于其他基线方法;ii)McNeRF 具有快速的推理速度,能够快速响应用户的图像渲染请求。

图 9 展示了其他方法与我们方法的定性比较。我们看到,现有的 NeRF 方法没有考虑曝光时间,导致图像中不同摄像机交界处的亮度显著变化,以及广角视图中整体曝光的不一致。我们的方法可以使整个图像的亮度更加一致。

图片

2.3 前景渲染

我们将我们的 McLight 与其他两个最新方法进行了比较。表 4 显示了在我们的 HDRI 数据集上的相对强度(log 10)误差、在 HoliCity 上的角误差和用户研究的比较。我们看到,McLight 在峰值行为上更准确,并且获得了显著更高的用户偏好。图 10 显示了车辆插入的可视化。通过 McLight 添加的车辆具有显著更真实的反射和与场景一致的强阴影。

2.4 车辆运动

如表 5 所示,我们将用户命令的运动生成方法与我们设计的两个基线方法进行了比较:1. GPT2Motion,直接使用 LLM 返回运动坐标;2. GPT2Code,先使用 LLM 生成代码并执行以获得车辆运动。我们验证了多个场景中的多个动作,并报告了用户研究结果。用户研究是为了确定生成的运动是否符合命令意图并适合车道图。我们看到,我们的方法在从语言命令生成运动方面显示出了显著优势。此外,它保持了高比例的轨迹在车道边界内。

图片

总结:

本文提出了两个创新的神经网络方法:McNeRF和McLight,用于提高自动驾驶车辆的感知数据生成和渲染质量。以下是对这些方法的总结:

  1. McNeRF:这是一种神经辐射场方法,通过多摄像头输入来渲染更广泛的场景。它解决了两个主要问题:

    • 相机姿态不对齐:通过多相机对齐技术减少外参噪声,确保渲染质量。

    • 亮度不一致:结合关键曝光时间恢复HDR场景辐射,减轻不同曝光时间相机图像交汇处的颜色差异。

  2. McLight:这是一种多摄像头光照估计方法,它结合了天空圆顶和周围光照:

    • 天空圆顶估计:恢复准确的太阳行为,通过连接峰值强度残差实现阴影渲染。

    • 周围光照:查询McNeRF来实现复杂位置的光照效果,如树荫下的遮挡阳光,提高3D资产渲染的真实性。

  3. 实验和结果:

    • 在Waymo自动驾驶数据集上进行了实验,证明了ChatSim可以根据人类语言命令生成逼真的感知数据,包括极端情况。

    • 支持混合、高度抽象和多轮命令。

    • 在广角渲染中达到了最先进的性能,逼真度提升了4.5%。

    • 光照估计在定量和定性上均优于现有方法,降低了强度误差57.0%和角度误差9.9%。

引用文章:

Editable Scene Simulation for Autonomous Driving via Collaborative LLM-Agents

关注我的公众号auto_driver_ai(Ai fighting), 第一时间获取更新内容。

  • 33
    点赞
  • 22
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值