【论文阅读】DRIVEGPT4: INTERPRETABLE END-TO-END AUTONOMOUS DRIVING VIA LARGE LANGUAGE MODEL

技术宅学长

已于 2023-11-02 16:25:33 修改

阅读量1.4k

点赞数 2

文章标签：语言模型人工智能自然语言处理

于 2023-11-02 12:00:38 首次发布

本文链接：https://blog.csdn.net/qq_33440910/article/details/134179053

版权

Drivegpt4:基于大型语言模型的可解释端到端自动驾驶

Project page: https://tonyxuqaq.github.io/projects/DriveGPT4/

ABSTRACT

在过去的十年里，自动驾驶在学术界和工业界都得到了快速发展。然而，其有限的可解释性仍然是一个重要的未解决问题，严重阻碍了自动驾驶汽车的商业化和进一步发展。以前使用小型语言模型的方法由于缺乏灵活性、泛化能力和鲁棒性而未能解决这个问题。最近，多模态大语言模型(LLMs)因其通过文本处理和推理非文本数据(如图像和视频)的能力而受到了研究界的广泛关注。在本文中，我们提出了DriveGPT4，一个利用LLMs的可解释的端到端自动驾驶系统。DriveGPT4能够解释车辆的动作并提供相应的推理，并回答人类用户提出的各种问题，以增强交互。此外，DriveGPT4还能以端到端方式预测车辆低级控制信号。这些功能源于专门为自动驾驶设计的定制视觉指令调优数据集。据我们所知，DriveGPT4是第一个专注于可解释的端到端自动驾驶的工作。当与传统方法和视频理解LLMs一起对多个任务进行评估时，DriveGPT4显示出卓越的定性和定量性能。此外，DriveGPT4可以以zero-shot的方式进行推广，以适应更多未见过的场景。

1 INTRODUCTION

在过去的十年中，自动驾驶领域有了显著的增长，包括学术界和工业界(Singh & Saini, 2021;Liu et al .， 2021;Parekh et al, 2022)。

商用化的自动驾驶系统已经成功应用于港口、仓库、城市等日常场景。自动驾驶汽车通常采用模块化设计，包括感知、规划和控制。在传统的自动驾驶系统中，这些模块通过详细的基于规则的方法来实现，以处理各种场景。

但是这样的系统可能会在一些看不见的情况下失效，比如罕见的事故。

为了确保车辆能够使用智能动作有效地处理各种情况，基于数据驱动的学习方法已成为现代自动驾驶系统的广泛组成部分(Zhao et al .， 2017;Xue et al .， 2019;徐等人，2022;2023 a, b)。为了更好地集成和优化整个系统，一些方法提出以端到端方式训练网络，消除了对不连续中间步骤的需要(Prakash等人，2021;Hu et al .， 2023;Chen et al .， 2023)。通过使用车载传感器数据作为输入，端到端自动驾驶系统可以直接预测计划路径和/或低级车辆控制。尽管如此，端到端基于学习的自动驾驶系统的功能就像一个黑匣子，这意味着人类无法解释或理解此类系统做出的决定，从而引发重大的道德和法律问题。

近年来，可解释的自动驾驶(Deruyttere et al .， 2019;Kim et al, 2019;Atakishiyev等，2021;Jin等，2023;Malla等人，2023)由于其揭开黑盒子神秘面纱的潜力而获得了越来越多的兴趣。这些研究开发了包含自动驾驶汽车数据和自然语言对的大规模数据集。语言模型，如BERT (Devlin等人，2018)和GPT (Radford等人，2018)在这些数据集上进行训练，以基于车载传感器数据的输入生成自然语言。然而，小型语言模型的功能是有限的，导致大多数这些系统对预定义的问题产生严格的响应。当面对新的或意想不到的查询时，这些方法很难提供令人满意的结果。

随着大型语言模型(LLMs)的出现，如ChatGPT (OpneAI, 2023)和LLaMA (Touvron等人，2023a)，端到端自动驾驶系统可以从改进的解释中受益，因为LLMs拥有广泛的关于世界的一般知识。此外，LLMs由于其固有的推理能力，具有直接生成低级车辆控制的潜力。为了实现这一目标，LLMs需要理解视频并理解低级车辆控制。多模态LLMs已经吸引了各个研究团体越来越多的兴趣，如计算机视觉(Li等人，2022b;a)，体现人工智能(Driess等人，2023;Liang等人，2023)和生物医学(Karabacak & Margetis, 2023;Li et al .， 2023a)。这些研究建议将来自图像、音频、视频、控制和其他空间的多模态输入投影到文本域，使LLMs能够将这些多模态数据作为文本来理解和处理。据我们所知，目前还没有论文利用LLMs来实现可解释的端到端自动驾驶目的。

在本文中，我们介绍了DriveGPT4，一个可解释的端到端自动驾驶系统，利用大型语言模型。DriveGPT4将前视RGB摄像头捕获的视频序列作为输入，以及车辆的历史控制信号。然后，它可以预测下一步的控制信号。与此同时，人类用户可以与DriveGPT4进行对话，该系统可以提供自然语言响应，例如描述车辆的行为并解释其行为背后的原因。为了训练DriveGPT4像人一样交流，我们遵循LLaVA (Liu et al .， 2023)，并使用ChatGPT基于BDD-X数据集(Kim et al .， 2018)创建视觉指令调优数据集。本文的贡献总结如下:

•我们为可解释的自动驾驶开发了一个新的视觉指令调优数据集。
•我们提出了一种基于Valley的新型多模态LLM，称为DriveGPT4 (Luo et al .， 2023)。在创建的数据集上进行微调，DriveGPT4可以处理多模式输入数据，并提供文本响应以及预测的控制信号。
•我们在多个任务上评估所有方法，DriveGPT4优于所有基线。此外，DriveGPT4可以处理未见过的场景与zero-shot泛化。

2 RELATED WORKS

端到端自动驾驶。端到端自动驾驶旨在基于视觉输入直接预测车辆路径和低级控制信号(Bojarski等，2016;肖等，2020;Prakash等人，2021;Hu et al .， 2023;Chen et al .， 2023)。(He et al .， 2016)被认为是第一个深度学习端到端自动驾驶工作。在这项研究中，作者训练了一个卷积神经网络来控制车辆，使用单眼图像作为输入。最近的工作通过标记模块输出来集成所有系统模块(Hu et al, 2023;Chen et al .， 2023)，实现了更强大和鲁棒的控制效果。然而，这些作品缺乏可解释性，这限制了它们的可信度和商业化潜力。

可解释的自动驾驶。为了解决基于学习的自动驾驶中的黑箱问题，一些研究采用了可视化(Kim & Canny, 2017;Wang等，2021;Saha et al, 2022)。然而，对于非专业乘客来说，视觉地图可能很难理解。或者，其他研究利用语言模型用自然语言描述车辆情况，例如车辆动作(Deruyttere等人，2019;Kim et al, 2019;Jin等人，2023)，车辆动作推理(Jin等人，2023)，周围对象陈述(Malla等人，2023)，以及对自我车辆潜在风险的讨论(Malla等人，2023)。受较小的语言模型的有限容量的限制，这些方法只能解决预定义的人类问题，并提供不灵活的答案，阻碍了它们在现实场景中的广泛应用。

Multimodal LLM.多通道LLM。基于强大的预训练LLM权重，如PaLM (Chowdhery等人，2022;Driess等人，2023)，LLaMA (Touvron等人，2023a;b)和Vicuna (Peng等人，2023)，多模态LLMs旨在处理文本以外的多种类型输入。Blip (Li et al .， 2022a;2023b)利用Q-formers将多模态输入投影到文本空间，而其他(Li et al .， 2023a;Luo等人，2023)简单地训练一个完全连接的层作为投影仪。多模态llm已广泛应用于各种任务，如图像理解(Li et al .， 2023b;Liu et al .， 2023)，视频理解(Luo et al .， 2023;Zhang等，2023;Wang et al .， 2023;Zhu等，2023;Li et al .， 2023c)，医疗诊断(Li et al .， 2023a;Karabacak & Margetis, 2023)，以及嵌入式AI (Chowdhery等，2022;Driess等，2023;Brohan等，2023;Liang et al .， 2023)等。我们的任务与视频理解和嵌入人工智能密切相关。DriveGPT4的灵感来源于前者理解输入的视频数据，后者预测控制信号。在这些工作中，只有少数关注与自动驾驶相关的任务(Fu et al .， 2023;Wu等，2023;贡献者,2023)。
《DriveLikeHuman》(Fu et al, 2023)只能处理简单的模拟场景，限制了其在现实世界中的适用性。NuPrompt (Wu et al .， 2023)专注于车辆感知的对象跟踪，但不考虑端到端驾驶或车辆动作推理。DriveLM(贡献者，2023)是与我们最相似的工作。然而，它只能预测high-level plans(例如，直走，左转)，这对我们的任务来说是不够的。据我们所知，目前还没有一篇论文与我们的研究范围相同:利用LLMs来实现可解释的端到端自动驾驶。

3 INSTRUCTION DATA GENERATION VIA CHATGPT

视频和标签是从BDD-X数据集收集的(Kim等人，2018)，该数据集包含大约20,000个样本，其中包括用于训练的16,803个片段和用于测试的2,123个片段。每个剪辑被采样成8个图像。此外，它还提供每帧的控制信号数据(例如，车辆速度和车辆转弯角度)。BDD-X为每个视频片段提供了关于车辆动作描述和动作理由的文本注释，如图1所示。在之前的工作中，ADAPT (Jin et al .， 2023)训练标题网络来预测描述和证明。然而，所提供的描述和证明标签是固定和严格的。如果人类用户希望更多地了解车辆并提出日常问题，过去的工作可能会有所不足。因此，仅靠BDD-X不足以满足可解释自动驾驶的要求。

ChatGPT/GPT4生成的指令调优数据已被证明对自然语言处理(Peng et al .， 2023)、图像理解(Liu et al .， 2023)和视频理解(Li et al .， 2023c;Zhang et al, 2023)。ChatGPT/GPT4可以访问特权信息(例如，图像标记的标题，地面真实对象边界框)，并提示生成对话，描述和推理。目前，还没有为自动驾驶目的量身定制的视觉指令遵循数据集。因此，我们在ChatGPT的辅助下，基于BDD-X创建了自己的数据集。

Fixed question-answering。由于BDD-X为每个视频片段提供了车辆动作描述、动作理由和控制信号序列标签，我们直接使用ChatGPT基于这些标签生成一组三轮问答(QAs)。首先，我们创建三个问题集:Qa、Qj和Qc。

动作说明:停车

动作理由:红灯

动作描述:汽车驶入右侧车道

动作理由:因为右侧车道上的车辆行驶速度更快。
图1:BDD-X标记数据的示例。

图2:DriveGPT4概述:DriveGPT4是一个全面的多模态语言模型，能够处理包括视频、文本和控制信号在内的输入。视频序列使用专用的视频标记器进行标记，而文本和控制信号共享一个公共标记器。在标记化之后，高级语言模型可以同时生成对人工查询的响应，并预测下一步的控制信号。

•Qa包含类似于“这辆车当前的动作是什么?”的问题。随机选择问题qa∈qa与动作描述标签组成qa对。
•Qj包含类似于“这辆车为什么会这样?”的问题。随机选择的问题qj∈qj与动作证明标签组成QA对。
•Qc包含类似于“预测下一帧车辆的速度和转弯角度”的问题。随机抽取问题qc∈qc与控制信号标签构成QA对。

LLMs可以同时学习预测和解释车辆的动作。然而，如前所述，这些QA对具有固定和严格的格式。由于缺乏多样性，仅对这些问答进行培训会降低LLMs的推理能力，使他们无法回答其他格式的问题。

由ChatGPT生成的对话。为了解决上述问题，ChatGPT被用作老师，以产生更多关于自我载体的对话。提示符通常遵循LLaVA中使用的提示符设计。为了使ChatGPT能够“看到”视频，实现了YOLOv8 (Reis et al .， 2023)来检测视频每帧中常见的物体(例如车辆、行人)。获得的边界框坐标被归一化并作为特权信息发送给ChatGPT。除了目标检测结果外，ChatGPT还可以访问视频片段的地面真相控制信号序列和字幕。基于这些特权信息，ChatGPT被提示生成关于自我车辆、交通信号灯、转弯方向、车道变化、周围物体、物体之间的空间关系等多轮和类型的对话。详细提示见附录。

最后，我们收集了28K个视频文本指令跟随样本，包括16K个固定问答和由ChatGPT生成的12K个对话。表1显示了生成的示例示例。

表1:视觉指令遵循数据示例示例。图上半部分展示了输入信息，包括视频字幕、控制信号和YOLOv8获得的目标检测结果。下面的部分显示了由ChatGPT生成的固定问答和对话。有关详细提示，请参阅附录。

4 DRIVEGPT4

4.1 MODEL ARCHITECTURE

DriveGPT4是一个多功能的多模态LLMs能够处理各种输入类型，包括视频，文本和控制信号。将视频均匀采样为固定数量的图像，并使用基于Valley (Luo et al .， 2023)的视频标记器将视频帧转换为文本域标记。受RT-2 (Brohan et al, 2023)的启发，文本和控制信号使用相同的文本标记器，这表明控制信号可以被解释为一种语言，并被LLMs有效地理解和处理。所有生成的tokens都被连接起来并输入到LLMs中。

本文采用LLaMA 2(Touvron et al .， 2023b)作为LLMs。在产生预测的标记tokens后，一个去标记器de-tokenizer将它们解码以恢复人类语言。解码文本包含固定格式的预测信号。DriveGPT4的总体架构如图2所示。

图2:DriveGPT4概述:DriveGPT4是一个全面的多模态语言模型，能够处理包括视频、文本和控制信号在内的输入。视频序列使用专用的视频标记器进行标记，而文本和控制信号共享一个公共标记器。在标记化之后，高级语言模型可以同时生成对人工查询的响应，并预测下一步的控制信号

Video tokenizer.视频标记器。视频标记器基于Valley (Luo et al .， 2023)。令输入视频帧记为V = [I1, I2，…][au:]对于每个视频帧Ii，使用预训练的CLIP视觉编码器(Radford et al, 2021)提取其特征Fi∈R 257×d。
Fi的第一个通道代表Ii的全局特征，其他256个通道对应Ii的patch特征。为简洁表示，将Ii的全局特征记为gf i，将Ii的局部斑块特征记为fp i。那么整个视频的时间视觉特征可以表示为:

其中⊕表示串联。同时，整个视频的空间视觉特征为:

其中Pooling(·)表示池化层，将N个特征转换为单个特征张量以提高内存效率。最后，使用projector将视频的时间特征T和空间特征S投影到文本域中。tokenizer的详细结构如图3所示。

Figure 3: Architecture of the video tokenizer.
图3:视频tokenizer的体系结构。

文本和控制信号。文本和控制信号。受RT-2的启发，控制信号的处理类似于文本，因为它们属于同一域空间。控制信号直接嵌入文本中进行提示，并使用默认的LLaMA标记器。在本研究中，ego车辆的速度v和转向角∆被视为目标控制信号。转向角度表示当前帧和初始帧之间的相对角度。在获得预测的令牌后，LLaMA的tokenizer用于将令牌解码回文本。DriveGPT4预测后续步骤的控制信号，即（vN+1，∆N+1）。预测的控制信号使用固定格式嵌入输出文本中，通过简单的后处理可以轻松提取。表2中给出了DriveGPT4的输入和输出示例。

表2:DriveGPT4预测的示例。在本例中，输入视频被采样为8帧。为了简洁的可视化，只显示了4个框架。

4.2 TRAINING训练

与以往LLM相关研究一致，DriveGPT4的训练包括两个阶段：（1）预训练阶段，重点是视频文本对齐；以及（2）微调阶段，旨在训练LLM回答与端到端自动驾驶相关的问题。

预训练。与LLaVA和Valley一致，该模型对来自CC3M数据集的593K个图像-文本对和来自WebVid-10M数据集的100K个视频-文本对进行了预训练。预训练图像和视频包含各种主题，并不是专门为自动驾驶应用设计的。在此阶段，CLIP编码器和LLM权重保持固定。只有视频标记器被训练为将视频与文本对齐。

微调。在这个阶段，DriveGPT4中的LLM与可解释的端到端自动驾驶的视觉标记器一起进行训练。为了使DriveGPT4能够理解和处理主要知识，它使用前文中生成的28K视频文本指令进行训练。为了保持DriveGPT4回答日常问题的能力，还使用了LLaVA生成的80K指令跟踪数据。因此，在微调阶段，DriveGPT4使用28K视频文本指令跟随数据以及80K图像文本指令跟随的数据进行训练。前者确保了DriveGPT4可以应用于可互操作的端到端自动驾驶，而后者增强了数据灵活性，有助于保持DriveGPT4的通用问答能力

5 EXPERIMENT实验

5.1 INTERPRETABLE AUTONOMOUS DRIVING可解释的自动驾驶

在本节评估了DriveGPT4及其解释生成的基线，包括车辆行动描述、行动理由和有关车辆状态的其他问题。ADAPT是最先进的基线工作。最近的多模式视频理解LLM也被考虑进行比较。ADAPT采用32帧视频作为输入，而其他方法则采用8帧视频作为输出。

评估指标。为了详细评估这些方法，本文报告了NLP社区中广泛使用的多个指标得分，包括BLEU4、METEOR和CIDEr。然而，这些指标主要衡量单词级别的性能，而没有考虑语义，这可能会导致意想不到的评估结果。鉴于ChatGPT强大的推理能力，它被用来衡量预测质量，并提供更合理的分数。ChatGPT会被提示分配一个介于0和1之间的数字分数，分数越高表示预测精度越高。基于ChatGPT的评估的详细提示见附录。度量比较示例如图4所示。与传统指标相比，Chat-GPT生成的分数为评估提供了更合理、更令人信服的依据。

图4:评估指标的示例。与传统指标相比，ChatGPT生成的分数更合理，更有说服力。

行动描述和理由。考虑到评估的成本和效率，DriveGPT4在来自BDD-X测试集的500个随机采样的视频clip上进行了测试。目标是尽可能根据给定标签预测车辆行动描述和理由。评估结果显示在表3中。结果表明，与之前最先进的（SOTA）方法ADAPT相比，DriveGPT4实现了卓越的性能，尽管ADAPT使用32帧视频，而DriveGPT4只有8帧视频作为输入。

表3:BDD-X数据集对比实验的定量结果。我们提供了车辆动作描述、动作论证和完整句子(即描述和论证相结合)的评价结果。“B4”、“C”、“M”分别代表BLEU4、CIDEr和METETOR的度量分数。“-”表示结果不可用。“ADAPT-32”以32帧视频作为输入。

附加问答。上述车辆行动描述和理由具有相对固定的格式。为了进一步评估DriveGPT的可解释能力和灵活性，在第3节中生成了其他问题。BDD-X测试集中的100个随机采样的视频片段用于生成问题。与行动描述和理由相比，这些问题更加多样化和灵活。评价结果如表4所示。ADAPT无法回答除车辆操作说明和理由之外的其他问题。之前的视频了解LLM可以回答这些问题，但他们没有学习到驾驶领域的知识。与所有基线相比，DriveGPT4呈现出优异的结果，展示了其灵活性。

5.2 END-TO-END CONTROL端到端控制

在本节评估了DriveGPT4及其开环控制信号预测的基线，特别关注速度和转向角。所有方法都需要基于顺序输入来预测下一单个帧的控制信号。

评估指标。继之前关于控制信号预测的工作之后，我们使用均方根误差（RMSE）和阈值精度（Aτ）进行评估。τ测量预测误差低于τ的测试样本的比例。为了进行全面比较，我们将τ设置为多个值：{0.1，0.5，1.0，5.0}。

定量结果。在去除带有错误控制信号标签的样本后，BDD-X测试集中的所有其他样本用于控制评估。先前最先进的（SOTA）方法ADAPT和DriveGPT4的定量结果如表5所示。DriveGPT4实现了卓越的控制预测结果

5.3 QUALITATIVE RESULTS.定性结果

我们进一步提供了多种定性结果，便于直观比较。首先，BDD-X测试集的两个示例如图5所示。然后，为了验证DriveGPT4的泛化能力，我们将DriveGPT4应用于图6中零样本会话生成的NuScenes数据集。最后，我们在视频游戏上尝试DriveGPT4，以进一步测试其泛化能力。一个例子如图7所示。

图6:由DriveGPT4生成的对话。在这些例子中，DriveGPT4以零射击的方式被推广到NuScenes数据集(Caesar et al, 2020)。

5.4 ABLATION STUDIES消融实验

消融实验如表6所示：

6 CONCLUSION结论

本文介绍了DriveGPT4，一个使用多模态LLM的可解释的端到端自动驾驶系统。在ChatGPT的帮助下，开发了一个新的自动驾驶解释数据集，并用于微调DriveGPT4，使其能够响应人类对车辆的提问。DriveGPT4利用输入视频、文本和历史控制信号来生成对问题的文本响应，并预测车辆操作的控制信号。它在各种任务中都优于基线模型，如车辆动作描述、动作论证、一般问题分析和控制信号预测。此外，DriveGPT4通过零样本自适应表现出强大的泛化能力

A DATA PROCESSING数据处理

在数据处理部分，我们生成三个固定问答问题集，Qa用于动作描述，Qj用于动作证明，Qc用于控制信号。详细的问题集分别见表7、表8和表9。
通过ChatGPT生成对话的详细提示如表10所示。

What is the current action of this vehicle?
What is the vehicle doing right now in this video?
What action is the vehicle performing in this video at the moment?
Can you describe the vehicle’s current activity in this video?
What’s happening with the vehicle in this video right now?
At this moment in the video, what is the vehicle engaged in?
What can you observe the vehicle doing in this video currently?
How is the vehicle behaving at this point in the video?
What is the ongoing action of the vehicle in the video?
In this video, what action is the vehicle involved in at present?
Describe the current state of the vehicle in this video.

Table 7: Question set Qa

Why does this vehicle behave in this way?
What is the reason behind this vehicle’s behavior?
Can you explain the cause of this vehicle’s actions?
What factors contribute to the way this vehicle is behaving?
What’s the rationale behind this vehicle’s behavior?
Why is the vehicle acting in this particular manner?
What prompted the vehicle to behave like this?
What circumstances led to this vehicle’s behavior?
What is the underlying cause of this vehicle’s actions?
For what reason is the vehicle exhibiting this behavior?
What’s driving the vehicle to behave in this way?

Table 8: Question set Qj .

Predict the speed and turning angle of the vehicle in the next frame.
Foresee the speed and turning angle of the vehicle in the following frame.
Anticipate the speed and turning angle of the vehicle in the subsequent frame.
Estimate the speed and turning angle of the vehicle in the next frame.
Project the speed and turning angle of the vehicle in the upcoming frame.
Forecast the speed and turning angle of the vehicle in the ensuing frame.
Envision the speed and turning angle of the vehicle in the next frame.
Expect the speed and turning angle of the vehicle in the following frame.
Presume the speed and turning angle of the vehicle in the subsequent frame.
Prognosticate the speed and turning angle of the vehicle in the next frame.
Calculate the speed and turning angle of the vehicle in the upcoming frame.

Table 9: Question set Qc.

B EVALUATION SCORES GENERATED BY CHATGPT

B .由chatgpt生成的评价分数

生成评价分数的提示如表11所示。对于每个问答对，我们将其嵌入到提示文本中并将其发送到ChatGPT。ChatGPT首先输出一个范围从0到1的数字，然后提供对分数的解释。图8提供了显示分数和解释的示例。

There is a 8-frame video recording a drive driving a vehicle. {BDD-X captions}. There are some exclusive privilege information, but you cannot mention them in your generated question answering. 1. Objects in each frame of the video: {objects}; 2. The speed (m/s) of the vehicle in each frame :{speed}. The turning angle (degree) of the vehicle in each frame :{turning angle}.

Design a conversation between you and a person asking about this video. The answers should be in a tone that a visual AI assistant is seeing the video and answering the question. Ask diverse questions and give corresponding answers.

Include questions asking about the visual content of the video, including the ego vehicle, traffic light, turning direction, lane change, surrounding objects, objects spatial relations, etc. Only include questions that have definite answers: (1) one can see the content in the video that the question asks about and can answer confidently; (2) one can determine confidently from the video that it is not in the video.

Do not ask any question that cannot be answered confidently.

Do not contain specific numbers in the questions, e.g., normalized coordinates, speed value, turning angle.

Also include complex questions that are relevant to the content in the video, for example, asking about background knowledge of the objects in the video, asking to discuss about events happening in the video, etc. Again, do not ask about uncertain details. Provide detailed answers when answering complex questions. For example, give detailed examples or reasoning steps to make the content more convincing and well-organized. You can include multiple paragraphs if necessary.

The conversation should be 3 turns. Make the answer concise and accurate.

Table 10: Prompts for visual instruction generation. ChatGPT can access privileged information
like ground truth BDD-X captions, object boxes, vehicle speeds and turning angles.

Now there are some descritions about a driver driving a vehicle. The ground truth description is: {GT label}. The description generated by deep learning model is: {Prediction}.

Give me an evaluation score about the predicted description. The score should range from 0 to 1. Larger score means better description. The score should be a float number with 2 decimal places. For example, 0.51, 0.99, 0.00, 0.76, etc.

You should first give me the score number, and then provide explanations for your score number.

Table 11: Prompts for response text evaluation. Compared with conventional metrics, the score
generated by ChatGPT is more reasonable and convincing.