Hint-AD：面向可解释端到端！语言与感知-预测-规划全面对齐，助力多项任务SOTA...-CSDN博客

本文链接：https://blog.csdn.net/CV_Autobot/article/details/142199782

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享清华AIR&梅赛德斯-奔驰中国团队最新的端到端工作Hint-AD！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『端到端自动驾驶』技术交流群

论文作者 | Kairui Ding等

编辑 | 自动驾驶之心

写在前面&出发点

自动驾驶中的端到端架构在可解释性方面面临重大挑战，这阻碍了人机之间的信任。为了执行诸如驾驶解释和3D字幕生成等任务，已探索过了人性化的自然语言。然而，以往的工作主要关注于声明式可解释性的范式，其中自然语言解释并未以自动驾驶系统的中间输出为基础，导致这些解释仅具有声明性质。相比之下，对齐式可解释性在语言与自动驾驶系统的中间输出之间建立了联系。在此，我们介绍了Hint-AD，这是一个集成的自动驾驶-语言系统，能够生成与自动驾驶模型的整体感知-预测-规划输出相对齐的语言。通过整合中间输出和一个用于有效特征适应的整体标记混合子网，Hint-AD实现了理想的准确性，在包括驾驶解释、3D密集字幕生成和指令预测在内的驾驶语言任务中取得了最先进的成果。

为了促进对nuScenes上驾驶解释任务的进一步研究，我们还引入了一个人工标注的数据集Nu-X。代码、数据集和模型均可在网上公开获取，网址为：https://air-discover.github.io/Hint-AD/

背景介绍

端到端的感知规划架构在自动驾驶（AD）和一般具身智能中至关重要，因为它具有利用大量数据进行自监督训练的潜力。然而，这些系统面临着严峻的可解释性挑战，在具身智能问题中，如自动驾驶，可解释性问题尤为突出。当自动驾驶系统直接输出控制信号时，人类乘客很难信任其决策。为了解决这个问题，自然语言作为一种高度用户友好的沟通媒介，已被探索用于通过诸如驾驶解释、3D密集字幕和视觉问答（VQA）等任务来增强可解释性。虽然人类驾驶员认识到BEV轨迹作为解释正在发生什么（WHAT）的价值，但语言提供了为什么发生这种情况（WHY）的补充视角。这些方法可以根据单一标准分为声明式可解释性和对齐式可解释性：即生成的语言是否与自动驾驶系统的中间输出对齐（图1）。

声明式可解释性如近期在驾驶解释、3D密集字幕和视觉问答等方面的研究所示，它直接生成自然语言，而不依赖于自动驾驶系统的中间输入。这种方法经常会产生幻觉，因为语言没有基于全面的中间输出，只是驾驶行为的合理化解释。
对齐式可解释性要求语言与自动驾驶模型的内部状态保持一致。据我们所知，这种方法首先由[14]提出，他们将自动驾驶模型的注意力状态与语言解码器对齐，后来的工作将语言解码器与内部决策状态对齐。

然而，现有研究忽视了语言解码器与自动驾驶流程中的完整感知-预测-规划输出之间的对应关系，导致语言任务与自动驾驶任务之间存在差异。通过自动驾驶流程的中间输出来提高驾驶场景中语言任务准确性的潜力尚未被探索。为此，这里提出了Hint-AD，一个集成的自动驾驶-语言框架，旨在与自动驾驶模型的感知-预测-规划过程进行全面对齐，并生成高精度的语言，以促进自动驾驶的可解释性。

我们开发了两种方法来实现语言与自动驾驶模型之间的全面对齐以及语言输出的准确性：

(a) 开发了一个整体token混合模块，该模块将自动驾驶模型的中间输出token适应于语言解码器，重点在于稳健的特征提取和融合；

(b) 引入了一个对齐任务作为在线数据集，以将语言输出与自动驾驶模型的中间输出对齐，要求语言解码器在整个训练过程中解释自动驾驶模型推理过程中生成的中间token。

在UniAD和VAD这两个最先进的自动驾驶模型上实现了Hint-AD，这两个模型分别采用了光栅化和矢量化表示，以证明Hint-AD的通用性。实验结果表明，Hint-AD在各种语言任务上均达到了最先进的性能，包括驾驶解释（CIDEr得分比基线高出20.4%）、3D密集字幕（CIDEr得分比基线高出185%）、视觉问答（准确率提高1.2%）和驾驶指令预测（准确率提高1.2%）。对齐任务显著提高了语言输出与自动驾驶模型中间表示之间的一致性。此外，我们还贡献了一个基于nuScenes的人类标注的驾驶解释数据集Nu-X，以解决这个广泛使用的自动驾驶数据集上缺乏驾驶解释数据的问题。

Hint-AD方法

为了探索自然语言与端到端自动驾驶框架中的中间结果之间的全面对齐，我们提出了一个名为Hint-AD的新型框架，该框架包含三个模块：整体token混合器、语言解码器和传统自动驾驶框架。Hint-AD的概览如图2所示。图2中的现有自动驾驶流程可以是任何将自动驾驶分解为感知、预测和规划的端到端自动驾驶系统。为了不失一般性，在UniAD（作为Hint-UniAD）和VAD（作为Hint-VAD）的基础上实现了我们的方法，它们分别使用光栅化和矢量化表示。

1）Hint-AD的整体框架

首先，从现有的感知-预测-规划架构的自动驾驶模型中提取中间查询token，生成跟踪token、运动token和规划token。其次，整体token混合器模块将对token进行适配，以作为语言解码器的输入。在此模块中，设计了一个实例混合器来合并每个检测实例的实例级跟踪和运动信息。还引入了鸟瞰图（BEV）block和实例block以进行进一步的特征提取，并将长度可变的实例token转换为固定长度。所有处理过的token都被连接起来作为文本生成的上context tokens。最后，context tokens被格式化为prompt tokens，并与文本提示一起放入语言解码器中。我们采用了一种杠铃式适应范式，以实现语言解码器对context的高效理解。

为了在训练过程中使语言和自动驾驶pipeline的中间结果对齐，加入了额外的训练数据，称为对齐任务，这些数据在训练过程中在线构建。

2）Holistic token mixer

从自动驾驶pipeline中提取的查询tokens对于语言解码器来说并不是直接可理解的。针对这一问题，我们提出了一个整体token混合器架构。Hint-UniAD和Hint-VAD的具体实现略有不同。主要遵循Hint-UniAD的设计，而Hint-VAD的小幅调整则在附录中给出。

首先，对从自动驾驶pipeline中提取的查询tokens进行标记。对于一个典型的感知-预测-规划自动驾驶pipeline，可以提取以下组件：BEV tokens ，其中、和分别是BEV字段的高度、宽度和通道数。

Track tokens 包含每个检测对象的位置和过去轨迹信息，其中是检测到的目标数量，D是token向量的维度。Motion tokens包含每个检测目标预测的未来轨迹。Planning steps 将是模型预测的未来轨迹。

为了有效地将tokens合并到实例级别，设计了一种新颖的实例混合器，它将每个检测实例的跟踪tokens 和运动tokens 集成到一个实例tokens 中。这是通过张量拼接后跟一个多层感知器（MLP）投影器来实现的，该投影器将个检测实例的tokens投影到维度为的嵌入中：

特征编码器E被实现为一个多层卷积网络，该网络提取特征并将鸟瞰图（BEV）缩放到3×3。之后，使用一个多层感知器（MLP）投影器来将BEV的通道维度C转换为，从而得到。

BEV block和实例block采用多头自注意力层来适应BEV和实例特征。对于BEV tokens，多头自注意力（MHSA）在它们之间进行操作。考虑到每帧检测到的实例数量是可变的，我们引入了个可学习的tokens 作为查询。然后，在这些可学习tokens和实例tokens之间进行多头交叉注意力（MHCA）。BEV block和实例 block通过改进BEV和实例tokens的特征提取和融合来提高适应性。

规划步骤将通过正弦位置编码PE和一个MLP投影器编码到嵌入维度ï¼š。在所有实例令牌中，有一个自我实例令牌F_{ego}^{instance}代表自我车辆[2]。处理后的BEV、实例、自我实例和规划令牌将被连接为上下文令牌，以进行进一步的语言生成任务：

在所有实例tokens中，有一个ego实例tokens 代表自车。处理后的BEV、实例、ego实例和规划tokens将被连接为context tokens，以进行进一步的语言生成任务：

3） Language decoder with barbell adaptation

为了将多模态大型语言模型（MLLMs）在自动驾驶相关语言任务中的高级推理和上下文理解能力融入其中，我们采用了预训练的LLaMA-2-7B模型作为语言生成器的LLaMa-AdapterV2。对于语言微调，使用了可学习的适配器，这些适配器在插入的层中作为额外的键和值，并采用零初始化的注意力，其中是要插入的层数，是语言解码器中tokens的维度。

在原始的LLaMa-Adapter-V2策略中，context tokens 会被插入到第一层，而可学习的适配器会被插入到其他所有N-1层中，其中N是LLaMA-2-7B的总层数。我们观察到，用于语言调谐的适配器往往会主导适应过程并降低上下文与语言的对齐度。这对于需要高级context理解能力的自动驾驶任务至关重要。因此，我们提出了一种barbell adaptation范式（见图2），其中可学习的适配器仅被插入到层（作为前端适配器）和层（作为末端适配器），context tokens被插入到第一层。

将适配器放置在前端和后端的理由是，前端适配器有助于理解context信息，而后端适配器则增强了语言的微调。这种设计平衡了对高级context理解和精确语言适应的需求。在训练过程中，采用交叉熵损失作为字幕损失，仅对答案tokens进行监督。

4）Aligning language and intermediate outputs

为了使语言与自动驾驶模型的中间输出对齐，语言解码器需要对自动驾驶模型推理步骤中生成的每个token（即跟踪tokens中目标的位置）所包含的信息进行基于context的理解。我们通过在训练过程中添加一个在线对齐任务数据集来实现这一点。

在对齐任务中，给定自动驾驶模型的中间输入，会生成一组提示-答案对（图3）。该任务包括四种类型的对齐：（a）计数对齐，要求语言解码器根据跟踪tokens解释帧中每种类型实例的数量；（b）位置对齐，要求模型根据特定实例token提供跟踪实例的位置；（c）运动对齐，涉及解码实例tokens中包含的速度信息；（d）规划对齐，要求语言解码器输出规划tokens中包含的未来轨迹点。

对齐任务中的所有问答对都是在训练过程中在线生成的。对齐任务极大地提高了语言解码器对中间令牌的上下文理解能力，从而大大提高了自动驾驶字幕的准确性。

5）Training pipeline

Hint-AD的整个训练流程包括两个阶段。在第一阶段，端到端的自动驾驶（AD）模型被独立训练。在第二阶段，冻结AD模型和大规模语言模型（MLLM）的所有参数，仅更新整体token混合器和适配器的参数。第二阶段的总可训练参数为87M。

实验设置

1）数据集和baselines

数据集。解释是人类学习和理解的重要指导工具。特别是在端到端自动驾驶（AD）系统的背景下，人类用户经常寻求解释来弥合传感器输入和AD行为之间的鸿沟。目前，在自动驾驶研究中广泛使用的nuScenes数据集没有提供此类解释。为了弥补这一空白并促进针对nuScenes的可解释性研究，我们引入了Nu-X，这是一个全面、大规模、经过人工标注的解释性数据集。Nu-X为nuScenes中的每一个34,000个关键帧提供了详细的contextual信息和多样化的语言表述。

一个解释性句子通常包括叙述和推理 ，例如：“<叙述>汽车正在并入右侧车道。<推理>为了超过前面的红色汽车。”在我们的数据集中，每个标题都包含这两个部分。

为了提供全面的分析，所有Hint-AD架构和基线都在以下数据集上进行了训练和评估：（1）对齐任务数据集，旨在通过要求语言解码器解释每个中间标记来将语言与AD模型的中间输出对齐，训练过程中在线生成真实答案；（2）TOD3Cap ，一个3D密集字幕数据集，为nuScenes中的64.3K个户外目标提供目标描述，并标注了外观、运动、环境和目标间空间关系；（3）NuScenesQA ，一个VQA数据集，覆盖了nuScenes的34K帧，包含五种问题类型，包括存在性、计数、查询对象、查询状态和比较；（4）驾驶指令数据集，我们在nuScenes上进行了标注，由方向和速度指令组成。

基线模型。我们选择了基准方法，这些方法既包括了语言生成领域的关键里程碑，也包括了自动驾驶背景下最先进的方法：（1）ADAPT 采用自回归方式，通过视觉-语言转换器生成句子。在文本和视频标记上使用了交叉注意力和稀疏注意力掩码；（2）BEV+Adapter 仅以鸟瞰图（BEV）特征作为输入，并使用LLaMA-Adapter-V2（与Hint-AD相同）作为语言解码器；（3）BEVDet+MCAN 使用模块化协同注意力网络（MCAN），其中包含用于单独的语言和视觉理解的自注意力层。堆叠的交叉注意力层用于跨模型特征交互。输入采用了来自BEVDet 的检测结果；（4）Vote2Cap-DETR 基于transformer架构，具有两个并行的特定于任务的头。查询被解耦为定位查询和字幕查询；（5）TOD3Cap 利用基于查询的检测头从BEV特征中生成一组3D目标proposal。然后，这些特征通过LLaMA-Adapter处理，作为语言模型的提示来生成密集字幕；（6）GPT-4o 是OpenAI开发的多模态模型，具备最先进的视觉能力，同时文本生成性能与其前身GPT-4相当；（7）Gemini-1.5 是谷歌开发的一款开创性的大型语言模型，专为处理具有扩展context长度的多模态输入而设计。

2）Comparing with baseline models

量化结果。在四个数据集上，针对不同类型的输入和主干模块分别展示了结果。对于Nu-X和TOD3Cap数据集，我们采用了四种标准的图像字幕评估指标，包括CIDEr (C) 、BLEU (B) 、METEOR (M) 和 Rouge (R) 。由于Nu-X中驾驶解释的全面性，还采用了GPT-3.5评分（G）来评估Nu-X。在测试TOD3Cap时，为匹配预测和真实边界框设置了0.25的阈值。对于NuScenes-QA和Command数据集，我们直接将生成的文本与真实文本进行比较以获得准确率。根据推理复杂性，QA被分为zero-hop (H0) and one-hop (H1)。从表1中可以得出以下结论：

Hint-UniAD和Hint-VAD在多任务测试中均表现出高性能。两个系统均在Nu-X数据集上取得了最先进的结果，CIDEr分数比最佳基线（BEV+Adapter）高出3.8分（20.4%）。值得注意的是，Hint-UniAD在TOD3Cap任务上表现出显著优越的性能，CIDEr分数提高了222.3分（185%）。尽管HintVAD在该任务上的表现略低，但附录C.3中讨论了可能的解释。此外，在NuScenes-QA和Command数据集上，Hint-VAD的总体准确率分别比最佳基线高出0.6分和1.2分。这些结果凸显了所提出的Hint-AD架构的有效性。

定性结果。图3展示了一些定性结果。Hint-AD生成的文本显示出对场景的深刻理解，并且与自动驾驶模型的中间结果恰当地保持一致。

3）language和模型的对齐分析

量化语言与自动驾驶（AD）模型中间输出之间的一致性，我们对语言解码器的输出与AD感知模块的预测进行了评估，这些预测是在验证集上实时生成的。我们设计了四种不一致性协议：（a）计数不一致性（CD），用于衡量解码head和跟踪模型给出的每个类别实例数量之间的差异；（b）位置不一致性（PD），用于衡量特定实例的位置差异；（c）运动不一致性（MD），用于衡量速度差异，计算为字幕中速度与感知系统预测速度之间的平均距离；（d）规划不一致性（PLD），用于衡量轨迹点之间的差异。对Hint-AD进行了测试，包括对齐可解释性（原始设计）和声明性可解释性。与在声明性可解释性范式下运行的模型相比，对齐语言解码器的性能显著更优，这表明包括整体token混合器和对齐任务在内的对齐设计是有效的。

4）消融实验

整体对齐的有效性。为了评估整体语言-自动驾驶（AD）对齐在语言任务准确性上的有效性，我们通过从语言解码器的输入中移除跟踪、运动和规划tokens来进行了一项消融研究。表2中的结果表明，使用所有tokens可实现最高性能。跟踪tokens通过位置信息增强了3D密集字幕，而规划tokens则通过提供未来轨迹数据改进了命令预测。

整体token混合器设计的消融研究。实例混合器和实例block增强了中间tokens的特征提取和适应性。表3中的结果表明，移除实例block和实例混合器会显著降低TOD3Cap和NuScenes-QA的性能，因为物体的位置和运动信息没有得到充分融合。

fbarbell adaptation的有效性。我们探索了三种替代方案：（a）早期融合，即LLaMA-Adapter-V2的原始设计，每层都有适配器；（b）金字塔式适应，仅在前面的Nfront层有适配器；（c）锤式适应，仅在最后的层有适配器。哑铃式适应在三个数据集上表现最佳（表4）

一些结论

本工作提出了Hint-AD，这是一个集成的自动驾驶（AD）-语言框架，它将语言生成与自动驾驶模型的整体感知-预测-规划过程对齐，从而在多个自动驾驶字幕任务中实现了最先进的性能。同时，作为对齐可解释性实现的一项探索性研究，以下限制仍有待进一步研究解决：

由于其针对特定流程的性质，中间输出格式的任何更改都需要对令牌混合器的设计进行修改。对于纯端到端模型（如黑盒模型），则需要进行调整以有效处理潜在输出。
基于LLaMA的语言解码器相对耗时。有必要进一步研究更小的模型替代方案，如MiniChat-1.5-3B和StableLM-3B-4E1T。

随着大型语言模型（LLM）理解自动驾驶模型中间输出的潜力日益显现，未来研究可以进一步深入这一领域，并通过对齐可解释性增强用户对自动驾驶模型的信任。

参考

[1] Hint-AD: Holistically Aligned Interpretability in End-to-End Autonomous Driving.

投稿作者为『自动驾驶之心知识星球』特邀嘉宾，欢迎加入交流！重磅，自动驾驶之心科研论文辅导来啦，申博、CCF系列、SCI、EI、毕业论文、比赛辅导等多个方向，欢迎联系我们！

① 全网独家视频课程

BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、cuda与TensorRT模型部署、大模型与自动驾驶、Nerf、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频（扫码即可学习）

网页端官网：www.zdjszx.com

② 国内首个自动驾驶学习社区

国内最大最专业，近3000人的交流社区，已得到大多数自动驾驶公司的认可！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（2D/3D检测、语义分割、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型、端到端等，更有行业动态和岗位发布！欢迎扫描下方二维码，加入自动驾驶之心知识星球，这是一个真正有干货的地方，与领域大佬交流入门、学习、工作、跳槽上的各类难题，日常分享论文+代码+视频