性能暴涨60%！上交提出DriveMoE：基于MoE的端到端自动驾驶SOTA VLA模型~-CSDN博客

本文链接：https://blog.csdn.net/CV_Autobot/article/details/148348344

点击下方卡片，关注“自动驾驶之心”公众号

今天自动驾驶之心为大家分享上海交通大学最新的工作！DriveMoE：基于混合专家架构的端到端自动驾驶视觉-语言-动作模型！如果您有相关工作需要分享，请在文末联系我们！

自动驾驶课程学习与技术交流群事宜，也欢迎添加小助理微信AIDriver004做进一步咨询

>>点击进入→自动驾驶之心『VLA』技术交流群

论文作者 | Zhenjie Yang等

编辑 | 自动驾驶之心

写在前面 & 笔者的个人理解

端到端自动驾驶（E2E-AD）需要有效处理多视角的感官数据，并且能够稳健地应对各种复杂和多样化的驾驶场景，特别是罕见的操控动作。最近，Mixture-of-Experts（MoE）架构在大型语言模型（LLMs）中的成功表明，参数的专业化能够实现强大的可扩展性。在这项工作中，我们提出了DriveMoE，这是一种基于MoE的新型E2E-AD框架，具有场景专业化视觉MoE和技能专业化动作MoE。DriveMoE建立在我们的π0 Vision-Language-Action（VLA）基准之上（最初来自具身智能领域），称为Drive-π0。具体来说，我们在Drive-π0中添加了视觉MoE，通过训练一个路由选择器根据驾驶情境动态选择相关的视觉。这种设计模仿了人类驾驶的认知过程，在这一过程中，驾驶员会选择性关注关键的视觉线索，而不是详尽地处理所有视觉信息。此外，我们通过训练另一个路由选择器来激活针对不同驾驶行为的专业化专家模块，从而添加动作MoE。通过明确的行为专业化，DriveMoE能够在不遭受现有模型模式平均问题的情况下处理各种场景。在Bench2Drive闭环评估实验中，DriveMoE取得了最先进的（SOTA）性能，证明了在自动驾驶任务中结合视觉和动作MoE的有效性。我们将发布DriveMoE和Drive-π0的代码和模型。

论文链接：https://thinklab-sjtu.github.io/DriveMoE/

本文简介

现代自动驾驶在端到端范式下取得了显著进展，该范式直接将原始传感器输入映射为规划结果。这种范式带来了许多优势，如减少了工程复杂性、减轻了误差传播和全局目标优化。尽管在各种开环自驾车基准测试中取得了令人鼓舞的结果，现有的端到端模型在闭环设置中仍未取得令人满意的表现。在闭环设置中，训练好的驾驶模型可以很容易遇到分布外情况，因此需要更强的泛化能力和推理能力。

最近由于其强泛化性和跨域迁移能力，视觉语言模型（VLM）和视觉语言动作模型（VLA）受到了广泛关注。为了增强泛化性和上下文推理能力，最近的工作尝试将VLA引入自动驾驶领域。然而，现有的VLA方法仍然面临两个主要局限性。

首先，现有的VLA视觉处理器引入了信息冗余和显著的计算开销。如图1上部所示，有两种不同的多视角输入处理策略。第一种策略称为普通视觉处理器，它在每个时间步不加区分地处理所有可用的相机视图，导致了大量的计算负担和冗余的视觉表示，从而限制了效率和可扩展性。第二种策略称为基于查询的视觉处理器，它使用学习的查询（例如Q-former模块）来提取由语义上下文引导的一组紧凑的视觉token。然而，这些学习的查询通常会导致精确的几何和位置信息的丢失，并且需要大量的额外预训练工作。

其次，如图1下半部分所示，当前的VLA框架通常采用单一的统一策略网络设计，用于处理整个驾驶行为谱系。这种统一的方法倾向于使模型训练偏向更频繁出现的场景，从而不足以应对罕见但关键的驾驶操作，例如紧急制动或急转弯。这种缺乏明确的专业化的做法限制了它们在动态变化和高度依赖上下文的驾驶情境中的有效性。

解决这两个关键局限性需要架构上的创新，能够同时实现上下文感知的动态多视角选择和明确的细粒度技能专业化。与此同时，混合专家（MoE）架构通过将模型容量划分为多个专家模块，使得大型语言模型（LLMs）显著进步，在不增加计算需求的情况下扩展到更大的模型规模。尽管它们已被证明是成功的，但将MoE原则扩展到视觉和动作领域，特别是在自动驾驶领域，仍 largely 探索不足。目前的端到端驾驶模型继续主要依赖于统一的架构，而没有明确的动态专家选择或专业化的适应。这一差距促使探索利用基于MoE的专业化来改进自动驾驶中的视觉感知和决策组件。

为了解决这些挑战，我们提出了DriveMoE，这是一种基于我们提出的Drive-π0的新框架，是一个视觉语言动作（VLA）基础模型，从具身智能模型π0扩展而来。DriveMoE引入了Scene-Specialized Vision MoE和Skill-Specialized Action MoE，专门设计用于端到端的自动驾驶场景。DriveMoE动态选择上下文相关的相机视图，并激活针对特定技能的专家进行专业化规划。Vision MoE使用一个学习的路由器动态优先选择与当前驾驶情境一致的相机视图，并集成投影层，将这些选定的视图融合成一个连贯的视觉表示。这种方法模仿了人类注意力策略，仅允许高效处理关键的视觉输入。同时，Action MoE利用另一种路由机制在flow-matching规划架构内激活不同的专家，每个专家专注于处理特定的行为，如车道跟随、避障或激进操作。通过在感知和规划模块中引入基于上下文的动态专家选择，DriveMoE确保高效的资源利用和强大的专业化，显著改善了对罕见、复杂和长尾驾驶行为的处理。

本文的主要贡献如下：

扩展了最初为具身智能设计的VLA基础模型π0，进入自动驾驶领域，开发了Drive-π0作为视觉感知、上下文理解和动作规划的统一框架。
认识到具身智能与自动驾驶之间的差异，我们提出了DriveMoE，这是第一个将混合专家（MoE）整合到感知和决策中的框架，以解决多视角处理和多样化驾驶行为中的低效率问题。
设计了一个Scene-specialized Vision MoE用于动态相机视图选择，以及一个Skill-specialized Action MoE用于行为特定规划，解决了多视角冗余和技能专业化的挑战。
展示了DriveMoE在Bench2Drive闭环模拟基准测试中达到了最先进的（SOTA）性能，显著提高了对罕见驾驶行为的鲁棒性。

算法详解

预备知识：Drive-π0 基线

我们首先建立一个强大的基线 Drive-π0，它基于最近提出的 π0 视觉语言动作（Vision-Language-Action, VLA）框架，并将其扩展到端到端自动驾驶领域。如图 2 所示，Drive-π0 的输入包括：

(i) 来自车载多视觉传感器的一系列环绕视图图像；
(ii) 一个固定的文本提示（例如，“请预测未来轨迹”）；
(iii) 当前车辆状态（例如，速度、偏航率和过去轨迹）。

网络设计遵循 π0 框架，采用预训练的 Paligemma VLM作为主干，并使用基于流匹配的动作模块生成规划的未来轨迹。

动机：从 Drive-π0 到 DriveMoE

以 Drive-π0 为基线，我们识别出两个主要挑战：

(i) 采用视觉语言模型（VLM）处理时空环绕视图视频 token 对计算资源提出了重大挑战；
(ii) 即使有类似数据进行训练，罕见和困难场景下的驾驶性能仍然不足。这可能与不同行为之间的干扰效应有关，正如 π0 论文中提到的那样。

受 Mixture-of-Experts (MoE) 在 VLM 领域最新成功的启发，我们引入了 DriveMoE，它在 Drive-π0 的基础上添加了两个新的 MoE 模块，以解决上述挑战：

(i) 我们提出了一种 Scene-Specialized Vision MoE，根据当前驾驶情境动态选择最相关的视觉视图，从而有效减少冗余的视觉 token；
(ii) 我们在流匹配变压器中整合了一个 Skill-Specialized Action MoE，以生成更精确的未来轨迹分布，适用于不同的驾驶技能。

场景专业化视觉 MoE

典型的视觉语言动作模型（VLAs）通常一次只处理单个或少量图像，而自动驾驶必须处理多视角、多时间步的视觉输入。将所有视觉帧连接到一个 transformer 中会导致视觉 token 瓶颈——序列长度爆炸式增长，显著减慢训练和推理速度，并阻碍收敛。

现有的工作中采用了普通的视觉处理器直接处理所有视觉 token，而基于查询的压缩模块（例如 Q-Former）减少了 token 数量但牺牲了空间结构，通常将图像视为“补丁包”，没有精细的空间对应关系。

在这项工作中，我们寻求一种简单高效的方法，在不丢失对驾驶至关重要的丰富空间上下文的情况下减少 token 负载。受人类驾驶员自然优先考虑特定视觉信息的启发——基于驾驶情境——我们提出了一种 Scene-Specialized Vision Mixture-of-Experts (Vision MoE) 模块。

具体来说，如图 3 所示，我们的 Vision MoE 根据当前驾驶情况和路线规划器提供的未来目标点，动态选择最相关的视觉视图子集。与不切实际且昂贵的 token 级标注不同，视觉标注简单且成本低，允许有效集成人类先验知识。这种动态注意力策略显著减少了每个时间步处理的视觉 token 数量，极大提高了计算效率和决策准确性。

形式上，我们将时间时视觉输入的图像定义为，其中表示可用的个视觉视图。特别地，时间步的前视图图像表示为。我们引入了一个轻量级的视觉路由器模块，其输入为前视图嵌入和未来目标点，并计算所有视觉视图上的概率分布：

其中每个元素表示时间步时视觉视图的选择概率。值得注意的是，路由发生在昂贵的主干计算之前，因此未被选中的视图可以完全跳过，以节省计算资源。因此，我们获得 VLM 的输入：

我们进一步将学习的位置嵌入（PE）唯一地分配给每个视觉视图，以保留不同视觉视图之间的空间和位置关系。视图选择的标签是通过手动设计的滤波器基于未来轨迹、边界框和地图注释的，详见附录 A。有了注释的二进制视觉视图选择标签，视觉路由器使用交叉熵损失进行训练：

该损失明确鼓励模型主动选择与决策相关的信息性视觉视图。表示视觉路由器的损失权重。

技能专业化动作 MoE

人类驾驶员能够流畅地在不同的驾驶技能之间切换——例如在高速公路上平稳巡航、小心并入车流、迅速超车或紧急制动应对突发障碍。每种驾驶技能都关联着不同的行为模式和轨迹特征。尽管原始的 π0 流匹配解码器已经能够生成多样化的轨迹，但使用单一模型不可避免地会平均这些多样化的行为，导致模型无法准确生成罕见但安全关键的操作。

为了解决这些问题，受人类直觉的启发——即驾驶员会根据当前情境自然选择适当的驾驶技能，我们提出了一种基于原始流匹配轨迹变压器的 Skill-Specialized Action MoE 架构。核心思想是通过在解码器中用包含多个技能专用专家的 Mixture-of-Experts (MoE) 层替换每个密集前馈网络（FFN），来分解策略的行为表示。

形式上，考虑一个 Transformer 解码层，其输入隐藏状态。我们在这一层中引入个共享专家模型和个非共享专家模型，每个专家都是具有独立参数的 FFN。每个专家处理输入以产生输出。同时，一个动作路由器根据相同输入计算一组非共享路由 logit 。然后，我们通过 softmax 将这些 logit 转换为专家的概率分布：

更新后的特征结合各个专家的加权输出：

在实践中，我们使用稀疏激活机制仅选择排名最高的几个专家进行计算（仅激活 Top-1 或 Top-2 专家），从而减少计算量，防止专家之间的相互干扰，并增强专家技能的专业化程度。这种稀疏路由机制与我们在 Vision MoE 模块中使用的机制一致，确保每个专家清晰地专注于特定的行为模式。

为了明确引导模型朝着有意义的技能专业化方向发展——模仿结构化和直观的人类定义技能类别——我们利用驾驶技能标签，基于场景进行注释，并通过交叉熵损失训练技能路由器：

此外，我们使用流匹配轨迹损失优化整个 Action MoE 模块，以确保准确的轨迹预测，并引入负载均衡正则化损失以保持专家利用率的平衡，防止专家崩溃：

其中表示流匹配策略的损失权重，表示动作路由器的损失权重。我们在动作路由器中引入噪声，增加随机性并鼓励探索，有效缓解专家崩溃的风险。

两阶段训练：从教师强制到自适应训练

DriveMoE 加载了 Paligemma VLM 的预训练权重，并通过两阶段训练程序在自动驾驶场景中对其进行微调。第一阶段，视觉和动作 MoE 仅选择真实专家，同时联合训练路由器，这显著稳定了训练过程。

第二阶段，我们过渡到基于视觉和动作 MoE 路由器输出选择专家，不再依赖专家的真实标注。这增强了模型对潜在错误或路由器不准确性的鲁棒性，从而提高整体模型在现实推理条件下的泛化能力。

实验结果分析

数据集、基准与指标

我们使用 CARLA 模拟器（版本 0.9.15.1）进行闭环驾驶性能评估，并采用最新的公开闭环评估基准 Bench2Drive ，该基准包括 220 条短路线，每条路线包含一个具有挑战性的特殊情况，用于分析不同的驾驶能力。它提供了官方训练集，我们在其中使用基础集（1000 个片段，950 个训练，50 个测试/验证），以确保与其他所有基线的公平比较。

我们使用 Bench2Drive 的官方 220 条路线和官方指标进行评估。驾驶分数 (DS) 定义为路径完成率和违规分数的乘积，衡量任务完成情况和规则遵守情况。成功率 (SR) 衡量在规定时间内成功完成路线且不违反任何交通规则的百分比。效率量化车辆相对于周围交通的速度，鼓励在不过度激进的情况下取得进展。舒适性反映驾驶轨迹的平滑程度。同时，Bench2Drive 还评估了多个关键维度的驾驶能力，包括合并、超车、紧急制动、让行和交通标志等任务。

实现细节

视觉路由标注： 我们在 Bench2Drive数据集中引入了额外的视觉视图重要性标注。这种标注方法既经济又简单，但通过高效而有效地利用多视觉输入显著提升了模型性能。关于视觉标注规则的详细信息请参见附录 A。

动作路由标注： 我们保持技能定义与 Bench2Drive设置一致。共有五种驾驶技能：合并、超车、紧急制动、让行和交通标志。

Drive-π0： 我们使用连续两个前视图像作为输入，以有效估计周围交通代理的速度。此外，输入状态结合了当前和历史信息，包括位置、速度、加速度和航向角，使模型能够准确预测未来 10 个路径点。

DriveMoE： 我们使用连续两个前视图像加上一个由视觉路由器动态选择的视觉视图作为输入。连续前视图像主要用于捕捉时间变化以建模周围交通代理的速度，而动态视图则通过选择视觉路由器中的 Top-1 视图来增强空间感知。输入状态表示与 π0 框架保持一致，包括当前和历史的位置、速度、加速度和航向角信息。在动作模型中，我们采用 1 个共享专家和 6 个非共享专家。在训练和推理过程中，动作路由器选择的 Top-3 专家被用来生成最终的轨迹预测，包含 10 个未来路径点。我们采用两阶段后训练策略：

训练阶段 1： 我们训练模型 10 个 epoch。视觉语言模型 (VLM) 组件从 Paligemma-3b-pt-224 [43] 的预训练权重初始化。VLA 和 Action MoE 专家分别使用两个优化器进行优化，配置如下：学习率为，并启用 warmup 步骤。梯度裁剪应用于最大梯度范数为 1.0。使用梯度累积模拟批量大小为 1024。为了有效平衡不同损失组件，我们将视觉路由器损失权重设为 0.05，动作路由器损失权重设为 0.03，流匹配损失权重设为 1。

训练阶段 2： 我们继续训练 5 个额外的 epoch，从第 1 阶段结束时的检查点初始化。在此阶段，输入的视觉视图和动作专家根据路由器的输出动态选择。我们将动作路由器损失权重设为 0.025，强调轨迹学习。其他超参数与第 1 阶段保持一致。

PID 控制器： 所有方法使用相同的 PID 控制器进行公平比较。PID 控制器模块将当前车辆速度和模型预测的未来轨迹（包含 10 个路径点）作为输入，并输出油门、刹车和转向角命令。具体而言，对于转向控制，PID 增益为： , , ；对于速度控制，PID 增益为： , , 。期望车辆速度由预测轨迹的第 7 个路径点计算得出，而转向角由第 10 个路径点确定。此配置确保车辆控制稳定且响应迅速，符合模型的轨迹预测。

与SOTA对比

如表 2 所示，我们提出的方法在 Bench2Drive 闭环基准的驾驶分数和成功率方面达到了最先进的 (SOTA) 性能。具体来说，与基线 Drive-π0 相比，我们的方法将驾驶分数提高了 22.8%，将成功率提高了 62.1%。在开环指标上，我们的方法达到了最低的 L2 误差。我们观察到，基于扩散策略的轨迹预测相比传统方法显著降低了 L2 误差。然而，正如 AD-MLP、TransFuser++和 Bench2Drive 等先前研究所强调的那样，开环指标主要作为模型收敛的指示器，而闭环指标更能可靠地评估真实驾驶性能。此外，在多维能力评估中，如表 1 所示，我们的方法在五个关键能力和整体平均值上均达到最先进的结果。

消融实验

Drive-π0 与 DriveMoE 的对比： 我们进行了消融研究，以评估 DriveMoE 框架内 Vision MoE 和 Action MoE 组件的独立贡献。如表 3 所示，移除 Vision MoE 或 Action MoE 中的任何一个都会导致驾驶分数和成功率明显下降，表明每个组件对整体性能都有重要意义。与基线 Drive-π0 相比，我们的完整 DriveMoE 模型显著提升了驾驶性能，突出了两种 MoE 模块的互补有效性。

Vision MoE： 如表 5 所示，我们研究了摄像机视图选择和监督信号在 Vision MoE 模块中的贡献。基线（①，Drive-π0）使用两个连续的前视图像（Ifront t + Ifront t−1）主要用于估计周围代理的速度。添加第三个固定视图（如后视图（②）、前左视图（③）或前右视图（④））提供了额外的空间上下文，带来了适度的改进。通过引入无监督的动态选择视图（⑤），驾驶分数和成功率显著提高。最终，加入显式监督信号（⑥，DriveMoE）进一步增强了驾驶分数和成功率，证明了我们的 Vision MoE 模块在利用动态和受监督的多视角感知方面的有效性。

Action MoE： 我们研究了 Action MoE 中非共享专家数量的不同配置，如表 4 所示。具体而言，配置①对应于 Bench2Drive定义的原始五种技能，而②引入了一个额外的专家用于经典的 ParkingExits 场景，从而提高了性能。为了进一步分析专家专业化的效应，我们进行了额外实验：③增加了针对配置②中识别出的几个挑战性场景的专家，而④为 Bench2Drive 中的 44 个场景中的每一个分配了一个独特的专家。我们发现，过度增加专家数量（③，④）由于专家之间的负载不平衡，会对性能产生负面影响。因此，适当平衡专业化专家的数量对于最优驾驶性能至关重要。

这些结果显示了我们的路由器模块在实际应用中的高精度表现，进一步验证了 DriveMoE 在复杂驾驶环境下的鲁棒性和适应性。

结论

本文提出的 Drive-π0 改进了 DriveMoE，这是一种新颖的端到端自动驾驶框架，将混合专家（Mixture-of-Experts, MoE）架构整合进视觉和动作组件中。DriveMoE 通过场景专业化视觉 MoE 动态选择相关摄像头视图，有效解决了现有 VLA 模型中存在的问题，并通过技能专业化动作 MoE 激活针对特定驾驶行为的专业化专家模块，从而提升了模型性能。在 Bench2Drive 基准上的广泛评估表明，DriveMoE 在自动驾驶任务中取得了最先进的性能，显著提高了计算效率并增强了对罕见、安全关键驾驶场景的鲁棒性。将 MoE 引入端到端自动驾驶领域为未来的研究开辟了有希望的方向。我们将公开发布我们的代码和模型，以促进该领域的持续探索和进步。

自动驾驶之心

论文辅导来啦

知识星球交流社区

近4000人的交流社区，近300+自动驾驶公司与科研结构加入！涉及30+自动驾驶技术栈学习路线，从0到一带你入门自动驾驶感知（大模型、端到端自动驾驶、世界模型、仿真闭环、3D检测、车道线、BEV感知、Occupancy、多传感器融合、多传感器标定、目标跟踪）、自动驾驶定位建图（SLAM、高精地图、局部在线地图）、自动驾驶规划控制/轨迹预测等领域技术方案、大模型，更有行业动态和岗位发布！欢迎加入。

独家专业课程

端到端自动驾驶、大模型、VLA、仿真测试、自动驾驶C++、BEV感知、BEV模型部署、BEV目标跟踪、毫米波雷达视觉融合、多传感器标定、多传感器融合、多模态3D目标检测、车道线检测、轨迹预测、在线高精地图、世界模型、点云3D目标检测、目标跟踪、Occupancy、CUDA与TensorRT模型部署、大模型与自动驾驶、NeRF、语义分割、自动驾驶仿真、传感器部署、决策规划、轨迹预测等多个方向学习视频

学习官网：www.zdjszx.com