VLA模型最新综述！近80多个VLA 模型，涉及架构、训练，实时推理等

最新推荐文章于 2025-05-21 17:27:26 发布

敢敢のwings

最新推荐文章于 2025-05-21 17:27:26 发布

阅读量262

点赞数

分类专栏：具身智能文章标签：架构

原文链接：https://mp.weixin.qq.com/s/0r2MtuJ0H6QZ7sAchol9EA

版权

具身智能专栏收录该内容

39 篇文章

订阅专栏

写在前面&出发点

视觉 - 语言 - 动作（VLA）模型是人工智能领域的变革性进展，致力于将感知、自然语言理解和实体动作统一于一个计算框架。我们全面总结了 VLA 模型的最新进展，从五个主题展开呈现该领域全景。先奠定 VLA 系统概念基础，追溯其从跨模态学习架构到通用智能体（集成视觉 - 语言模型、动作规划器和分层控制器）的演变。研究采用严格文献综述框架，涵盖过去三年 80 多个 VLA 模型。关键进展领域包括架构创新、参数高效训练策略和实时推理加速。应用领域多样，如仿人机器人、自动驾驶汽车、医疗和工业机器人、精准农业、增强现实导航等。主要挑战涉及实时控制、多模态动作表示、系统可扩展性、对未知任务的泛化以及道德部署风险等。借鉴前沿研究成果，提出针对性解决方案，包括智能体人工智能适应、跨实体泛化和统一的神经符号规划。前瞻性讨论勾勒未来路线图，VLA 模型、视觉 - 语言模型和智能体人工智能将融合，为符合社会规范、自适应且通用的实体智能体提供动力。这项工作为推进智能、实用的机器人技术和通用人工智能奠定基础。

一些介绍

在视觉 - 语言 - 动作（VLA）模型出现前，机器人技术和人工智能进展在不同领域各自发展，包括能识别图像的视觉系统、理解生成文本的语言系统以及控制运动的动作系统。这些系统在各自领域表现尚可，但难以协同工作，也难以应对复杂环境和现实挑战。

如图 1 所示，传统基于卷积神经网络（CNNs）的计算机视觉模型专为狭窄任务设计，需大量标记数据和繁琐重训练，且缺乏语言理解和将视觉洞察转化为行动的能力。语言模型（如大语言模型 LLMs）革新了文本理解和生成，但局限于处理语言，无法感知物理世界。机器人领域基于动作的系统依赖手工策略或强化学习，能实现特定行为但难以泛化。

视觉 - 语言模型（VLMs）虽结合了视觉和语言实现多模态理解，但存在整合差距，难以生成或执行连贯动作。多数人工智能系统最多擅长两种模态，难以将视觉、语言、动作完全整合，导致机器人难以协调多种能力，呈现碎片化架构，泛化能力差且需大量工程工作，凸显了实体人工智能的瓶颈。

VLA 模型大约在 2021-2022 年被提出，谷歌 DeepMind 的 RT-2 率先引入变革性架构，统一感知、推理和控制。VLA 模型集成视觉输入、语言理解和运动控制能力，早期方法通过扩展视觉 - 语言模型包含动作标记来实现集成，提高了机器人的泛化、解释语言命令和多步推理能力。

VLA 模型是追求统一多模态智能的变革性步骤，利用整合多种信息的大规模数据集，使机器人能在复杂环境中推理和行动。从孤立系统到 VLA 范式的演进标志着向开发自适应和可泛化实体智能体的根本性转变。进行全面系统综述很有必要，这有助于阐明 VLA 模型的概念和架构原则，阐述技术发展轨迹，描绘应用，审视挑战，并向学界传达研究方向和实际考虑因素。

我们系统分析了 VLA 模型的基本原理、发展进展与技术挑战，旨在深化对 VLA 模型的理解，明确其局限并指明未来方向。我们先探讨关键概念，包括 VLA 模型的构成、发展历程、多模态集成机制，以及基于语言的标记化和编码策略，为理解其跨模态结构与功能奠定基础。接着，统一阐述近期进展与训练效率策略，涵盖架构创新、数据高效学习框架、参数高效建模技术和模型加速策略，这些成果助力 VLA 系统在不降低性能的同时，降低计算成本，推动其向实际应用拓展。随后，深入讨论 VLA 系统的局限性，如推理瓶颈、安全隐患、高计算需求、泛化能力有限和伦理问题等，并分析潜在解决方案。

视觉 - 语言 - 动作模型的概念

VLA 模型是新型智能系统，能在动态环境中联合处理视觉输入、解释自然语言并生成可执行动作。技术上，它结合视觉编码器（如 CNNs、ViTs）、语言模型（如 LLMs、transformers）和策略模块或规划器，采用多模态融合技术（如交叉注意力机制等），将感官观察与文本指令对齐。

与传统视觉运动流水线不同，VLA 模型支持语义基础，可进行情境感知推理、功能检测和时间规划。典型的 VLA 模型通过相机或传感器观察环境，解释语言目标（如 “捡起红色的苹果”）（图 5），输出高低级动作序列。近期进展通过整合模仿学习等模块提升样本效率和泛化能力。

我们探讨 VLA 模型从基础融合架构向可在实际场景（如机器人技术、导航、人机协作等）中部署的通用智能体的演变。VLA 模型作为多模态人工智能系统，统一视觉感知、语言理解和物理动作生成，使机器人或 AI 智能体通过端到端学习解释感官输入、理解情境并自主执行任务，弥合早期系统中视觉识别、语言理解和运动执行间的脱节，突破其能力限制。

演进与时间线

2022 - 2025 年，VLA 模型快速发展，经历三个阶段：

基础集成（2022 - 2023 年）：早期 VLA 模型通过多模态融合架构实现基本视觉运动协调。如将 CLIP 嵌入与运动原语结合，展示 604 个任务的通用能力，通过规模化模仿学习在操作任务成功率达 97%，引入基于 transformer 的规划器实现时间推理。但这些基础工作缺乏组合推理能力，促使功能基础创新。
专业化与实体推理（2024 年）：第二代 VLA 模型纳入特定领域归纳偏差。借助检索增强训练提升少样本适应能力，通过 3D 场景图集成优化导航。引入可逆架构提高内存效率，用物理感知注意力解决部分可观测性问题。同时，以对象为中心的解耦改进组合理解，通过多模态传感器融合拓展应用到自动驾驶领域，这些进展需要新的基准测试方法。
泛化与安全关键部署（2025 年）：当前系统注重鲁棒性和与人类对齐。集成形式验证用于风险感知决策，通过分层 VLA 模型展示全身控制能力。优化计算效率用于嵌入式部署，结合神经符号推理进行因果推断。新兴范式如的功能链和的仿真到现实转移学习解决跨实体挑战，通过自然语言基础连接 VLA 模型与人在回路接口。

图 6 展示 2022 - 2025 年 47 个 VLA 模型综合时间线。最早的 VLA 系统如 CLIPort等为操作和控制奠定基础，随后如 ACT等集成视觉思维链推理和功能基础，Diffusion Policy等引入随机建模和可扩展数据管道。2024 年 Deer - VLA等增加领域专业化和内存高效设计，Occllama等解决部分可观测性和用户交互问题，后续以机器人为重点的 VLA 模型不断创新。最近的模型强调泛化和部署，如 SafeVLA 等纳入验证、全身控制和内存系统，Gr00t N1 等实现仿真到现实转移和空间基础，展现 VLA 模型从模块化学习向通用、安全的实体智能发展的轨迹。

多模态集成：从孤立的流水线到统一的智能体

VLA 模型的核心进展在于多模态集成能力，能在统一架构中联合处理视觉、语言和动作。传统机器人系统将感知、自然语言理解和控制作为离散模块，通过手动接口或数据转换连接，缺乏适应性，难以泛化指令。

现代 VLA 模型利用大规模预训练编码器和基于 transformer 的架构，进行端到端模态融合，能在同一计算空间中处理视觉观察和语言指令，实现灵活推理。例如在 “捡起红色成熟苹果” 任务中，视觉编码器识别物体及其属性，语言模型编码指令，两者通过交叉注意力等机制融合，生成统一潜在空间指导动作策略。

CLIPort 率先展示多模态协同效应，用 CLIP 嵌入实现语义基础，无需显式语言解析确定视觉运动策略；VIMA 通过联合处理视觉和指令标记，实现跨空间推理少样本泛化。

近期发展进一步深化融合。VoxPoser 用体素级推理解决 3D 对象选择歧义，RT - 2 融合视觉 - 语言标记实现零样本泛化，Octo 引入内存增强 transformer 支持长时决策。此外，Occllama 处理遮挡对象引用，ShowUI 实现自然语言交互控制。这些能力源于 VLA 模型对跨模态语义、空间和时间对齐的深度捕捉，为现实应用挑战提供了解决方案。

标记化与表示：VLA 模型如何编码世界

VLA 模型的核心创新在于基于标记的表示框架，可对感知、语言和物理动作空间进行整体推理，受自回归生成模型启发，能统一各模态到共享嵌入空间，既理解 “做什么” 也知道 “怎么做”。

前缀标记：编码上下文和指令： 是 VLA 模型的上下文关键。它将环境图像和自然语言指令编码为紧凑嵌入，为模型内部表示打基础。如 “将绿色积木堆放在红色托盘上” 任务中（如图 7 所示），图像经视觉编码器处理，指令由大语言模型嵌入，转换为前缀标记，实现跨模态基础，解析空间引用和对象语义。

状态标记：嵌入机器人的配置： VLA 模型需了解内部物理状态，由状态标记实现，其编码智能体配置实时信息，包括关节位置等。图 8 展示了在操作和导航场景中，状态标记对情境感知和安全很重要。如机械臂靠近易碎物体时，状态标记编码关节角度等信息，与前缀标记融合，让变换器推理物理约束，调整电机指令；移动机器人中，状态标记封装里程计等空间特征，与环境和指令上下文结合生成导航动作，为情境感知提供机制，生成反映机器人内外部信息的动作序列。

动作标记：自回归控制生成： VLA 标记管道最后一层是动作标记，由模型自回归生成，代表运动控制下一步，每个标记对应低级控制信号。推理时，模型依据前缀和状态标记解码动作标记，将 VLA 模型转变为语言驱动的策略生成器，支持与现实驱动系统无缝集成，可微调。如 RT-2 和 PaLM-E 等模型，在苹果采摘任务中（如图 9 所示），模型接收前缀标记和状态标记，逐步预测动作标记以执行抓取动作，让 transformer 能像生成句子一样生成物理动作。

学习范式：数据来源与训练策略

训练 VLA 模型需混合学习范式，结合网络语义知识与机器人数据集的任务相关信息，通过两个主要数据源实现：

大规模互联网衍生语料库：如图 10 所示，像 COCO、LAION400M 等图像 - 字幕对，HowTo100M、WebVid 等指令跟随数据集，VQA、GQA 等视觉问答语料库构成模型语义先验基础。预训练视觉和语言编码器，使用对比或掩码建模目标，对齐视觉和语言模态，赋予 VLA 模型对世界的基本 “理解”，助力组合泛化、对象基础和零样本迁移。
机器人轨迹数据集：仅靠语义理解不足以执行物理任务。从现实世界机器人或高保真模拟器收集的机器人轨迹数据集，如 RoboNet、BridgeData 和 RT-X 等，提供视频 - 动作对、关节轨迹和环境交互。采用监督学习、强化学习或模仿学习，训练自回归策略解码器预测动作标记。

此外，最近的工作采用多阶段或多任务训练策略，如先在视觉 - 语言数据集上预训练，再在机器人演示数据上微调；或使用课程学习，从简单任务到复杂任务；还利用领域适应弥合数据分布差距。联合微调使数据集对齐，模型学习从视觉和语言输入映射到动作序列，促进新场景泛化。谷歌 DeepMind 的 RT-2 将动作生成视为文本生成，在多模态数据和机器人演示上训练，能灵活解释新指令，实现零样本泛化，这在传统控制系统和早期多模态模型中难以实现。

自适应控制与实时执行

VLA 的优势在于具备执行自适应控制的能力，能够依据传感器实时反馈来动态调整行为。这在果园、家庭、医院等动态且非结构化环境中意义重大，因为在这些环境里，像风吹动苹果、光照变化、人员出现等意外情况会改变任务参数。在执行任务时，状态标记会根据传感器输入和关节反馈实时更新，模型也会相应修改计划动作。例如在苹果采摘场景中，若目标苹果位置变动或有其他苹果进入视野，模型能动态重新解读场景并调整抓取轨迹。这种能力模仿了人类的适应性，是 VLA 系统相较于基于流水线的机器人技术的核心优势。

视觉 - 语言 - 动作模型的进展

VLA 模型的诞生受基于 transformer 的大语言模型（LLMs）成功的启发，特别是 ChatGPT 展示的语义推理能力，推动研究人员将语言模型扩展至多模态领域，并为机器人集成感知和动作。

2023 年 GPT-4 引入多模态功能，可处理文本和图像，促使将物理动作纳入模型。同时，CLIP 和 Flamingo 等视觉 - 语言模型（VLM）通过对比学习实现零样本对象识别，利用大规模网络数据集对齐图像与文本描述，为 VLA 模型奠定基础。

大规模机器人数据集（如 RT-1 的 130,000 个演示）为联合训练视觉、语言和动作组件提供了关键动作基础数据，涵盖多种任务和环境，助力模型学习可泛化行为。

谷歌在 2023 年推出 RT-2，作为里程碑式的 VLA 模型，统一视觉、语言和动作标记，将机器人控制视为自回归序列预测任务，使用离散余弦变换（DCT）压缩和字节对编码（BPE）离散化动作，使新对象处理性能提高 63%。多模态融合技术（如交叉注意力 transformer）结合图像与语言嵌入，让机器人执行复杂命令。此外，加州大学伯克利分校的 Octo 模型（2023）引入开源方法，拥有 9300 万个参数和扩散解码器，在 800,000 个机器人演示数据上训练，拓展了研究领域。

VLA 模型的架构创新

2023 年到 2024 年，VLA 模型在架构和训练方法上取得重大进展：

架构进展：

双系统架构：以 NVIDIA 的 Groot N1（2025）为例，结合快速扩散策略（系统 1，10ms 延迟用于低级控制）和基于 LLM 的规划器（系统 2，用于高级任务分解），实现战略规划和实时执行的高效协调，增强动态环境适应性。斯坦福大学的 OpenVLA（2024）推出 70 亿参数的开源 VLA 模型，在大量现实世界机器人演示上训练，使用双视觉编码器和 Llama 2 语言模型，性能优于大型模型 RT-2-X（550 亿参数）。
早期融合模型：在输入阶段融合视觉和语言表示，如 EFVLA 模型保留 CLIP 的表示对齐，接受图像 - 文本对，编码并融合嵌入，确保语义一致性，减少过拟合，增强泛化能力，在组合操作任务上性能提升 20%，对未见目标描述成功率达 85%，同时保持计算效率。
自校正框架：自校正 VLA 模型可检测并从失败中恢复，如 SC-VLA（2024）引入混合执行循环，默认行为预测姿势或动作，检测到失败时调用次要过程，查询 LLM 诊断并生成校正策略，在闭环实验中降低任务失败率 35%，提高杂乱和对抗环境的恢复能力。

训练方法改进：利用网络规模的视觉 - 语言数据（如 LAION-5B）和机器人轨迹数据（如 RT-X）联合微调，使语义知识与物理约束一致。合成数据生成工具（如 UniSim）创建逼真场景解决数据稀缺问题。低秩适应（LoRA）适配器提高参数效率，减少 GPU 使用时间 70%。基于扩散的策略（如 Physical Intelligence 的 pi 0 模型（2024））提高动作多样性，但需大量计算资源。

VLA 模型架构多样，可按端到端与模块化、分层与扁平策略、低级控制与高级规划等进行分类。端到端模型直接处理原始感官输入，组件重点模型解耦各模块。分层架构分离战略决策与反应控制，低级策略模型生成多样运动但计算成本高，高级规划器专注子目标生成并委托细粒度控制。

VLA 模型的训练与效率提升

VLA 模型在训练和优化技术上进步迅速，可协调多模态输入、降低计算需求并实现实时控制，主要进展如下：

数据高效学习：在大规模视觉 - 语言语料库（如 LAION-5B）和机器人轨迹集合（如 Open X-Embodiment）上联合微调，使语义理解与运动技能一致。OpenVLA（70 亿参数）成功率比 550 亿参数的 RT-2 变体高 16.5%，体现联合微调在少参数下的强泛化能力。通过 UniSim 合成数据生成逼真场景，增强罕见边缘情况的场景，使模型在杂乱环境中的鲁棒性提升超 20%。自监督预训练采用对比目标（如 CLIP），在动作微调前学习联合视觉 - 文本嵌入，减少对特定任务标签的依赖，Qwen2-VL 利用自监督对齐，使下游抓取和放置任务的收敛速度加快 12%。
参数高效适应：低秩适应（LoRA）在冻结的 transformer 层插入轻量级适配器矩阵，可减少高达 70% 的可训练权重且保持性能。Pi-0 Fast 变体在静态骨干网络上使用 1000 万个适配器参数，仅以可忽略的精度损失实现 200Hz 的连续控制。
推理加速：双系统框架（如 Groot N1）中，压缩动作令牌（FAST）和并行解码使策略步骤速度提高 2.5 倍，以适度牺牲轨迹平滑度为代价实现低于 5ms 的延迟。硬件感知优化，包括张量核心量化和流水线注意力内核，将运行时内存占用缩小到 8GB 以下，可在嵌入式 GPU 上实现实时推理。这些方法让 VLA 模型成为能在动态现实环境中处理语言条件、视觉引导任务的实用智能体。

VLA 模型的参数高效方法与加速技术

基于数据高效训练的进展，近期工作聚焦于减少 VLA 模型参数占用、提高推理速度，这对在资源受限的机器人平台部署意义重大，具体如下：

低秩适应（LoRA）：LoRA 向冻结的 transformer 层注入小的可训练秩分解矩阵，OpenVLA 中，2000 万个参数的 LoRA 适配器微调 70 亿参数骨干网络耗时不到 24 小时，与完全反向传播相比，GPU 计算量减少 70%，且经 LoRA 适应的模型在处理新任务时能保持高级语言基础和视觉推理能力，使大型 VLA 模型可在无超级计算资源的实验室使用。
量化：将权重精度降至 8 位整数（INT8）可使模型大小减半、片上吞吐量翻倍。OpenVLA 实验显示，Jetson Orin 上 INT8 量化在取放基准测试中保持 97% 全精度任务成功率，细粒度灵巧操作任务精度仅降 5%，带有逐通道校准的训练后量化等方法可进一步减少高动态范围传感器输入的精度损失，使 50W 的边缘模块实现 30Hz 的连续控制循环。
模型剪枝：结构化剪枝删除冗余的注意力头或前馈子层。早期对 Diffusion Policy 的研究表明，对基于 ConvNet 的视觉编码器剪枝 20%，抓握稳定性性能下降可忽略。类似方案应用于基于 transformer 的 VLA 模型（如 RDT-1B），内存占用减少 25%，任务成功率下降不到 2%，为小于 4GB 的部署奠定基础。
压缩动作标记化（FAST）：FAST 将连续动作输出转换为频域标记，Pi-0 Fast 变体将 1000ms 动作窗口标记化为 16 个离散标记，在 3 亿参数的扩散头中实现 15 倍推理加速，可在桌面 GPU 上实现 200Hz 的策略频率，以最小轨迹粒度换取大幅加速，适用于动态任务的高频控制。
并行解码和动作分块：自回归 VLA 模型传统解码方式存在顺序延迟，并行解码架构（如 Groot N1）同时解码空间 - 时间标记组，在 7 自由度机械臂上以 100Hz 频率运行时，端到端延迟降低 2.5 倍，位置误差增加不到 3mm。动作分块将多步例程抽象为单个标记，在长时任务中推理步骤最多减少 40%。
强化学习 - 监督混合训练：iRe-VLA 框架在模拟中交替进行强化学习和基于人类演示的监督微调，利用直接偏好优化塑造奖励模型，使用保守 Q 学习避免外推误差，与纯强化学习相比，样本复杂度降低 60%，并保持语义保真度，为动态避障等任务生成稳健策略。
硬件感知优化：编译器级的图重写和内核融合（如 NVIDIA TensorRTLLM）利用目标硬件特性加速 transformer 推理和扩散采样。OpenVLA-OFT 中，与标准 PyTorch 执行相比，这些优化使 RTX A2000 GPU 上推理延迟降低 30%，每次推理能耗降低 25%，使移动机器人和无人机在严格功率预算下实现实时 VLA 模型成为可能。

总之，参数高效适应和推理加速技术使 VLA 部署更普及。LoRA 和量化让小实验室能在消费级硬件上微调运行大型 VLA 模型。剪枝和 FAST 标记化压缩模型和动作表示。并行解码和动作分块克服自回归策略瓶颈。混合训练稳定复杂环境中的探索，硬件感知编译确保实时性能，这些进展使 VLA 模型在多种机器人中嵌入成为现实，缩小了研究原型与实际应用的差距。

VLA 模型的应用

VLA 模型将感知、自然语言理解和运动控制集成，在多领域展现变革力量：

仿人机器人：VLA 模型使仿人机器人能感知环境、理解指令并执行复杂任务。如图 12 所示 Helix 利用完全集成的 VLA 模型实现高频全身操作，其双系统设计可处理输入并输出动作向量，能泛化任务并适应环境变化。VLA 驱动的仿人机器人在家庭、医疗、零售、物流和制造业等场景有应用，如家庭中清洁、准备饭菜，医疗中传递手术器械，零售中协助客户，物流和制造业中执行重复性任务。TinyVLA 和 MoManipVLA 等系统可在嵌入式低功耗硬件上运行，减少计算成本，实现移动部署。

自动驾驶系统：VLA 模型为自动驾驶车辆提供集成架构，使其能处理多模态输入并输出控制信号。如 CoVLA 提供数据集，结合视觉基础、指令嵌入和轨迹预测，使车辆能理解环境和指令，做出安全决策；OpenDriveVLA 通过分层对齐多视图视觉标记和自然语言输入，实现先进的规划和问答性能；ORION 结合多种组件，实现视觉问答和轨迹规划。在无人机领域，VLA 模型增强了无人机的能力，可执行高级命令。VLA 模型使自动驾驶系统能理解复杂环境，做出安全决策，超越传统流水线。
工业机器人：传统工业机器人缺乏语义基础和适应性，VLA 模型通过联合嵌入多模态信息，提供易于人类解释和更具泛化性的框架。如 CogACT 引入基于扩散的动作变换器，实现对动作序列的稳健建模，在不同机器人实体间快速适应，在复杂任务中成功率比先前模型高 59% 以上，减少编程开销，促进人机协作，标志着向智能工厂的重要转变。
医疗保健和医疗机器人：传统医疗机器人自主性和响应能力有限，VLA 模型集成视觉感知、语言理解和运动控制，增强手术机器人能力，如在手术中识别目标、执行动作，减少人为错误；在患者辅助中感知患者行为、理解语音请求并提供帮助。RoboNurse-VLA 展示了在手术室的可行性，VLA 模型在可解释性和可审计性上有优势，可适应不同医疗场景，减少开发时间和成本，在医疗保健中发挥关键作用。
精准农业和自动化农业：传统农业自动化系统需手动重编程，VLA 模型集成多模态感知、语言理解和动作生成，能适应不同地理区域和季节。如在果园和农田中，处理视觉输入，解析自然语言命令，执行如水果采摘、灌溉等任务，减少作物损伤，优化采摘率，支持动态重新配置和终身学习，减少对劳动力依赖，提高产量，增强环境可持续性。
基于视觉 - 语言 - 动作模型的交互式 AR 导航：传统 GPS 系统依赖刚性地图和有限用户输入，VLA 模型处理视觉和语言信息，生成动态导航提示。集成视觉编码器、语言编码器和动作解码器，推理空间布局和语义意图，支持交互循环，可与物联网传感器和数字孪生集成，实现个性化导航，重新定义人类与物理空间的交互方式。

视觉 - 语言 - 动作模型的挑战与局限

VLA 模型从研究原型转化为现实世界系统面临多种挑战，具体如下：

实时推理约束：实时推理是 VLA 模型部署的重大限制，自回归解码策略限制推理速度，如机械臂操作时，OpenVLA 和 Pi-0 等模型在顺序标记生成上面临挑战。新兴的并行解码方法（如 NVIDIA 的 Groot N1）虽能加速推理，但会牺牲轨迹平滑度。硬件限制也加剧了实时推理约束，处理高维视觉嵌入对内存带宽要求高，量化技术虽能缓解内存约束，但在高精度任务中模型精度会下降。
多模态动作表示与安全保证：

多模态动作表示：当前 VLA 模型准确表示多模态动作存在困难，传统离散标记化方法缺乏精度，基于连续多层感知器（MLP）的方法有模式崩溃风险。新兴扩散策略（如 Pi-Zero 和 RDT-1B 等模型）虽能捕捉多样动作可能性，但计算开销约为传统基于 transformer 解码器的三倍，在实时部署中不切实际，且在复杂动态任务中存在困难。
开放世界中的安全保证：VLA 模型在现实场景中确保安全性面临挑战，许多实现依赖预定义的硬编码力和扭矩阈值，在意外条件下适应性有限。碰撞预测模型在杂乱动态空间中准确率约 82%，紧急停止机制存在 200 到 500 毫秒的延迟，在高速操作或关键干预中存在危险。

数据集偏差、基础与对未见任务的泛化：

数据集偏差：VLA 模型的训练数据集常存在偏差，如网络爬取的存储库中约 17% 的关联倾向于刻板解释，导致模型在不同环境中语义不一致或响应不适当，如 OpenVLA 等模型在新颖环境中会忽略约 23% 的对象引用。
对未见任务的泛化：现有 VLA 模型在未见任务上性能显著下降，如专门在家庭任务上训练的 VLA 在工业或农业环境中可能失败，主要原因是对狭窄训练分布的过拟合和对多样化任务表示的接触不足，在零样本或少样本学习场景中表现有限。

系统集成复杂性与计算需求：

系统集成复杂性：双系统架构中集成 VLA 模型面临时间不匹配和特征空间不匹配的挑战。系统 2（如使用大型语言模型进行任务规划）和系统 1（执行快速低级运动动作）的操作节奏差异导致同步困难，如 NVIDIA 的 Groot N1 模型存在运动不平稳的问题。高维视觉编码器和低维动作解码器之间的特征空间不匹配也会降低感知理解和可操作命令之间的一致性，如 OpenVLA 和 RoboMamba 在从模拟环境移植到物理硬件部署时性能下降。
计算需求：先进 VLA 模型参数众多，对计算资源要求高，如一些模型需超过 28GB 的 VRAM，超出大多数边缘处理器和 GPU 的能力，限制了其在专门高资源环境外的实际适用性。

VLA 部署中的鲁棒性与伦理挑战：

环境鲁棒性：VLA 模型在动态变化环境中保持稳定和准确性能存在困难，如视觉模块在低对比度或阴影场景中精度降低约 20-30%，语言理解在声学嘈杂或模糊环境中受影响，机器人操作在杂乱环境中任务成功率受影响。
伦理考量：文中虽未详细阐述伦理考量部分，但可推测 VLA 模型在实际部署中需考虑伦理问题，如模型决策的公平性、对用户的影响等。

讨论

如图 17 所示，VLA 模型面临多方面挑战，包括实时推理、多模态融合、数据集偏差、系统集成、鲁棒性和伦理等问题，同时也有相应的潜在解决方案和未来发展方向：

挑战：

实时推理：自回归解码器顺序性和多模态输入高维度，在资源受限硬件上实现实时推理困难。
多模态动作与安全：将视觉、语言和动作融合到连贯策略中，遇到意外环境变化时存在安全漏洞。
数据集与泛化：数据集偏差和基础错误损害模型泛化能力，在分布外任务上易失败。
系统集成：集成感知、推理、控制等不同组件，架构复杂，优化和维护困难。
计算需求：大型 VLA 系统能源和计算需求高，阻碍在嵌入式或移动平台部署。
鲁棒性与伦理：对环境可变性鲁棒性不足，存在隐私和偏差等伦理问题，引发社会和监管关注。

潜在解决方案：

实时推理约束：开发协调延迟、吞吐量和任务特定精度的架构，集成硬件加速器，使用模型压缩技术、渐进式量化策略和自适应推理架构，采用高效标记化方案，可实现低延迟推理，适用于对延迟敏感的应用。
多模态动作表示与安全保证：构建端到端框架统一感知、推理和控制，采用混合策略架构表示多样动作轨迹，利用实时风险评估模块确保安全，结合强化学习算法和在线模型适应技术优化动作选择，嵌入形式验证层，可生成安全的 VLA 系统。
数据集偏差、基础与对未见任务的泛化：策划大规模无偏差多模态数据集，对视觉 - 语言骨干网络微调，采用元学习框架和持续学习算法，进行迁移学习和仿真到现实的微调，使 VLA 能对未见对象、场景和任务进行泛化。
系统集成复杂性与计算需求：采用模型模块化和硬件 - 软件协同设计，注入 LoRA 适配器进行特定任务微调，通过知识蒸馏得到紧凑模型，结合混合精度量化和定制硬件加速器，利用工具链优化端到端的 VLA 图，TinyVLA 等架构可实现实时推理，适用于资源受限环境。
VLA 部署中的鲁棒性与伦理挑战：利用域随机化和合成增强管道增强模型对环境变化的适应能力，使用自适应重新校准模块减轻漂移和传感器退化；通过偏差审计、对抗性去偏等技术解决伦理问题，实现隐私保护推理，建立监管框架，平衡技术与社会价值。

未来路线图：

多模态基础模型：出现大规模多模态基础模型，编码动态和常识知识，为动作学习者提供统一表示基础。

智能体、自监督终身学习：VLA 与环境持续交互，生成探索目标，自我校正，像人类学徒一样自主扩展能力。

分层、神经符号规划：采用分层控制架构，基于语言的顶级规划器分解任务，中级模块转换为运动计划，低级控制器生成平滑轨迹，融合神经符号确保可解释性和灵活性。

通过世界模型进行实时适应：VLA 维持内部预测性世界模型，对比预测与传感器反馈，使用基于模型的校正动作，可在非结构化环境中实现鲁棒性。

跨实体和迁移学习：未来 VLA 能在不同形态机器人间无缝转移技能，结合元学习，新机器人用少量校准数据启动先前技能。

安全、伦理和以人类为中心的对齐：集成实时风险估计器评估潜在危害，融入监管约束和社会意识政策，确保机器人尊重人类偏好和法律规范。

如图 18 所示，基于 VLA 的机器人技术未来在于集成视觉 - 语言模型（VLMs）、VLA 架构和智能体 AI 系统。以仿人助手 “Eva” 为例，在感知层，其基础 VLM 将视觉场景分割并模拟动态行为，实现高级视觉理解。当收到 “清理咖啡渍并给植物浇水” 的命令时，VLA 模块被激活，将语言输入和感官反馈结合，高级规划器分解任务，中级策略模块转换为运动轨迹，低级扩散策略控制器生成平滑关节运动。同时，Eva 的智能体 AI 模块支持持续学习和适应，遇到挑战时启动自我改进循环。此外，通过接近传感器、实时监控等确保安全性和对齐性，夜间还会回顾性能日志优化子策略。VLM、VLA 和智能体的结合是迈向实体通用人工智能的重要一步，能让机器人如 Eva 般感知、规划、行动、适应并与人类安全共存，改变智能系统与现实世界的交互方式，使其更稳健、可解释且符合人类需求。

结论

我们系统评估了过去三年 VLA 模型的发展、方法和应用。分析从 VLA 基本概念出发，追溯其发展历程，强调多模态集成从松散耦合到基于 transformer 架构的转变。我们研究了标记化和表示技术，关注 VLA 对视觉和语言信息的编码。探讨学习范式，介绍从监督学习到多模态预训练的数据集和训练策略，以及现代 VLA 针对动态环境的优化和对延迟敏感任务的支持。我们对主要架构创新分类，调查超 50 个近期 VLA 模型，研究训练和效率策略，包括参数高效方法和加速技术。我们分析了 VLA 在仿人机器人、自动驾驶等六个领域的应用。讨论挑战和局限性，聚焦实时推理、多模态动作表示等五个核心领域，从文献中提出潜在解决方案，如模型压缩等。最后，讨论和未来路线图阐述 VLM、VLA 架构和智能体 AI 系统的融合引领机器人技术走向通用人工智能的方向。