点击下方卡片,关注“具身智能之心”公众号
作者 | Hongyin Zhang等 编辑 | 具身智能之心
本文只做学术分享,如有侵权,联系删文
更多干货,欢迎加入国内首个具身智能全栈学习社区:具身智能之心知识星球(戳我),这里包含所有你想要的。
写在前面&出发点
随着具身智能的快速发展,用于通用机器人决策的视觉-语言-动作(VLA)模型取得了显著进展。然而,现有的大多数VLA模型未能考虑到在部署过程中不可避免的外部扰动。这些扰动给VLA模型带来了不可预见的状态信息,导致动作不准确,进而使泛化性能大幅下降。经典的内模控制(IMC)原理表明,具有包含外部输入信号的内模的闭环系统可以准确跟踪参考输入并有效抵消干扰。这里提出了一种新颖的闭环VLA方法GEVRM,该方法集成了IMC原理,以增强机器人视觉操作的稳健性。GEVRM中的文本引导视频生成模型可以生成高度表达性的未来视觉规划目标。同时,我们通过模拟响应来评估扰动,这些响应称为内部嵌入,并通过原型对比学习进行优化。这使得模型能够隐含地推断和区分来自外部环境的扰动。所提出的GEVRM在标准和受扰动的CALVIN基准测试中均实现了最先进的性能,并且在实际机器人任务中显示出显著的改进。
首发于国内首个具身智能全栈学习社区:具身智能之心知识星球!
领域介绍
追求稳健且适应性强的机器人系统是具身通用智能的基石。最近,随着大规模机器人数据收集、通用状态表示学习以及表达性策略学习的成功推进,机器人视觉-语言-动作(VLA)模型的研究取得了重大进展。上述策略已被证明在从物理模拟器到精心设计的现实世界环境等各种环境中,对估计机器人状态和生成稳健动作是有效的。然而,这些精心设计的环境并未考虑到部署过程中不可避免的外部扰动,例如光照条件的波动或由于信号传输问题导致的视频流噪声。当VLA模型部署在这些非理想环境中时,外部扰动会给机器人带来不可预测的状态信息。这使得VLA在不准确的环境状态下产生脆弱且不稳定的动作,导致其泛化性能显著下降。因此,增强VLA模型的稳健性以应对部署时不可避免的外部扰动是一个持续的挑战。
在计算机视觉和强化学习领域,图像增强是一种常见的技术,用于缓解模型过拟合问题、抵抗输入图像的扰动并增强模型的稳健性。其思想是对模型的输入图像应用任务标签不变的变换。例如,对于物体识别任务,图像翻转和旋转不会改变语义标签。因此,这项技术也已应用于机器人视觉语言操作任务。一些先前的工作利用视觉作为通用媒介,开发了能够通过想象和执行来规划各种任务的特定智能体。这些方法涉及使用生成模型来预测未来视频或目标图像,然后是将视觉计划转化为实际动作的目标条件策略。在训练目标条件策略时利用了图像增强技术,这在一定程度上缓解了策略对特定任务的过拟合。然而,这些模型受到其生成能力的限制,它们生成的未来目标图像(或视频)状态表达不够充分,并且图像增强仅允许模型在狭窄的任务分布内进行泛化。它对环境扰动缺乏强大的弹性,难以在不同的任务场景中产生始终有效的动作。

受到图1(a)所示的经典内模控制(IMC)原理的启发。该原理的核心思想是,在闭环控制系统中,通过在控制器内部构建一个能够模拟外部扰动和参考输入的模型,可以准确跟踪期望输出并有效抵消扰动。也就是说,它利用内模来复制系统的行为,随后评估系统的扰动,从而增强闭环稳定性。人们普遍认为,智能哺乳动物也依赖内模来产生它们的动作,并且这种机制也得到了行为学、神经生理学和成像数据的揭示和支持。更重要的是,将内模集成到机器人控制系统中已被证实可以增强机器人运动控制的稳健性。然而,结果仅限于特定场景,难以扩展到更复杂和通用的任务,如视觉语言操作。如何在VLA框架中实例化内模以提高决策动作的稳健性尚未得到探索。
为此,我们提出了GEVRM,一种用于稳健视觉操作的目标表达视频生成模型。如图1(b)所示,为了在VLA模型中有效地实现经典的IMC原理,我们对方法的一些组件进行了相应调整。
目标生成:将视频帧作为描述机器人状态的通用接口,我们引入一种先进的文本引导视频扩散生成模型作为机器人行为规划器,以生成未来目标帧作为参考输入。为了提高未来目标状态的表达性,我们通过高效的视频时空压缩和随机掩码策略来训练视觉规划器,以优先理解物理世界规律和物体的3D一致性。
状态对齐:我们利用机器人的模拟响应来估计系统扰动。这些响应称为内部嵌入,是从机器人状态中提取的。由于响应固有地嵌入在机器人的历史观测中,因此可以通过原型对比学习来优化内部嵌入,以使机器人未来的表达性目标状态与当前状态对齐。这使模型能够隐含地推断和区分来自外部环境的扰动。
目标引导策略:我们提出一种以生成的高度表达性目标为条件的扩散策略,以更好地对机器人操作的多模态任务分布进行建模。该策略和上述内部嵌入通过逆动力学和对比学习目标进行联合优化,以便即使在存在扰动的情况下也能很好地跟踪高度表达性目标。
贡献有三个方面:
引入了GEVRM,这是一种新颖的稳健VLA模型,它结合了IMC原理来增强机器人视觉操作。
研究了如何使用文本引导视频生成模型获得高度表达性的目标,并通过原型对比学习对齐状态表示,以抵抗部署时的外部扰动。
大量实验验证了所提出的GEVRM的有效性和先进性。它在标准和外部扰动的CALVIN基准测试中显著优于先前的最先进方法。与以前的基线方法相比,在实际视觉操作中生成的目标状态的表达性显著提高。
相关工作
视觉-语言-动作模型
随着广泛的多任务机器人数据集的兴起,机器人学界越来越关注多任务执行能力。视觉-语言-动作模型因其能够使用语言作为目标命令,使机器人能够基于视觉感知做出明智决策而受到关注。早期研究利用语言和视觉之间的跨模态注意力,但有限的模型性能阻碍了其有效性。最近,注意力转向了大型基础模型,以提高通用性。然而,文本描述往往缺乏关于环境状态的细节,这使得跨形态任务变得复杂。因此,一些研究现在利用视觉作为通用媒介,采用生成模型来预测未来动作,然后通过目标条件策略来执行。UniPi是最早利用互联网规模数据训练文本条件视频生成器的模型之一,它使用逆动力学模型来估计动作。同样,SuSIE使用图像编辑模型为低级控制器规划高级子目标,而ADVC从具有密集对应关系的预测视频内容中推断动作。这些努力旨在实现通用状态表示,但由于两个原因而未能成功。首先,由于动力学建模不佳,现有的视觉计划存在时间和空间不一致性。我们提出了一种稳健的视频生成模型来解决这个问题并增强动作执行。其次,先前的工作侧重于受控环境,忽略了机器人对外部干扰的响应。我们的GEVRM方法采用对比学习进行状态对齐,有效地模拟响应并抵抗干扰。这些元素共同定义了我们富有表达力的目标表示。
内模控制框架
IMC框架是一种广泛认可的控制策略,它利用系统的内模来预测未来行为并相应地调整控制动作,使其对干扰和模型不准确性具有高度的鲁棒性。IMC由Garcia和Morari首次提出,已广泛应用于线性和非线性过程控制中,在稳定性和适应性方面具有显著优势。其反馈机制允许进行实时调整,这在诸如机器人技术等对精度要求极高的动态环境中尤为重要。IMC的设计已针对多变量和复杂系统进行了进一步探索和改进,证明了其在各种控制应用中的通用性和鲁棒性。然而,以前的大多数研究工作都局限于特定的控制场景,难以扩展到一般的视觉语言操作任务。最近,受经典闭环控制系统的启发,有人提出了一种闭环视觉运动控制框架,该框架结合了反馈机制来改进自适应机器人控制。与这些工作不同,我们研究如何在VLA框架中有效地实例化内模,以提高决策动作的稳健性。
问题公式化
这项工作研究如何生成高度表达性的目标状态并诱导稳健的动作,以抵御外部干扰。正式地,在非马尔可夫决策过程框架中研究机器人轨迹和动作生成,该框架由以下元组指定:,其中和分别表示图像状态和动作空间,表示语言文本目标空间,是转移动力学,是初始图像状态分布。我们旨在生成富有表达力的未来图像目标状态以及在视觉操作任务中,根据抽象语言指令和历史图像序列状态(即视频)要执行的当前动作: 。该问题被分解为两个层次:
机器人行为规划:给定语言指令和历史视频状态,推断图像目标状态。
机器人动作预测:给定历史和推断出的富有表达力的未来图像目标状态,预测要执行的当前动作。
这种解耦过程可以表示为:

这种解耦过程极大地降低了模型训练对语言、图像序列和机器人动作对的依赖。行为轨迹规划模型的训练只需要文本-视频对,而无需机器人动作标签,这些数据可以从互联网上带有语言标签的大规模视频片段和带有文本注释的机器人序列决策数据中获得。的训练只需要少量针对特定下游任务的无语言标签的演示数据。在测试阶段,给定新任务的自然语言描述和初始图像状态,我们不仅需要评估模型推断的未来目标状态的表达力,还需要评估在外部扰动下完成任务的成功率。
方法介绍
我们的目标是构建一个稳健的VLA模型,将IMC概念融入机器人视觉运动控制中,如图2所示。为了在执行前设定高度表达性的目标,引入一个强大的视频生成模型作为视觉规划器。下面也会详细介绍如何对齐目标状态以评估扰动,并展示如何诱导生成稳健的决策动作。最后,实现GEVRM的整体测试时执行流程。

机器人行为规划器
受近期视频生成模型成功的启发,我们寻求构建一个文本引导的视频扩散变压器模型,作为用于生成机器人目标状态的行为规划器。该规划器可以根据历史视频观察和抽象的文本任务描述忠实地合成未来目标图像帧。通过视频生成进行规划需要一个既能从给定视频生成受限视频,又能完成下游任务的模型。具体来说,为了获得高度表达性的未来目标状态,在设计机器人行为规划器时需要考虑三个核心方面:
视频时空压缩:扩散变压器(DiT)需要大量计算资源才能在原生像素空间中对机器人图像状态序列数据执行复杂操作。为了缓解这个问题,首先使用2D变分自动编码器(VAE)压缩原始像素空间,然后使用3D VAE进一步压缩,以获得信息丰富的低维密集空间。这样做的好处是避免了3D VAE在原始像素空间中的高计算成本。实际上,在2D VAE进行空间压缩后,相邻特征之间仍然存在相当大的时间相关性。在图像状态序列编码阶段,最初通过应用2D VAE将空间维度减少8×8倍,随后通过3D VAE将时间维度压缩4倍。在图像状态序列解码阶段,先恢复时间维度,再恢复空间维度。3D VAE采用因果3D卷积层代替3D卷积神经网络(CNNs),确保每一帧的输出仅取决于其前序帧。
随机掩码机制:为了实现高效的目标图像合成,实施了一种随机掩码机制。训练过程涉及对帧进行随机掩码,包括揭示初始帧、前帧、最后一帧、后帧、初始帧和最后帧的组合以及任意帧等场景。在测试阶段,我们可以访问历史图像状态,但无法获取未来图像状态。因此,在模型的训练方案中,对前帧的掩码操作被赋予最大权重,具体为75%。其余的掩码策略被归类为补充目标,共同构成剩余的25%。虽然掩码机制在概念上很简单,但它使机器人行为规划器能够根据各种时间快照预测后续帧,显著增强了模型对物体动力学和时间顺序相关性的理解和感知。
模型骨干和训练:DiT模块源自一个预训练的文本引导视频生成模型,并集成了一个固定的T5编码器来处理语言指令。受Stable Diffusion 3最新进展的启发,我们使用整流流对机器人行为规划器进行微调,超越了传统的去噪扩散概率模型(DDPM)。整流流通过沿着样本之间的直线路径求解常微分方程,促进了从噪声到真实图像分布的映射学习。这种方法已被证明是一种更高效的训练范式,显著减少了视频采样步骤,进而显著提高了模型训练速度并减少了推理时间。
机器人动作预测
机器人行为规划器生成的高表达性目标状态用于指导决策动作的预测。从视觉目标状态和当前视觉状态到最终动作的输出,我们的目标导向策略可分为以下两个部分:1)状态对齐以模拟响应。从视觉目标状态和当前视觉状态中提取有价值的特征,并利用原型对比学习来对齐状态表示、模拟机器人响应以及评估干扰。2)目标导向动作预测。将目标和当前内部紧凑编码信号解码为机器人能够稳健执行的动作。
状态对齐以模拟响应:在经典控制系统领域,IMC框架要求在控制器中集成系统的内部模型。这个内部模型能够抵消外部干扰和参考输入,从而确保系统行为的精确性和可靠性。为了在基于学习的框架中实现IMC原理,我们首先部署残差网络ResNet 34作为目标状态和当前状态的视觉编码器。这种转换将原始像素数据转换为丰富的视觉表示和 。对于当前视觉状态表示,关键在于如何对其进行优化,以模拟机器人响应来评估外部扰动,而这种响应本身就编码在视觉目标状态中。遵循IMC原理,我们主张在潜在空间中对这一过程进行建模,并通过对比学习进行优化,以实现与视觉目标状态的对齐。
在演示数据中,如果一对和来自同一轨迹,它们就是正样本对,否则为负样本对。这些样本对通过交换分配的任务进行优化。具体来说,给定从演示数据中采样的图像观察序列,可以从转换过程中推导出未来目标图像作为目标向量,将当前图像观察作为源向量。源向量和目标向量分别输入到源编码器和目标编码器中,以获得潜在特征,这些潜在特征被映射到高维空间的单位球面上并进行归一化:
为了从潜在特征预测聚类分配概率和,我们首先对原型进行归一化,以获得可训练的归一化矩阵,然后对所有原型的源向量或目标向量的点积取soft maximum:
这里是温度参数。和是当前和目标图像观察和映射到索引为的单个聚类的预测概率。为了在避免平凡解的同时获得预测概率和,应用Sinkhorn-Knoppal算法。现在我们有了聚类分配预测和目标,状态对齐的目标是最大化预测准确率:
值得注意的是,学习表示以区分不同的指令和视觉表示是一个长期存在的科学问题,而很少有研究探索它们模拟机器人响应的能力。这种能力在预训练的视觉编码器或仅基于当前观察学习的策略模型(即行为克隆)中无法直接获得。
目标导向动作预测:为了使模型简洁、通用且具有可扩展性,利用目标导向扩散策略从模拟响应的状态编码中解码动作输出。仅使用静态相机的第三视角RGB图像作为输入,并将动作标签作为训练标签。不使用机器人本体感受观察和夹爪视角图像。考虑一个7自由度机器人的动作空间,由末端执行器的位置和夹爪状态组成。目标导向扩散策略是一个使用马尔可夫噪声和去噪过程的潜在变量模型,可用于为潜在变量建模参数化行为分布 。前向噪声过程遵循固定的方差调度,其分布为 。遵循DDPM,我们的实际实现包括直接参数化分数网络以恢复行为克隆目标:
利用这个目标来训练目标导向策略,并为其提供目标和当前状态的内部嵌入。在每次策略训练迭代中,状态编码通过状态对齐目标进行优化,这使得策略能够隐含地推断和区分来自外部环境的扰动。因此,状态编码和目标导向扩散策略的最终优化目标是:
其中是温度参数。为了从中采样,使用反向扩散过程,其中且,并在每一步进行重采样:
GEVRM的测试阶段执行流程
一旦机器人行为规划器和目标导向策略都训练完成,它们就可以用于解决新的操作任务。给定一个新场景和一个新的语言命令,GEVRM通过迭代生成高度表达性的目标状态并诱导目标导向策略来实现这些子目标,从而尝试解决任务。最初,我们从中采样一组目标,其中表示目标状态生成的数量。我们将目标状态和当前状态通过状态编码器经过个时间步,以获得内部嵌入并推导出目标导向策略,其中是固定的时间间隔数。在个时间步之后,我们再次从行为规划器中采样来更新目标状态,并重复该过程。算法的测试执行过程如算法1所示。

实验评估
这里我们评估GEVRM的状态生成和视觉操作能力。为此,实验旨在研究以下问题:1)GEVRM在各种环境中是否具有强大的泛化能力,以生成富有表达力的目标?2)与基线相比,GEVRM在各种环境中执行机器人任务的成功率是否更高?3)GEVRM的核心组件对于实现稳健的决策动作有多重要?
目标生成评估
设置:使用两种类型的数据集(真实的Bridge和模拟的CALVIN)来评估目标生成的泛化能力。在预定义的训练集上训练模型,并在有和没有外部扰动的测试集上评估机器人目标生成性能。
基线:为了进行公平比较,选择了开源视频生成模型:1)AVDC,一种典型的用于机器人的扩散式生成模型。2)GR-1,这是一种自回归式生成模型,它将语言指令和状态序列作为输入,并以端到端的方式预测机器人动作和未来图像。3)SuSIE,使用图像编辑扩散模型作为高级规划器,并提出可以由低级控制器实现的中间子目标。
指标:所采用的评估指标是弗雷歇初始距离(FID)和弗雷歇视频距离(FVD),这两个指标在图像和视频生成领域都得到了广泛认可。我们还使用其他标准指标评估不同模型生成视频的质量:结构相似性指数(SSIM)、峰值信噪比(PSNR)、学习感知图像块相似性(LPIPS)。
目标生成比较:在未见环境中评估目标生成的泛化能力(表1)。结果表明,与基线相比,GEVRM模型性能显著提升。结果表明,GEVRM具有更强的表达能力,能够有效地对机器人图像序列的复杂纹理和时间连贯性进行建模。然后,在比较在受扰动环境中目标生成的稳健性(图3)时,基线模型在环境变化时表现不佳,生成的严重幻觉会扭曲物体,甚至可能完全破坏场景。相比之下,我们的方法产生的幻觉较少,并且能够根据语言指令生成富有表达力的目标状态。这证实了GEVRM确实能够更好地理解物理世界的规律,并保持物体的3D一致性。


动作执行评估
设置:在CALVIN上进行实验,CALVIN是一个用于语言条件操作的基准测试,用于评估GEVRM在闭环动作执行方面的能力。CALVIN由四个模拟环境(A、B、C和D)组成,每个环境都有一个人类收集的演示轨迹数据集。我们研究在A、B和C环境上进行零样本多环境训练,并在D环境上进行测试,D环境在桌面纹理、家具位置和彩色补丁方面有所不同。我们还测试了GEVRM对扰动的稳健性(图4)。
基线:选择具有代表性的基线来验证在标准未见环境上的泛化性能:1)UniPi):首先将决策制定转化为文本条件视频生成,能够生成预测视频序列并随后提取控制动作。2)HiP:该模型通过结合分层推理扩展了长期规划能力,改进了UniPi。3)GR-1:该模型利用预训练的视频模型来增强自回归动作生成。4)RoboFlamingo,使用预训练的视觉语言模型进行单步视觉语言理解,并使用显式策略头对顺序历史信息进行建模。此外,在有外部扰动的测试环境中,我们选择具有代表性的基线SuSIE,因为它采用常见的数据增强策略来应对扰动,并且在先前的工作中取得了最先进的结果。将静态相机的第三视角RGB图像作为观察值,这使得机器人的执行更具挑战性。
动作执行比较:在表2中展示了完成链中每个语言指令的成功率。模型在环境A、B和C上进行训练(图4(a)),在D环境上进行测试(图4(b))。与基线相比,GEVRM有显著的性能提升。这表明基于IMC原理的方法在面对新环境时具有更好的目标生成能力,并能诱导机器人预测更通用的决策动作。
外部扰动下的动作执行比较:为了全面评估提出的GEVRM与基线SuSIE的性能,在五个更具挑战性的场景中对两个模型进行了测试(图4(c))。五个受扰动任务的平均性能如表3所示。这些场景旨在挑战模型对环境刺激的感知和对物理定律的理解。结果表明,GEVRM能够很好地模拟机器人响应,并指导策略生成稳健的决策动作以抵抗外部扰动。更多动作执行比较结果见附录表5。



消融研究
我们评估VAE微调与状态对齐应用对CALVIN环境A、B和C上模型性能的影响,重点关注机器人行为规划和目标导向策略训练。图5(a)中的结果表明,省略VAE微调或状态对齐集成会显著降低模型在CALVIN环境D上的性能,这是因为VAE在多样化视频数据上的预训练增强了时空一致性,随后在机器人数据上的微调有助于决策的泛化。状态对齐增强了策略的视觉状态表示,以实现更好的任务泛化。此外,在策略训练中平衡专家模仿和状态对齐的超参数,我们测试了五个值(图5(b))。性能指标变化很小,表明对的调整具有鲁棒性,对我们的方法来说是最优的。为了说明状态对齐对目标导向表示的影响,我们进行了一项视觉比较实验。使用T-SNE分析在CALVIN ABC→D “噪声干扰” 任务中,有无状态对齐时当前和未来图像状态的潜在空间表示,结果如图6和附录图8所示。结果表明,状态对齐通过增强类内凝聚性和类间分离性来改进聚类和分类。此外,状态对齐确保了图像状态序列的时间一致性,从而增强了策略对环境和任务的识别能力,并有助于泛化到新场景。目标生成和目标导向扩散策略执行效率的消融实验分别见附录表6和表7。



最后的结论
方法的创新之处在于能够将经典的内模控制原理融入现代VLA框架,从而增强机器人处理环境扰动的能力并保持性能的完整性。在提出的稳健GEVRM模型中,利用视频生成模型获得高度表达性的目标状态。同时,基于原型对比学习有效地对齐状态表示,以模拟机器人响应并评估外部扰动。正如GEVRM在模拟和现实视觉操作任务中的最先进性能所示,它有效地增强了目标状态的表达性,并对外部扰动表现出很强的弹性。因此,工作极大地扩展了机器人系统在部署场景中的可靠性和稳健性,是具身通用智能领域向前迈出的重要一步。一项有前景的工作是考虑将更通用的高质量视频生成模型纳入VLA框架,以应对现实世界机器人复杂多样的操作任务。
参考
[1] GEVRM: GOAL-EXPRESSIVE VIDEO GENERATION MODEL FOR ROBUST VISUAL MANIPULATION
【具身智能之心】技术交流群
具身智能之心是国内首个面向具身智能领域的开发者社区,聚焦大模型、视觉语言导航、VLA、机械臂抓取、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、机器人仿真、产品开发、自动标注等多个方向,目前近60+技术交流群,欢迎加入!扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)
【具身智能之心】知识星球
具身智能之心知识星球是国内首个具身智能开发者社区,也是最专业最大的交流平台,近1000人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、大模型、视觉语言模型、强化学习、具身智能感知定位、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近40+开源项目、近60+具身智能相关数据集、行业主流具身仿真平台、强化学习全栈学习路线、具身智能感知学习路线、具身智能交互学习路线、视觉语言导航学习路线、触觉感知学习路线、多模态大模型学理解学习路线、多模态大模型学生成学习路线、大模型与机器人应用、机械臂抓取位姿估计学习路线、机械臂的策略学习路线、双足与四足机器人开源方案、具身智能与大模型部署等方向,涉及当前具身所有主流方向。
扫码加入星球,享受以下专有服务:
1. 第一时间掌握具身智能相关的学术进展、工业落地应用;
2. 和行业大佬一起交流工作与求职相关的问题;
3. 优良的学习交流环境,能结识更多同行业的伙伴;
4. 具身智能相关工作岗位推荐,第一时间对接企业;
5. 行业机会挖掘,投资与项目对接;