【论文阅读】Multimodal Diffusion Transformer: Learning Versatile Behavior from Multimodal Goals

好悬给我拽开线

已于 2024-08-10 23:50:13 修改

阅读量244

点赞数 4

文章标签： transformer 深度学习人工智能

于 2024-08-10 00:23:25 首次发布

本文链接：https://blog.csdn.net/qq_33673253/article/details/141067761

版权

Abstract

这项工作介绍了多模态扩散Transformer (mdt)，这是一种新的扩散策略框架，擅长从多模态目标规范中学习多功能行为，几乎没有语言注释。

mdt利用基于扩散的多模态transformer主干和两个自监督辅助目标，基于多模态目标掌握长期操作任务。绝大多数模仿学习方法只从单个目标模式中学习，例如语言或目标图像。然而，现有的大规模模仿学习数据集仅部分用语言注释标记，这禁止当前方法从这些数据集中学习语言条件行为。mdt 通过引入一个潜在的目标条件状态表示来解决这一挑战，该表示同时在多模态目标指令上进行训练。该状态表示对齐基于图像和语言的目标嵌入，并编码足够的信息来预测未来的状态。该表示通过两个自我监督的辅助目标进行训练，以提高所提出的 transformer 主干的性能。mdt在具有挑战性的calvin和libero基准提供的164个任务上表现出了卓越的性能，包括一个包含不到2%语言注释的libero版本。此外，mdt 在 calvin 操作挑战上建立了一个新记录，与之前需要大规模预训练的最先进方法相比，绝对性能提升 15%，并且包含更多的可学习参数。mdt 展示了它在模拟和现实世界环境中从稀疏注释数据解决长期操作的能力。

I. INTRODUCTION

未来的机器人agents需要能够根据直观的指令表现出所需的行为，类似于人类如何解释语言或视觉线索来理解任务。然而，目前的方法通常限制agents处理语言指令[1]、[2]、[3]或视觉目标[4]、[5]。这种限制将训练范围限制在完全标记的数据集上，这对于创建多功能机器人agents来说是不可扩展的。

自然语言命令为指导机器人提供了最大的灵活性，因为它是人类的直观交流形式，近年来已成为机器人最流行的调节方法[1]、[3]、[6]。然而，基于语言指令的训练机器人仍然是一个重大挑战。多任务模仿学习 Multi-Task Imitation Learning (MTIL) 已成为一种很有前途的方法，通过从不同的人类演示中学习来教授机器人 agents 广泛的技能 [7]、[8]。不幸的是，mtil 利用了大型、完全注释的数据集。收集真实的人类演示非常耗时和劳动密集型

规避这些挑战的一种方法是从游戏中学习（LfP）[9]，[10]，它利用了大型未固化的数据集。LfP允许快速收集各种演示，因为它不依赖于场景分段、任务分割或重置实验[9]。由于这些数据集是以这种未经修正的方式收集的，因此它们通常包含很少的语言注释。然而，大多数当前的MTIL方法都需要对其整个训练集进行语言注释，这使得这些方法的演示太少，无法训练有效的策略。相比之下，未来的MTIL方法应该能够有效地利用像Open RT[11]这样的具有稀疏语言注释的多样化、跨实施例数据集的潜力。这项工作引入了一种新的方法，可以有效地从多模态目标中学习，从而有效地利用具有稀疏语言注释的数据集。

最近，扩散生成模型已经成为机器人学习的有效策略表示[12]，[5]。扩散策略可以学习基于语言目标的表达性、多功能行为[13]，[14]。然而，目前的方法都没有充分解决从多模态目标规范中学习的挑战。

这项工作介绍了一种新的基于扩散的方法，能够同时从不同的目标模式（如语言和图像）中学习多种行为。即使在几乎没有语言注释的演示的数据上进行训练，该方法也能高效学习。通过引入一种简单但高效的自我监督损失——蒙面生成预见 Masked Generative Foresight (MGF)，性能得到了进一步的提高。这种损失鼓励策略学习潜在特征，这些特征编码了足够的信息，以重建基于多模态目标的部分掩蔽的未来帧。因此，mgf利用了这样一种观点，即政策受益于一个信息丰富的潜在空间，该空间将目标映射到期望的未来状态，而与它们的模式无关。详细的实验和烧蚀表明，这种额外的损失显著提高了当前最先进的transformer和扩散策略的性能，同时计算开销最小。引入的多模态扩散Transformer（mdt）方法将多模态变换器的优势与mgf和潜在的令牌对齐相结合。mdt学习能够遵循作为语言或图像目标提供的指令的多功能行为。mdt为calvin挑战设定了新的标准[10]，这是一个从游戏数据中进行语言引导学习的流行基准，由人类演示组成，几乎没有语言注释。此外，mdt在libero基准测试中表现出色，该基准测试由5个任务套件组成，在多个环境中具有130个不同的任务。

为了显示MDT的效率，对任务进行了修改，使得只有2%的演示包含语言标签。结果表明，MDT 甚至可以与在完全注释数据集上训练的最先进方法竞争。通过一系列实验和消融，彻底评估了该方法的效率和战略设计选择。

II. METHOD

mdt 是一种基于扩散的 transformer 编码器-解码器架构，它同时利用两个自我监督的辅助目标。即对比潜在对齐Contrastive Latent Alignment和掩蔽广义前视 Masked Generalized Foresight。首先，提供问题定义。接下来，讨论了连续时间扩散公式，对于从游戏理解动作序列学习至关重要。然后对mdt提出的transformer架构进行概述。然后，介绍了新的自监督掩蔽生成视距目标和潜在token对齐。

A. Problem Formulation

目标条件化的policy预测了一个长度为k的动作序列，该序列以当前状态嵌入和潜在目标g为条件。潜在目标封装了目标图像o或编码的自由形式语言指令l

mdt从一组与任务无关的游戏轨迹中学习这样的policies。每个单独的轨迹表示一系列元组，具有观测si，动作ai。最终的游戏数据集定义为d=

在训练过程中，为每个数据点Gsi创建一组目标，其中是状态的语言注释（如果它存在于数据集中）。目标image是一个未来状态，其中偏移量j是从具有边界和概率0.1的几何分布中采样的。MDT最大化游戏数据集的对数似然，

人类行为多种多样，通常存在多个轨迹收敛到相同的目标。policy必须能够编码这种多功能行为[15]，以有效地从游戏中学习。

B. Score-based Diffusion Policy

在本节中，介绍了语言引导的扩散策略，用于从具有有限语言注释的 Play 中学习 Long-Horizon 操作。MDT利用连续时间扩散模型[16]、[17]。扩散模型是生成模型，它通过迭代去噪过程学习从随机高斯噪声生成新的数据。这些模型经过训练以减去具有不同噪声水平的人工添加噪声。

添加和减去噪声的过程都可以描述为连续时间过程随机微分方程stochastic-differential equations (SDE) [17]。MDT利用[16]中的SDE公式

常用于图像生成[16]，[18]。得分函数由连续扩散变量参数化，常数水平T > 0.。该公式将随机性降低到维纳过程ωt，这可以解释为添加到动作样本中的无限小高斯噪声。噪声调度器根据扩散过程的当前时间t定义了添加高斯噪声的速率。根据最佳实践[16]、[5]、[18]，mdt对policy使用σt=t。噪声扰动的范围设置为σt∈[0.001,80]，作用范围重新缩放为[-1，1]。函数βt描述了通过注入新噪声来替换现有噪声[16]。该sde以其相关的常微分方程——概率流ode Probability Flow ODE[17]而闻名。当在扩散过程的时间t对该ode的动作块进行采样时，它们与分布对齐，

扩散模型通过score matching (SM)学习近似分数函数 [19]

其中，为可训练神经网络。

在训练过程中，随机采样噪声分布中的噪声水平并将其添加到动作序列中，模型预测去噪后的动作序列。为了在rollout期间生成动作，将学习到的分数模型插入到反向SDE中，并且该模型迭代地对下一个动作序列去噪。通过设置βt = 0，该模型恢复确定性逆过程，从而在不向逆过程中注入额外噪声的情况下，在几个去噪步骤中实现快速采样[17]。在实验中，MDT使用DDIM采样器[17]在10个去噪步骤中扩散动作序列。

C. Model Architecture

mdt使用多模态transformer编码器架构来近似动作序列的条件分数函数。编码器首先处理来自当前图像观测和期望的多模态目标的tokens，将这些输入转换成一系列潜在表示tokens。解码器的功能是作为一个扩散器，对一系列未来动作进行降噪。附录的图3给出了该体系结构的概述。

图3(左)mdt中使用的多模态变压器-编码器-解码器扩散策略概述。(右)用于动作序列去噪的专用扩散transformer块。mdt从多个图像观察和多模态目标中学习目标条件潜在状态表示。相机图像要么用冻结的Voltron编码器和感知器Perceiver处理，要么使用resnets。单独的gpt去噪模块使用具有因果注意的transformer解码器对10步的动作序列进行迭代去噪。它由几个去噪块组成，如右侧所示。这些块以自注意处理噪声动作tokens，并通过交叉注意融合来自潜在状态表征的条件反射信息。mdt采用adaln调节[22]对当前噪声水平的块进行调节。此外，利用自监督对比学习将同一状态的潜在表征tokens与不同的目标规范进行对齐。潜在表示tokens也被用作掩码图像解码器模块的上下文输入，以从未来的图像中重建掩码补丁。

首先，mdt用图像编码对来自多个视图的当前状态的图像观测进行编码。这项工作介绍了mdt的两个编码器版本:mdt- v，一个带有冻结的voltron嵌入的变体，mdt，一个带有resnets的默认模型。mdt-v编码器利用了一个percepver-resampler来提高计算效率[20]。每张图像都被voltron嵌入到196个潜在的tokens中。感知器模块使用多个交叉注意的transformer块将这些voltron tokens压缩为总共3个潜在的tokens。这个过程产生了一个高效的特征提取器，它利用了预训练的Voltron嵌入。mdt编码器为每个摄像机视图使用可训练的resnet-18，具有空间softmax池和组规范[12]。每个resnet为每个图像返回单个观测值token。两个mdt编码器版本都通过冻结的clip模型[21]将目标图像和语言注释嵌入到单个token中。计算嵌入后，两个mdt编码器采用由多个自关注transformer层组成的相同架构，得到一组信息潜在表示tokens。

mdt扩散解码器对动作序列进行因果掩蔽去噪。每个解码器层的交叉注意将来自编码器的条件信息融合到去噪过程中。当前噪声等级σt是用一个带有附加mlp的正弦嵌入嵌入到潜在噪声token中。mdt对transformer解码器块应用adaln调节，将去噪过程调节到当前噪声水平[22]。图3的右侧部分说明了这个过程，它封装了所有内部更新步骤。所提出的框架将表示学习与去噪分离开来，由于模型只需要对潜在表示tokens进行一次编码，因此产生了一个计算效率更高的模型。此外，实验表明，所提出的去噪模型比先前的diffusiontransformer架构具有更高的性能[12]。

D. Masked Generative Foresight

这项工作的一个关键见解是，policies需要一个信息潜在空间来理解期望目标在不久的将来如何改变机器人的行为。因此，能够遵循多模态目标的policies必须将不同的目标模态映射到相同的期望行为。无论目标是通过语言定义的还是以图像表示的，在这些目标形态中，环境的中间变化是相同的。

提出的掩膜生成预见，一个额外的自我监督辅助目标，建立在这一见解。考虑到MDT(-V)编码器对状态和目标g的潜在嵌入，mgf训练vision transformer (vit)来重建未来状态的二维图像补丁序列，其中v = 3为本工作中所有实验使用的预见距离。这些补丁的u的随机子集被一个掩码令牌mask-token替换。尽管vit现在同时接收掩膜和非掩膜补丁，但只有掩膜补丁的重建才会导致损失

其中，如果u被屏蔽，则指示函数为1，否则为0。

mgf概念简单，可以普遍适用于所有transformer和policies。本工作的各种实验表明，这种辅助损失不仅改善了mdt的行为，而且显著提高了Multi-Task Action Chunking Transformer (MT-ACT) policy的性能[23]。

E. Contrastive Alignment of Latent Goal-Conditioned Representations 潜在目标条件表征的对比对齐

为了有效地从多模态目标规范中学习policies, mdt必须使视觉目标与其对应的语言保持一致。检索图像和语言输入之间对齐嵌入的一种常用方法是预训练clip模型，该模型已经在来自大量互联网数据集的成对图像和文本样本上进行了训练[21]。然而，clip表现出静态图像的倾向，并努力解释空间关系和动态，正如各种研究所强调的那样[24]，[25]，[26]。由于机器人技术中的目标规范与当前状态si和期望目标g之间的动态存在内在联系，因此这些限制导致mtil中的对齐不足。mdt没有天真地微调3亿个参数的大型clip模型，而是引入了一个额外的辅助目标，该目标可以在不同的目标模态中对齐MDT(-V)嵌入。这些嵌入不仅包括目标，而且包括当前状态信息，这使得对比潜在对齐(cla)目标能够考虑任务的动态。

由于cla要求每个目标模态都有一个向量，因此通过多头注意力池(multihead attention pooling)减少了各种mdt潜在tokens[27]，并随后归一化。因此，每个与多模态目标规范配对的训练样本分别被简化为图像和语言目标的向量和。CLA使用图像和语言投影之间的余弦相似性计算InfoNCE损失

具有温度参数υ和批量B。全MDT损失结合了方程式（4）中的分数匹配损失、方程式（5）中的MGF损失和方程式（6）中的CLA损失

其中在大多数实验设置中α=0.1和β=0.1。

III. EVALUATION

本节旨在回答以下问题：

（i）mdt是否能够通过很少的语言注释从游戏数据中学习长期操纵
（iia）蒙面生成预见和对比潜在对齐是否会提高mdt的性能？
（iib）mgf是否提高了其他transformer policies的性能？

A. Simulated Benchmark Environments

我们在两个流行且具有挑战性的机器人学习基准上进行了多次仿真实验：

calvin

calvin挑战[10]由四个相似但不同的环境a、b、c、d组成。这四种设置在桌面色调和项目布局上各不相同，如图4所示。该基准的主要实验是在完整的数据集abcd→d上进行的，其中policies在abcd上训练并在d上评估。该设置包含24小时未固化的遥控游戏数据，具有多种传感器模式和34个不同的任务供模型学习。此外，只有1%的数据用语言描述进行了注释。所有的方法都在长期基准上进行评估，该基准由1000个唯一的指令链序列组成，用自然语言描述。在rollout期间，agent完成指令获得1个奖励，每次rollout最多获得5个奖励。我们将我们提出的policy与calvin上几种最先进的语言条件多任务policies进行了比较。对于报告calvin结果的policies，我们使用其报告的性能来保证公平比较。所有基线的详细清单见附录d部分。

B. Evaluation Results

我们对CALVIN的实验结果总结在表1和表8中。我们评估了MDT和MDT- v在ABCD→D和小子集D→D上的性能。结果如表1所示。MDT-V在CALVIN挑战中创造了新的记录，将平均铺开长度延长到4.51，比RoboFlamingo提高了10%。MDT也优于所有其他经过测试的方法。值得注意的是，MDT在可训练参数少于10%的情况下实现了这一目标，并且不需要在大规模数据集上进行预训练。在缩小的CALVIN D→D基准测试中，MDT-V建立了一个新的标准，优于最近的方法，如LAD[28]，并将平均部署长度比第二好的基准提高了20%。结果肯定地回答了问题(1)。

此外，我们在LIBERO基准测试和现实世界的游戏厨房上进行了实验，以解决剩下的问题。这些实验在附录的B节中有详细的描述。

IV. CONCLUSION

在这项工作中，我们引入了mdt，一种新的连续时间扩散policy，擅长从游戏中学习长视界操作，只需2%的语言标签即可进行有效训练。为了进一步提高有效性，我们提出mgf作为一个简单但高效的辅助目标，从多模态目标规范中学习更多的表达行为。我们在模拟环境和现实环境中对mdt进行了严格的测试，测试了169个不同的任务。这些广泛的实验不仅验证了我们提出的辅助损耗，而且证明了mdt policy的效率。