全文总结
研究背景
- 背景介绍: 这篇文章的研究背景是机器人学习的异质性问题。传统的机器人学习方法通常针对特定任务和特定机器人本体收集数据,这种方法既昂贵又容易过拟合。为了克服这一挑战,研究者们提出了通过在大规模、异构的机器人数据上进行预训练来学习任务和本体无关的共享表示。
- 研究内容: 该问题的研究内容包括:提出一种名为Heterogeneous Pre-trained Transformers (HPT)的架构,通过异构预训练来学习任务和本体无关的共享表示,并在多个模拟器和真实世界设置中进行实验验证。
- 文献综述: 该问题的相关工作有:自然语言处理和计算机视觉领域的基础模型通过在大规模、高质量和多样化的数据上进行预训练,实现了任务无关的通用模型。机器人领域的相关工作包括在人类视频上进行视觉部分的预训练以及在统一模型和数据格式下进行全策略预训练,但这些方法通常假设没有本体感知信息,并在迁移学习中添加。
研究方法
这篇论文提出了Heterogeneous Pre-trained Transformers (HPT)架构。具体来说:
- Stem: HPT的stem由本体感知tokenizer和视觉tokenizer组成,将不同本体的异构输入映射到固定数量的tokens。本体感知tokenizer使用MLP将本体感知信息映射到一个特征空间,然后应用正弦位置编码和注意力机制将其映射到tokens。视觉tokenizer使用预训练的冻结特征网络(如ResNet)将相机图像映射到tokens。
- Trunk: trunk是一个共享的可扩展Transformer架构,负责将拼接的tokens映射到共享表示空间。trunk的参数在预训练阶段固定,不随本体和任务变化。
- Head: head将trunk的输出映射到各个下游任务的动作空间。每个本体和任务对应一个独立的head,head可以在迁移学习时重新初始化。
实验设计
- 默认设置: 使用27个机器人远程操作数据集进行预训练,包括Open-X Embodiment数据集的一个子集。使用一个相机视角的场景和预训练的冻结ResNet18图像编码器计算视觉特征。总共使用16k轨迹进行训练。
- 扩展设置: 使用52个数据集和200k轨迹进行预训练,包括模拟数据、部署机器人数据和人类视频数据。实验使用了更大的模型和更高的批量大小。
结果与分析
- 数据扩展: 在不同异构本体上的验证损失表现出稳定且可扩展的趋势。随着数据量和模型规模的增加,验证损失逐渐接近收敛。
- 模型扩展: 随着模型规模的增加(从1M到1B参数),验证损失逐渐降低,直到达到一个平台期。实验发现,深度和宽度扩展的效果相似。
- 预训练在合成数据和互联网人类视频上的效果: 预训练在模拟和人类视频数据上也是可行的,尽管这些数据与真实机器人存在较大的本体差异。这些数据提供了补充的本体数据,展示了HPT框架处理更大异质性的能力。
- 迁移学习: 在多个模拟器基准测试和真实世界任务中进行迁移学习实验,结果表明预训练模型在新本体、任务和环境中的表现优于基线模型。例如,在Sweep Leftover任务中,HPT-B Fine-tuned模型的平均成功率为70.0%,而从头开始训练的模型为43.3%。
优点与创新
- 异构预训练Transformer(HPT):提出了HPT架构,通过异构预训练学习任务无关和实体无关的共享表示。该架构将不同实体的 proprioception 和 vision 输入对齐到一个短的令牌序列,并处理这些令牌以映射到不同任务的控制机器人。
- 大规模多实体数据集:利用了大规模的多实体真实世界机器人数据集以及仿真、部署的机器人和人类视频数据集,研究了跨异构性进行预训练的策略。
- 实验验证:在超过52个数据集上进行了实验,验证了HPT在不同模拟器基准和现实世界设置中的扩展性和性能提升。
- 模块化设计:HPT架构模块化为实体特定的stem、共享的trunk和任务特定的head,使得模型可以灵活地适应新的实体和任务。
- 公开代码和权重:为了促进未来的研究,HPT的代码和权重已开源。
不足与反思
- 数据集划分简单:平衡数据集中的实体划分相对简单,未来工作应探索更复杂的数据集划分和过滤方法以确保数据质量。
- 监督学习目标:当前工作专注于监督学习作为预训练目标,未来可以探索超越监督学习的训练目标。
- 数据规模有限:尽管模型架构和训练过程是模块化的且独立于实体设置,但异构预训练可能需要较长时间才能收敛。
- 评估限制:模拟和现实世界的评估任务仅限于短视操作任务,固定实体,这可能限制了使用更高容量模型的好处。
- 任务成功率不高:测试的任务上学习到的策略仍然没有提供非常高的可靠性,通常低于90%。
- 未来研究方向:包括探索不同的算法、网络架构、训练目标,以及高质量多样化数据集的收集和理解。此外,还需要大规模的统一仿真基准来一致比较不同模型,并扩展到更长视线的精细操作任务。
摘要
当今训练通用机器人模型的一个障碍是异质性。以前的机器人学习方法通常收集数据以针对一个特定实现进行训练,这既昂贵又容易过拟合。本研究研究了通过跨不同实现和任务规模在机器人数据上进行异质预训练来学习策略表示的问题。我们提出了异质预训练变换器(HPT),它预训练一个大型、可共享的策略神经网络主干,以学习任务和实现无关的共享表示。这种通用架构将来自不同实现的特定本体感知和视觉输入映射到短序列的令牌,然后处理这些令牌以将它们映射到控制不同任务的机器人。利用最近的大规模多实现现实世界机器人数据集以及仿真、部署的机器人和人类视频数据集,我们调查了跨异质性的预训练策略。我们进行了实验,以研究训练目标的扩展行为,涉及52个数据集。HPT在多个模拟基准测试和真实世界设置中,对未见过的任务提高了超过20%的微调策略性能。
1 引言
当今构建机器人策略是困难的:它通常需要为每个机器人、任务和环境收集特定数据,而学习到的策略并不能在这些特定设置之外泛化。一个历史教训已经彻底改变了机器学习,即在大量高质量和多样化的数据上进行预训练可以带来通常比特定模型表现更好的通用模型。开源大规模数据收集的最新进展使得这条路径成为可能,但大规模机器人数据中存在的异质性(如不同的机器人硬件和不同环境)提出了一个重大挑战。该领域目前的一个核心问题是如何利用异质机器人数据来预训练机器人基础模型。
自然语言处理和计算机视觉的基础模型已经展示了一个范例,通过在大规模和多样化的数据上进行预训练来实现通用的任务无关模型。除了来自更多数据的优势外,使用多样化任务进行训练还强制表示更具泛化性。这些基础模型可以为各种任务实现高任务成功率,对异常值更鲁棒,并且能够灵活适应新任务。这些方法将来自不同领域和任务的输入信号映射到一个高维表示空间,并展现出一致的缩放行为。之后,只需进行最小的微调即可将表示转移到下游任务以实现良好的性能。
图1:异构预训练概念。它通过特定于实现的标记器(“stems”)将不同实施例映射到共享的词汇空间中,每个实施例都有自己的本体感知和视觉传感器。这将对不同实施例中的异构数据进行联合表示空间的处理。这允许我们在所有异构数据集的联合上训练一个共享的Transformer主干。预训练的Transformer可以转移到新的实施例中,在转移时学习到一个小的、新的标记器。
机器人学中的异质性提出了一个独特的挑战:不同的机器人是物理上不同的硬件实现,用于不同的环境。每个实施例都可以有不同的本体感知,包括不同程度的自由度、末端执行器、运动控制器和工作空间配置,这些配置是为特定应用而构建的。另一个常见的机器人学异质性是视觉异质性。机器人通常配备不同的摄像头传感器安装在不同的位置(例如手腕和/或第三人称视角),由于环境和任务的不同,每台机器人的视觉外观差异很大。本体感知和视觉信息对于机器人学中复杂、接触丰富的、长视距行为至关重要。对这些信息的不良学习可能导致过度拟合行为,如重复动作以适应特定的场景和任务,甚至轨迹。
在这项工作中,我们提出通过异构预训练(图1)将不同实施例的本体感知和视觉信息对齐到一个共享的“语言”中,以解决这个问题。有了这样的共享表示,新的实施例只需要最少的数据和训练就可以将其特定设置“翻译”到共享的“语言”。换句话说,我们想要预训练任务无关和实施例无关的基础模型,这些模型可以将来自单个实施例的原始传感器信号映射到一个共享的潜在空间。以前的工作已经在仅对人类视频中的视觉部分进行预训练[48,53, 34, 61]以及对整个政策进行预训练[6, 14, 55]方面取得了显著进展,并且使用统一模型和数据集格式(例如使用语言[5])。此外,它们在预训练时假设没有本体感知,并在迁移学习中事后添加。
我们引入了异构预训练变换器(HPT),这是一个旨在从异构实施例中可扩展地学习数据的架构家族。HPT模块化了一般策略网络架构(图2),并使用监督学习预训练潜在变换器的策略表示。受到从多模态数据中学习的启发[1,73,19,30],我们使用特定于实施例的标记器,称为“stem”,来对齐各种传感器输入,如相机视图和本体感知输入。这个“主干”在跨数据集共享和预训练,并在适应预训练期间未知的新实施例和任务时进行迁移。此外,我们使用特定任务的动作解码器,称为“头部”,来生成动作输出。关键的是,在“分词每个实施例”之后,HPT在短序列潜在标记的共同空间上操作。这种层次结构是由人类如何在脊髓神经电路层面处理特定运动反应与感知刺激之间的反馈循环所激发的[68]。
我们广泛研究了策略预训练的缩放行为和各种设计,涉及超过50个单独数据源(是[55]的两倍)和超过10亿参数的模型大小。类似于缩放定律[26, 28],我们发现,在某种程度上,HPT随着数据集的数量和多样性以及模型和训练计算能力而扩展。
此外,不同实施例领域可能会出现异质性,例如真实机器人硬件、仿真领域和人类视频。我们在预训练过程中结合了多个可用的实施例数据集,如真实机器人[14,75,38]、仿真[81,89,49,20,85,80]和互联网人类视频[15],并展示了我们的框架的普遍性,包括超出昂贵现实世界机器人在机器人远程操作之外的实施例。
通过跨多个仿真基准测试[89, 49, 81]和现实世界的灵巧任务进行迁移学习实验,我们将自己开发的对应物与几个基线和现有方法进行了比较。总的来说,基于预训练目标,HPT可以随着模型、数据、计算能力和真实机器人、仿真和人类视频中机器人数据集的异质性而扩展。
图2:HPT架构。HPT被模块化为茎、干和头。茎由本体感知分词器和视觉分词器组成,将不同实施例的视觉和本体感知观察映射到固定数量的标记(例如16个)上。共享的干是一个Transformer,将连接后的标记映射到共享表示中。然后头将处理过的标记映射到不同下游任务中的动作。对于特定的实施例,激活一对茎/头(由开关表示)。干是共享的,并在带有监督学习的动作标记数据上进行预训练,然后转移到新的实施例中。这个过程可以扩展到52个数据集和1B参数。
这些先前的训练过程和模型可以在数据需求和泛化性能方面简化为新的实施例和新任务构建可靠的机器人策略。为了扩展异构预训练,我们的代码和权重是开源的,我们希望HPT能够阐明从异构实施例和任务中学习机器人表示。
2 相关工作
预训练和迁移学习。通过直接监督[37]和/或自监督[56, 24, 12, 21, 10],预训练已被证明能够学习对计算机视觉[7, 36]和自然语言[57]中未见过的下游任务有用的表示,以及它们的交集[59]。从ImageNet[16]或网络规模数据[37, 59, 17]中学习到的表示对分布偏移具有鲁棒性,并且可以转移到新任务中。
近期基础模型的激增[3]通过应用任务无关的目标到多任务数据上,将这些表示学习方法[26, 28]进行了扩展。此外,最近的工作[45, 41, 44]表明,从ImageNet[16]或网络规模数据[37, 59, 17]学到的表示对其他领域具有鲁棒性,而机器人学的数据量较少但多样性更多。
对齐。像Flamingo[1]、Perceiver[30]和ImageBind[19]这样的最新工作提出了将任务无关的目标应用于多任务数据的方法。此外,最近的工作[45, 41, 44]表明,在追求表示学习的过程中,这些不同的模态被带入同一个潜在空间。我们的架构设计也受到多模态学习社区中像LLaVA[44]这样的方法的启发。最近,GPT-4o[57]、Gemini[76]、MM1[51]、X-VILA[88]和Chameleon[74]展示了从多个模态中异构预训练通用变换器的能力。跨模态和/或实现的对齐思想很重要,因为我们在使用异构实现并重用来自不同实现的数据的规模上。
机器人学中的表示学习。在机器人学界已经探索了表示学习。之前的工作如R3M[53]、VC-1[48]、Voltron[34]和SpatialVLM[11]通过用人类视频和机器人数据训练策略来研究视觉表示[69]。最近的[60, 4, 87, 70, 39]工作还针对机器人任务对齐了来自多个模态和数据分布的表示。在预训练之后,使用冻结表示和/或微调进行迁移学习,在目标领域中进行。
通用策略。机器人学中的大规模策略学习分别利用了来自真实机器人[6, 72]、人类视频[53, 48]和模拟域[32, 62, 82, 79]的多样化数据。还有多任务学习[64, 65, 84, 22]、元学习[78, 54, 18]、少样本学习[83]和车队学习[81]的工作。最近,RT-X、Octo、OpenVLA[6, 14, 55, 35]在来自不同机器人实现的数据集上训练通用视觉-语言-动作机器人策略。
与这些工作相比,HPT处理更广泛的异质性,包括本体感知和视觉,并探索在更多异质领域上的扩展行为,包括真实机器人、人类视频和模拟数据,并在更大的规模上在模拟基准测试中进行了评估。
图3:HPT中的茎架构。在HPT的茎中,本体感知分词器使用MLP将本体感知信息映射到一个特征,然后由16个可学习的令牌关注。视觉分词器使用预训练的编码器,并类似地使用注意力机制将视觉特征映射到16个固定的令牌。该架构灵活处理输入序列,而不增加令牌的大小。
专家混合。我们的架构设计与条件计算和MoE[50,43,71]中的工作相关,在这些工作中,我们为每个实施例创建一个专家,路由器(对于整个网络)由实施例决定。这种技术已被用来将语言模型扩展到相当大的规模[31]。
3 异质性预训练变换器(HPT)
在具有跨实施例的异构机器人学习中,数据来自不同的领域,如仿真和真实机器人,跨越感官模态,如RGB图像、语言指令、深度图、3D点云和触觉图像。每个机器人都是具有不同自由度、末端执行器、传感器配置、控制器和动作空间的独特硬件实施例,并且应用特定的物理设置。
在接下来的部分中,我们将讨论HPT网络架构和训练程序,以解决上述异质性问题。我们将网络架构(图2)模块化为特定于实施例的茎、共享主干和特定于任务的头部。直观上,如图3所示的茎是神经网络的早期层次,它们将来自异构体实现和模态的感觉输入对齐到共享表示空间。网络共享的中部被称为干线,它处理感觉表示为潜在表示,该潜在表示可用于多个任务。最后,网络的最后一部分是头部,它将那个潜在表示映射到感兴趣的个别任务的行动空间。所谓的异构预训练训练程序,根据采样的实现和任务数据分配并调整特定的茎/头部对,并且仍然享受在共享干线上进行联合训练的好处。这可以被认为是使用神经网络对每个实现进行分词,并缓解了在标准训练程序中将实现统一成同质数据形式的需求。
3.1 网络架构
茎。HPT中的茎(图3)由一个本体感知分词器和一个视觉分词器组成。这些分词器将来自不同实现的异构输入映射到固定数量的具有固定维度的标记,这使得干线能够在尽管存在大量异构性时以相同的方式处理它们,并且还能够享受到固定上下文长度上的缩放和推理好处。关键思想是利用注意力[77, 30, 9]关注固定数量的可学习标记来观察的特征。尽管我们主要关注本体感知和视觉,但在触觉、3D和动作输入中处理其他类型的传感器异质性可以在茎中灵活扩展。
●本体感知分词器。在图3(左)中,对于实施例k,本体感知分词器将任何机器人本体感知信息的序列映射到维度为dpk的Np(例如Np=16)个具有维度d的分词符,其值范围从128到1024。为了实现这一点,我们首先使用一个MLP将本体感知输入映射到一个维度为d的特征空间。然后,我们应用正弦位置编码,并在状态特征和学习性分词符之间使用注意力,以映射到维度为d的16个分词符。本体感知信息在机器人策略学习中至关重要,但其使用通常就像与视觉编码器的特征连接一样简单[40]。
图4:机器人数据集的异质性。我们展示了来自不同领域的数据集混合物(每种颜色都是一个独特的体现)的插图,包括真实的机器人遥操作[14]、部署的机器人[38]、模拟和人类视频[15]。有关数据集混合物的详细信息,请参见附录A部分。
表1:HPT的网络细节。宽度表示主干变压器的潜在维度大小,深度表示块数。默认设置是HPT-Small模型。
表2:预训练设置的数据集详情。默认设置使用RT-X的27个数据集进行训练,每个数据集最多有1000条轨迹(最大16k条轨迹)。缩放设置涉及更多数据和计算。
● 视觉标记器。在图3(右)中,视觉标记器可以将任意序列的相机图像(多个视图的视频)映射到维度为H x W x 3的Nv(我们默认使用Nv= 16)标记,其维度为d。为此,我们首先使用预训练的冻结特征网络(例如ResNet的7x7特征),然后将特征展平。之后,我们再次使用这些特征和可学习标记之间的注意力,将视觉输入映射到维度为d的16个标记。
在时间顺序中分别处理每种模态后,我们将所有模态标记连接起来,并添加额外的模态嵌入和正弦位置嵌入。这用作我们在下面介绍的主干网络的输入序列。为了避免过拟合,茎只有一个很小的参数数量(一个MLP和一个注意力层)。
相关工作如Octo[55]和其他[53, 48, 6]主要关注通过掩码或自监督来预训练策略的视觉骨干。他们通常将单视图图像的序列沿着通道堆叠起来[6],用于特定的机器人,或者使用大量的标记(55中的256个)。相比之下,HPT使用带有预训练视觉编码器的茎,将任意图像序列映射到短序列的标记(16)。此外,在相关工作中,HPT在迁移过程中并不添加本体感知,而是联合预训练视觉和本体感知部分,从异构数据集中进行。
主干。作为预训练的核心组件,主干架构遵循Transformer,参数化为潜在空间中的θtrunk,维度为d。输出令牌序列长度L与输入令牌序列长度相同。输出令牌序列简单地被池化作为观察的最终组合特征。主干在不同实现和任务中共享,以捕捉复杂的输入-输出关系(即主干参数的数量是固定的,独立于实现和任务的数量)。
头部。策略头θhead接收主干变压器的输出,并将其映射到每个数据集中的动作空间A。对于每个实现和任务,策略头可以是任意的架构(例如MLP),它以主干池化的特征为输入,并输出一个归一化的动作轨迹。策略头在转移到新实现时需要重新初始化。
3.2 训练目标
L是行为克隆损失,计算为基础数据集统计的标准化动作标签与网络动作预测之间的Huber损失。θ=⋃k=1K{θkstem,θkhead}∪θtrunkθ=⋃k=1K{θ**kstem,θ**khead}∪θtrunk 表示由特定于实施例的茎和头、用于数据集k的头以及所有实施例中共享的单一集合的茎参数 θtrunkθtrunk 组成的网络参数。这个训练过程有两个数据缩放轴:一个数据集Dk的量Mk和数据集总数K。在预训练阶段,只有茎参数在每次迭代中更新,每个异构实施例和任务的茎和头根据训练批次采样进行更新。详见附录A.3中的实施细节。
3.3 转移学习
策略迁移过程类似于将新领域的特征(通过预训练的茎编码器)对齐到茎的预训练嵌入空间[41, 44]。给定来自新实施例的新数据集D,目标可以是与预训练或替代方案相同[13]。我们用特定于实施例的输入和输出维度(如不同的本体感知和动作维度)重新初始化头和茎参数,并冻结茎的权重。
4 预训练实验
在本节中,我们的目标是回答以下问题:HPT预训练在不同领域的数据下是否具有缩放行为?
默认设置。我们使用了27个机器人远程操作数据集,包括最近公开的开源X身体数据集[14]的一个子集作为训练语料库。默认情况下,我们使用场景中的一个相机视图和预训练的冻结ResNet18图像编码来计算视觉特征。只要可用并提供,我们就使用本体感知信息,如末端执行器姿态和关节位置。我们使用每个数据集中的最多1000条轨迹,总共16k条轨迹,以及一个保留的验证数据集,每个数据源最多包含200条轨迹。此外,我们使用了一个具有317万参数的模型,称为HPT-Small(表1)。训练使用256的批量大小进行80k次迭代,这大约是潜空间中的0.65B令牌,这些令牌输入到HPTs中,以及在视觉和本体感知令牌空间(视距依赖)中的约5B令牌。虽然我们没有对齐或预处理动作空间或观察空间[55, 86],除了归一化、数据清理和过滤之外,其他方面将非常有帮助。
缩放设置。我们使用了200k条轨迹,包括52个数据集,包括模拟(例如[49])、部署机器人(例如[38])、人类视频(例如[15]),来自训练过程中不同实现体的多个数据集。这包括许多公共且可访问的机器人数据集。除了不同学院的不同任务外,这些异构的数据集混合(图4和图13)还提供了多个视图、语言输入和在不同环境中不同的观察输入。
4.1 协议
我们评估了HPT预训练的性能,以最后一次预训练迭代的平均验证损失(未见轨迹上的预测错误)为准。这些验证数据集在训练期间是固定的,与轨迹计数和模型无关。除非特别指出,否则验证数据集来自默认设置中的相同27个数据集。请注意,在许多现实世界的机器人环境中评估预训练模型是不现实的,如果我们忽略这个目标,衡量大规模预训练的替代方案非常少。在诸如自然语言处理(NLP)[29, 33]等领域,训练损失目标(例如困惑度)通常用于衡量预训练的进展。诚然,这个指标有几个需要注意的问题,包括闭环性能差距和任务成功率差距。我们将在第5节中讨论HPT迁移学习时解决这些问题。更多细节和讨论,请参见附录A和D部分。
4.2 缩放行为
数据缩放。在图5(a)中,我们观察到即使在越来越异构的实施例中,验证损失也是稳定且可缩放的。此外,我们发现随着训练过程的收敛,计算量(例如每次训练运行看到的样本)和所需的数据量需要协同缩放[33]。在图5(a)的红线中,我们观察到随着总轨迹数量的增加,通过使用更大的模型和每增加一个数量级的轨迹计数就翻倍批量大小,验证损失有所改善。
图5:Data Scaling。我们沿着数据集大小和数据集数量运行缩放HPT实验。每个点代表完整训练运行的验证损失。(a) 我们评估了27个数据集上的损失,总轨迹数从每个数据集最多10条轨迹(总共270条)到每个数据集最多100000条轨迹(总共170k条)。我们比较了两种模型大小,HPT-S/L,其中HPT-L是一个用比HPT-S多4倍的令牌训练的更大模型。(b) 我们计算了固定子集10个数据集上的验证损失,固定周期数为2。我们计算了HPT-S到HPT-XL模型大小的4次运行的平均值和标准差,以及从10到52的数据集数量的平均值和标准差。
图6:Epoch Scaling。我们沿着总样本数运行缩放HPT实验。每个点代表完整预训练运行的验证损失。设置:HPT-S,27个数据集,每个数据集最多有1000条轨迹。左)我们将批量大小的数量增加,并测量验证损失的变化。右)从左图衍生出来,我们将每个批次中看到的批次数量乘以样本数。
严格增加数据,同时保持其他瓶颈(HPT-S和固定迭代)可能会导致每个数据集约1000个轨迹max的早期平台性能,如图5中的蓝线所示。在图5(b)中,我们还使用固定数量的迭代次数对越来越多的数据集进行预训练,并在固定的子集(前10个数据集)上进行评估。我们假设使用更多实施例有助于主干模型的泛化。这些实验可以扩展到200k轨迹和52个数据集的程度。
Model Scaling。在图7中,我们固定RT-X中的数据集数量(27个),并使用每个数据集最多1000条轨迹。我们按模型大小(从1M到1B)缩放,并逐渐增加批量大小,从256增加到2048(每增加一个模型大小就翻倍),并使用拥有170k轨迹的大型数据集。我们观察到,当我们扩展到更大模型和更多计算量时(红线),预训练可以实现低验证损失,直到达到平台期。我们没有发现缩放深度或宽度之间有显著差异。
Epoch Scaling.。在这个实验中,我们固定数据集数量(27个),并使用每个数据集最多1000条轨迹。在图6中,我们观察到增加批量大小(左)实际上可以扩展训练令牌(右),通常可以提高模型性能直到收敛。我们的另一个观察是使用分布式工作器从尽可能多的数据集中加载数据以聚合每个批次。我们假设通过使用较大的批量大小可以减少在异构数据集上训练的大方差。更多实验细节请参见附录B。
4.3 在合成数据和互联网人类视频上进行预训练
我们实验超出了现实世界机器人遥操作数据的范围,这些数据收集和扩展成本高昂。对于额外的数据集,我们考虑了在许多流行的模拟器Drake[81]、Mujoco[89, 49]、Isaac Sim[20]和PyBullet[85, 80]上共7个模拟数据集,以及Sapien[52]和Flex[66]上的数据集。
图7:模型缩放。我们沿着模型大小运行缩放注释。每个点运行一次。设置:27个数据集,每个数据集最多有1000条轨迹。我们对蓝色和红色线都按照模型大小(从1M到1B)进行缩放。红色线通过增加数据和训练周期来达到收敛。具体来说,我们从256开始逐渐增加批量大小(每增加一个模型大小就翻倍),并使用17万条轨迹。
图8:与仿真和人类视频的联合预训练。基线表示没有仿真和人类数据集的默认设置。设置:我们使用最大1000条轨迹的数据集训练语料库进行实验。
图像输入和专家演示。对于缺乏本体感知和动作信息的人类数据集,我们使用姿态和二维位置作为监督策略学习目标的替代品。我们总共使用了EPIC厨房[15]和PoCo[82]的300条轨迹,最大轨迹长度为1000。有关数据集组成的更多细节,请参见附录图13和表4。
在图8中,我们为每个数据集使用最多1000条轨迹,并与27个数据集的基线进行比较,评估所有预训练数据集。我们展示了即使在真实机器人存在较大的本体差距的情况下,也可以对额外的体现数据集进行预训练,如仿真和人类视频数据集。这些数据集为纯遥操作数据提供了补充的体现数据,并且它们说明了在HPT框架中可以处理多少异质性。
5 转移学习实验
在前一节中,我们使用验证损失评估预训练。在本节中,我们用迁移学习中的任务成功率回答以下问题:预训练的HPT模型能否转移到仿真和现实世界中的新实现、任务和环境?
5.1 在仿真中转移到实现
协议。我们在机器人操控仿真基准测试Meta-world[89]、RoboMimic[49]和Fleet-Tools[81]上评估预训练表示。每个训练数据集使用每个任务的20-100条轨迹,每个测试覆盖50个具有不同初始条件的剧集。策略使用HPT-Small作为预训练主干,并重新初始化茎和头来转移。
在评估阶段,我们比较了以下模型:无主干仅使用茎和头,中间没有主干,从零开始训练,这是常见的做法[40]。从零开始训练整个策略,带主干,预训练冻结在迁移学习期间使用并冻结预训练主干,预训练微调加载预训练的HPT-Base主干并端到端微调整个网络,预训练微调(HPT-XL)使用相同的微调程序,但预训练验证损失较低。为了减少方差,我们对每个模型进行独立的训练运行和评估5次,并取平均值。在RTX 3070 GPU上转移期间的推理时间为HPT-base的47Hz,HPT-XL的19Hz,而像A100这样更先进的GPU可以快3-4倍。
实验。在图10(a)中,我们在闭环模拟中对下游任务进行了测试,并观察到使用从HPT-B到HPT-XL的预训练模型提高了任务成功率,尽管模拟实验的预训练只在现实世界的实施例中发生。
在图10(b)中,我们在最近发布的Simpler[42]基准测试上运行了HPT,该基准测试允许与Octo[55]、RT1-X和RT2-X[14]进行高保真度模拟比较。我们专注于Google EDR实现中的三个不同任务:Close Drawer、Move Near和Pick Coke Can。对于每个任务,我们测试了多种不同的初始化方法,所有任务的总集数超过300集。
图9:仿真评估任务。我们评估了HPT在多个仿真基准测试中的表现,并展示了实验的政策推行可视化。实验细节可以在第5.1节和A.4节中找到。
图10:模拟实验中的成功率。(a) 我们评估了从HPT-B到HPT-XL的模型在4个不同模拟基准测试任务上的迁移学习性能。(b) 我们与Google GDR实现的Simpler[42]基准测试中的几个通用模型进行了比较。预训练的躯干是从缩放设置中训练的。成功率是在150次滚动中计算的。
请注意,HPT-S的预训练语料库不包括[6],而模拟任务侧重于语言条件,并不涉及本体感知输入,这对于HPT来说并不适用。为了解决这些问题,我们在模拟协议下使用大约50条轨迹的监督数据集对HPT进行了微调。我们在这个实验中使用HPT-base作为骨干。我们使用了[42]的基线结果。更多实施和实验细节,请参见第A.4节。
5.2 将HPT迁移到现实世界的实现
Protocol。对于现实世界实验,我们在两个不同的实现上评估了HPTs在宠物护理和装配任务上的表现,这些任务在预训练数据集中没有涵盖[14]。特别是,对于这两个机器人,我们尝试了不同的观察空间,即1个摄像头对2个摄像头,以及不同的动作空间,即相对姿态对绝对姿态。在数据收集方面,我们尝试了Oculus Quest来收集相对姿态控制作为动作标签以及运动教学。现实世界远程操作的剧集长度从50步变化到150步,控制频率为10 Hz。我们实验了扫除遗留物、加水、舀食物和切换插入等任务,这些任务需要与颗粒状或小物体进行5-20秒的交互,如图11所示。我们对每个任务收集大约100个演示,并进行15次试验来衡量平均成功率。
实验。我们在上一节采用了类似的迁移学习方法,并在真实世界评估协议下评估预训练的HPT表示。我们使用20000次迭代、批量大小为256和5e-6的学习率来训练策略。我们将实现细节推迟到附录A.5部分。在图12中定量观察,预训练策略在No-Trunk和From-Scratch基线之上取得了更好的成功率。特别是,在加水任务中,From-Scratch基线使用了最先进的扩散策略架构来说明预训练表示的灵活性。在图11中,从定性上看,我们观察到预训练模型对不同姿态和颗粒物体数量的变化以及相机配置和光照条件的变化具有更好的泛化能力和鲁棒性,并且能够适应预训练的HPT。
在表3中,我们对扫除遗留物任务进行了消融研究。我们还与R3M[53]、Voltron[34]和VC-1[48]进行了比较。我们使用了一个经过微调的模型,该模型使用了发布的主干网络和权重。我们注意到,这些先前的工作仅关注用人类视频预训练策略的视觉编码器。最后,我们将训练从头开始(From Scratch)的策略与在预训练期间不使用本体感知(No Prop. Finetuned)并在之后添加本体感知的策略进行了比较。我们所有的实验都使用了预训练的编码器,可训练参数(茎和头)可以少至参数总数的2%。
图11:现实世界定性结果。预训练的HPT策略能够在宠物护理和辅助下执行动态、长时跨度的接触丰富预测任务,并在场景变化和干扰下表现出泛化行为。
图12:现实世界中的迁移学习。我们评估了四种任务/两种实现上的预训练HPTs的平均成功率及其标准差。对于每种方法,我们计算了45次试验的平均成功率。本实验使用默认的预训练设置,即HPT-Base。详细描述见第5.2节。
6 结论
在数据集管理和预训练目标方面,许多方面都有改进的空间。具体来说,我们在平衡的数据集混合中的实现分割相当简单。此外,在本工作中,仔细的数据过滤以确保数据质量并未被充分利用。同时,这项工作专注于监督学习作为预训练目标,而数据大小以令牌为单位,训练计算规模仅在LLM训练的中等规模上达到,以确保完全收敛。尽管模型架构和训练过程是模块化的且独立于实现设置,但异构预训练可能收敛缓慢。对于评估,模拟和现实世界评估任务都限制在具有固定实现的短期操纵任务上,这可能会限制使用更高容量模型的好处。此外,学到的策略在测试任务上的可靠性仍然不高(通常低于90%)。有关一些故障模式的详细信息,请参见附录SC。
鉴于最近大规模数据的激增,机器人学习仍受其通用性的限制,因为机器人的操作涉及不同的实现、任务和环境。为了处理机器人学中常见的异质性,我们提出了HPT,这是一个模块化架构和框架,通过预训练来拥抱这种异质性。我们探索并扩展了HPT,使用超过50个异构数据集。学习到的表示可以转移并在模拟和现实世界中提高性能,并且与预训练性能显示出相关性。code是开源的,供未来研究使用。我们希望这种观点能激发未来在处理机器人基础模型的机器人数据异构性方面的工作。