NeurIPS 2024 | 何恺明团队提出异构预训练Transformer,性能暴涨20%

95211df173e8c7164a795a4b93af7acc.gif

©作者 | 桃子 乔杨

来源 | 新智元

通用机器人模型,目前最大的障碍便是「异构性」。

也就是说,必须收集全方位——每个机器人、任务和环境的特定数据,而且学习后的策略还不能泛化到这些特定设置之外。

由此,AI大神何恺明带队的MIT、Meta FAIR团队,提出了异构预训练Transformer(HPT)模型。

即预训练一个大型、可共享的神经网络主干,就能学习与任务和机器人形态无关的共享表示。

简单讲,就是在你的策略模型中间放置一个可扩展的Transformer,不用从头开始训练!

a873807b4eaa0e08aeab53f20370a39d.png

论文标题:

Scaling Proprioceptive-Visual Learning with Heterogeneous Pre-trained Transformers

论文链接:

https://arxiv.org/pdf/2409.20537

研究人员将不同本体视觉输入对齐到统一的token序列,再处理这些token以控制不同任务的机器人。

最后发现,HPT优于多个基准模型,并在模拟器基准和真实世界环境中,将未见任务微调策略性能,提升20%。

值得一提的是,这项研究被NeurIPS 2024接收为Spotlight。

在真实环境中,HPT加持下的机器人本体,能够自主向柴犬投食。

34b43d0138f74519733f6206596787f0.gif

而且, 即便是洒了一地狗粮,机器人也能用抹布,将其收到一起。

5093d8088a534b7c6f5493718efd7416.gif

而在模拟环境中,HPT架构让机器人任务操作,更加精准。

94949e013070e2185bf4f21638cd9cba.gif

接下来,一起深度了解下异构预训练Transformer(HPT)模型的核心要素吧。

e077c835a29baa5751547b8acc1db777.png

搭建「异构性」桥梁

如今,构建特定的机器人策略很困难,其中最大的难题就是数据收集和缺少泛化性。

不同硬件的机器人在物理上具有不同的本体(embodiment),每种实例可以有不同的「本体感觉」(proprioception),包括不同的自由度、末端执行器、运动控制器和为特定应用构建的工作空间配置。

43639861b24d3995f992b6a042c396cc.png

此外,另一种常见的异构性就是视觉异构性。

不同机器人搭载了不同的视觉传感器,而且通常配备在不同位置(比如手腕/第三视角);每个机器人的外观也会因环境和任务而有很大差异。

正是由于这些难以跨越的异构性障碍,因此通常需要收集每个机器人、任务和环境的特定数据,并且学习到的策略不能泛化到这些特定设置之外。

虽然机器人领域已经积累了海量的开源数据,但异构性让数据集很难被共同利用。

从图4中就可以看出,仅仅是按环境分类,机器人领域的数据就能被「瓜分」为远程遥控、模拟、野外、人类视频等接近4等份。

cedfad67e759d29e13ade4fa567fb4aa.png

▲ 机器人领域数据集的异质性

近些年来NLP和CV领域的突飞猛进,让我们看到了彻底改变机器学习领域的一个历史教训:对大规模、高质量和多样化数据进行预训练,可以带来通常优于特定模型的通用模型。

话至此处,当今机器人领域的一个中心问题浮出水面:如何利用异构数据来预训练机器人基础模型?

除了更多数据带来的好处之外,不同任务的训练还可以增强表示(representation)的通用性。

这类基础模型将会在各种任务上实现高成功率、对异常值更加稳健,并且能够灵活地适应新任务。

那么,到底应该如何充分利用异构化的数据集?

如图1所示,一个基本的思路是,将来自不同领域和任务的输入信号映射到高维表示空间,并让它们表现出一致的缩放行为。

之后,只需要最少的微调,就可以将得到的高维表示迁移到特定的下游任务,同时获得良好的性能。

073fc6ba67a332cb3acbe021fbc87c24.png

▲ HPT概念示意图

HPT所要做的,就是找到一种共享的策略「语言」,能够对齐来自不同预训练的异质的本体感觉和视觉信息,将自己的信号映射到共享的潜在空间。

02afdb70afa150300944d021dcc6f66b.png

HPT模型架构

HPT全称为Heterogeneous Pre-trained Transformers,是一个架构系列,采用了模块化的设计思路,从异构本体的数据中进行可扩展学习。

受到多模态数据学习的启发,HPT使用了特定于本体的分词器(stem)来对齐各种传感器输入,映射为固定数量的token,之后送入Transformer结构的共享主干(trunk),将token映射为共享表示并进行预训练。

在对每种本体的输入进行标记化(tokenize)之后,HPT就运行在一个包含潜在token短序列的共享空间上运行。

论文提到,这种层次结构的动机,也是来源于人类身体的脊髓神经回路层面中,特定运动反应和感知刺激之间的反馈循环。

预训练完成后,使用特定于任务的动作解码器(head)来产生下游动作输出,但所用的实例和任务在预训练期间都是未知的。

预训练包含了超过50个单独的数据源,模型参数超过1B,模型的代码和权重都已公开发布。

4db85f7ee918acf52b62424c405a3b3f.png

▲ HPT架构

stem结构

从上面的描述来看,要解决异构性问题,最直接和最关键的就是如何训练stem,将来自异构的本体和模态的传感器输入对齐到共享表示空间中。

如图3所示,stem包含两个主要部分,即本体感受分词器和视觉分词器,将来自不同本体的异构输入映射为固定维度、固定数量的token,让trunk能够以相同的方式处理。

其中的关键思想,是利用cross-attention机制,让固定数量的可学习token关注到各种特征。

虽然这篇论文主要处理本体感觉和视觉,但处理触觉、3D和动作输入等其他类型的异构传感器信号也可以在stem中灵活扩展。

aa5fad0dcb3ad245d158f04ea7c8fe1c.png

▲ HPT中的stem架构

按照时间顺序单独处理每个模态后,将所有token拼接在一起并添加额外的模态嵌入和正弦位置嵌入,就得到了trunk的输入序列。

为了避免过拟合,stem被设计为仅有少量参数,只包含一个MLP和一个注意力层。

trunk结构

作为预训练的核心组件,trunk是一个有潜在d维空间的Transormer结构,参数量固定,在不同的本体和任务之间共享,以捕获复杂的输入-输出关系。

563d2a263951ed8a98d4d6c04b04f7cf.png

预训练

给定从不同分布中采样的异构本体的数据集𝒟_1,…,𝒟_k,…,𝒟_K ,令𝒟_k={τ^(i)}_{1≤i≤M_k} 表示𝒟_k中一组轨迹M_k,τ^(i)={o_t^(i), a_t^(i)}_{1≤t≤T}表示第i个最大长度为T的轨迹,每个元组包含observation变量和action变量。

训练目标如公式(1)所示,需要最小化数据集中的以下损失:

25114d20e292303646b51ffc8e2af85d.png

其中ℒ是行为克隆损失,计算为预测结果和真实标签之间的Huber 损失。

该训练过程有两个数据缩放轴:单个数据集D_k的体量M_k,以及数据集总数K。

在预训练阶段,每次迭代时仅更新trunk部分参数,并且基于训练批次采样更新特定于每个异构本体和任务的stem和head部分。

论文进行了一系列预训练实验,包括不同规模的网络参数和数据集大小,旨在回答一个问题:HPT预训练在跨域异构数据中是否展现出了扩展能力?

总体而言,某种程度上,HPT随着数据集数量、数据多样性、模型体量和训练计算量呈现出缩放行为。

056bc923e67def5731e1ab857fe2649f.png

HPT网络详细信息,宽度表述turnk transformer的潜在维度,深度表示block数量,默认设置为HPT-Small型号

42d3ff0716ba7dede14c607e824a15c7.png

预训练数据集详细信息,默认使用来自RT-X的27个数据集的16k个轨迹进行训练

数据缩放

数据方面,如图5所示,即使在异构程度逐渐增大的本体中也具有稳定且可扩展的验证损失。

此外,作者还发现,计算量(相当于每次训练运行看到的样本量)和数据量需要共同扩展,才能在训练过程中更接近收敛。

34444b6fd0ccfec9861e175f278b85d0.png

epoch缩放

如图6所示,增加批大小(左)相当于有效地扩展训练token数(右),通常可以提高模型性能,直至最后收敛。

另一个观察结果是,使用分布式方法,在每个训练批中聚合尽可能更多的数据集,用更大的批大小来弥补异构训练中的较大方差。

603d11b7108bb90e61b0462012900605.png

模型缩放

如图7所示,固定数据集和轨迹数量,沿着模型大小(从1M到1B)进行缩放,并逐渐将批大小从256增加到 2048(模型大小每增加一倍),并使用具有170k轨迹的更大数据集。

可以观察到,当我们扩展到具有更大计算量(红线)的更大模型时,预训练可以实现较低的验证损失,直到达到稳定水平,但没有发现缩放模型深度和模型宽度之间存在显著差异。

b788bea8e7e99a9a768b7c739c4ee1dd.png

图8中的实验结果表明,HPT可以相当有效地处理异构数据。尽管与真实机器人存在很大的差距,但对其他本体的数据集(例如模拟环境和人类视频数据集)进行预训练是可能的。

94087df0a6e5b92ad9cef14674db0d39.png

8caf08535b94822603693c3450f4bc31.png

迁移学习

如上,作者使用了最后一次迭代中验证集上的损失来评估预训练。

接下来,他们将通过实验,去验证机器人在迁移学习中,任务成功率的问题:

预训练的HPT模型,是否可以迁移到模拟和现实世界中的全新本体、任务、以及环境中?

模拟环境

如下图10(a)中,研究人员在闭环模拟中测试了下游任务的模型,并观察到使用HPT-B到HPTXL预训练模型,提到的任务成功率。

在图10(b)中,他们在最近发布的Simpler基准上运行HPT,它允许在高保真模拟上与Octo、RT1-X、RT2-X进行比较。

10209c6b9b6f031d8d97723bc9f98893.png

在Google EDR机器人中,研究人员重点关注三个不同的任务「关闭抽屉」、「选可乐罐」。

对于每个任务,他们测试了几种不同的初始化,所有任务总共有300+ episode。

1da235e483eb6b32c6abff3181633498.png

现实世界

这里,作者采用了与前一节类似的迁移学习方法,并在真实世界的评估协议下,评估预训练的HPT表示。

他们以256批大小和1228f5c7ccd2d8eb274ff8db0d165a52.png训练率训练策略20000次迭代。

图12显示的定量结果,研究人员观察到,预训练策略相比No-Trunk和From-Scratch基准获得了更好的成功率。

特别是在倒水的任务中,From-Scratch基准使用了最先进的扩散策略架构,以展示预训练表示的灵活性。

1d432b1c51d48308e4e91b89270ac0ab.png

图11定性结果显示,作者观察到预训练的HPT在面对不同姿势、物体数量、相机配置、光照条件时,表现出更好的泛化能力和鲁棒性。

4ca574fc3843ea803e377f77e80b7637.png

在表3中,作者对Sweep Leftover任务进行了消融研究。

712bf7d1ad90d669812361161d0c3edf.png

尽管最近数据规模激增,但由于异构性的存在,机器人学习的通用性仍然受到限制。

研究人员提出的HPT——一种模块化架构和框架,通过预训练来应对这种异构性。

他希望这一观点能够启发未来的工作,以处理机器人数据的异构性本质,从而为机器人基础模型铺平道路。

outside_default.png

参考文献

outside_default.png

[1] https://liruiw.github.io/hpt/

[2] https://x.com/LiruiWang1/status/1841098699436351742

更多阅读

48c79d8ee3be4b8ca5dd984e038890b1.png

b45bffa9c59d46c678cc4595aa4436e8.png

915508cb1da3a91231eb0f5f0060cd7e.png

62ab3393e01823f43286aaf4f0a6abfa.gif

#投 稿 通 道#

 让你的文字被更多人看到 

如何才能让更多的优质内容以更短路径到达读者群体,缩短读者寻找优质内容的成本呢?答案就是:你不认识的人。

总有一些你不认识的人,知道你想知道的东西。PaperWeekly 或许可以成为一座桥梁,促使不同背景、不同方向的学者和学术灵感相互碰撞,迸发出更多的可能性。 

PaperWeekly 鼓励高校实验室或个人,在我们的平台上分享各类优质内容,可以是最新论文解读,也可以是学术热点剖析科研心得竞赛经验讲解等。我们的目的只有一个,让知识真正流动起来。

📝 稿件基本要求:

• 文章确系个人原创作品,未曾在公开渠道发表,如为其他平台已发表或待发表的文章,请明确标注 

• 稿件建议以 markdown 格式撰写,文中配图以附件形式发送,要求图片清晰,无版权问题

• PaperWeekly 尊重原作者署名权,并将为每篇被采纳的原创首发稿件,提供业内具有竞争力稿酬,具体依据文章阅读量和文章质量阶梯制结算

📬 投稿通道:

• 投稿邮箱:hr@paperweekly.site 

• 来稿请备注即时联系方式(微信),以便我们在稿件选用的第一时间联系作者

• 您也可以直接添加小编微信(pwbot02)快速投稿,备注:姓名-投稿

dcf88b1f463bef71eb8053e7c2921717.png

△长按添加PaperWeekly小编

🔍

现在,在「知乎」也能找到我们了

进入知乎首页搜索「PaperWeekly」

点击「关注」订阅我们的专栏吧

·

·

·

be840b3903e337fbc3a0f0b0c0997c3f.jpeg

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值