论文解读 | ICLR2024：视觉-语言基础模型作为有效的机器人模仿者

AITIME论道

于 2024-04-29 18:02:27 发布

阅读量800

点赞数 1

文章标签：机器人人工智能

原文链接：https://mp.weixin.qq.com/s?__biz=MzIzOTAxOTk3Nw==&mid=2247524060&idx=1&sn=6720a337ae8a4925e5e8605815589540&chksm=e81bd3ccede028e0f1fad6c3f1285d104a2da6270de3aefc3ade808b916ee501d59ca57ace35&scene=126&sessionid=0

版权

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

作者简介

李兴航，清华大学博士生

论文标题

Vision-Language Foundation Models as Effective Robot Imitators

概述

视觉语言基础模型的最新进展表明它们能够理解多模态数据并解决复杂的视觉语言任务，包括机器人操作。我们寻求一种直接的方法，利用现有的视觉语言模型(VLM)，并对机器人数据进行简单的微调。为此，我们构建了一个简单而新颖的视觉语言操作框架，称为RoboFlaminggo，建立在开源VLM、OpenFlamingo之上。与之前的工作不同，RoboFlaminggo利用预训练的VLM进行单步视觉语言理解，使用显式策略头对序列历史信息进行建模，并且仅在语言条件操作数据集上通过模仿学习进行微调。这种分解为RoboFlamingo提供了高性能平台上开环控制和部署的灵活性。通过在测试基准上大大超过了最先进的性能，我们表明 RoboFlamingo 可以成为使VLM适应机器人控制的有效和有竞争力的替代方案。我们广泛的实验结果还揭示了一些关于不同预训练VLM在操作任务上行为的有趣结论。RoboFlamingo 可以在单个GPU服务器上进行训练或评估，我们相信它有可能成为机器人操作的具有成本效益的且易于使用的解决方案，使每个人都有能力微调自己的机器人策略。

论文链接：

https://arxiv.org/abs/2311.01378

代码链接：

https://github.com/RoboFlamingo/RoboFlamingo

项目主页：

https://roboflamingo.github.io/

New AI Paradigm

随着大模型的发展，视觉语言基础模型成为了一个新的AI范式。最早提出的CLIP、LLama、Flaminggo、以及Lynx通过处理多模态的大模型，表达出了强大的泛化能力和推理能力，在各类任务如视觉语言问答、视频标注等方面展现出了强大的能力。

New AI Paradigm

Research Methodology

那么，视觉语言模型是否应用在机器人任务中，这是一个值得思考的问题。现在主流的方法有两种。

第一种是类似于PaLM-E的分层方式，将视觉和语言模型相结合，通过观察环境、接收指令和执行行动，实现对机器人的端到端控制。首先，机器人通过感知模块获取环境信息；其次，使用规划模块基于当前环境状态生成可能的行动序列；接着，通过学习模块利用模型集成方法对生成的行动序列进行评估和优化；最后，执行最优行动序列以完成任务。但是该方法依赖于其他低层次策略，例如基于行为克隆（BC）的策略，来执行实际的行动。其次，虽然VLMs在该方法中充当高层规划者的角色，但它们并不能直接控制机器人执行具体的动作，而是仅仅提供高层次的指导。这些限制意味着PaLM-E方法在实际应用中可能需要额外的工程手段来整合低层次控制策略。

第二种是类似于RT-2的方式，采用了一种端到端的方法，将观察、指令和行动一起输入到VLM（Vision-Language Model）中作为一个token序列。然后，直接基于行动令牌解码生成行动，实现了端到端的行动推断过程。此外，RT-2还采用了与视觉语言任务的联合训练，以增强模型的泛化能力和整体性能。尽管这种方法取得一些进展，但它也存在一些限制。首先，该方法需要大量的视觉语言（VL）数据和计算资源，例如，至少需要10亿规模的内部图像文本数据来有效训练模型。其次，由于计算需求巨大，部署在机器人平台上变得困难，需要使用多个TPU服务器，并且最多只能实现5Hz的运行频率。这些限制使得RT-2方法在实际机器人应用中的可行性和可扩展性受到了一定程度的限制。

The Proposed Framework

基于现有的视觉语言大模型，作者希望提出一个新的机器人大模型，可以降低训练和推理成本，因此就有了本文所提的框架-RoboFlamingo。

RoboFlamingo是一种新颖的视觉语言操作框架，它利用公开可用的预训练VLM来有效地为机器人构建操作策略。具体来说，RoboFlaminggo 基于开源 VLM、OpenFlamingo ，并通过解耦视觉语言理解和决策来解决挑战。

与之前的工作不同，RoboFlamingo 主要利用预训练的 VLM 来理解每个决策步骤中的视觉观察和语言指令，使用显式策略头对历史特征进行建模，并且仅在语言条件操作数据集上使用模仿学习进行微调。通过这种分解，只需要结合少量的机器人演示来使模型适应下游操作任务，RoboFlamingo也为低资源平台上的开环控制和部署提供了灵活性。

此外，得益于对大量视觉语言任务的预训练，RoboFlamingo在以前的工作中以很大的优势实现了最先进的性能，并且可以很好地推广到零样本设置和环境。值得注意的是，RoboFlamingo 可以在单个 GPU 服务器上训练或评估。因此，RoboFlamingo可以成为机器人操作的具有成本效益的高性能解决方案，使每个人都有能力用VLM微调自己的机器人。

RoboFlamingo

Procedure

从OpenFlamingo到RoboFlamingo的具体迁移方式共分为三个步骤：视觉输入、语言输入、特征融合。第一部分：vision encoder模块，首先将当前的视觉观察输入到ViT（Vision Transformer）中，然后通过一个重新采样器对ViT输出的令牌进行下采样；第二部分：语言输入模块，与OpenFlamingo中的标记化过程类似，将语言输入进行标记化处理；第三部分，feature fusion decoder模块，利用视觉编码器的输出作为键和值进行交叉注意力操作，然后进行自注意力操作，完成对视觉和语言特征的融合。

RoboFlamingo-loss

在训练过程中的损失函数，本文利用最大似然模仿学习目标来微调所提出的预训练主干和策略头。具体来说，通过回归损失（均方误差(MSE)损失）优化所需的相对位姿，抓手状态使用分类损失（二元交叉熵(BCE)损失），如下图所示：

在训练过程中，本文遵循OpenFlamingo的微调范例，只训练重采样器的参数、每个解码器层的门控交注意力模块和策略输出部分的参数，同时冻结所有其他参数。

Experiments

本文进行了广泛的实验来检查所提出的 RoboFlamingo 解决方案，并回答预训练的VL模型(VLM)如何有利于语言条件机器人操作。文章分别从以下角度研究RoboFlaminggo：1.有效性。通过在给定的演示数据上训练RoboFlamingo模型，与目前最先进的方法进行比较，评估其主要性能。2.零样本泛化。在给定不同的视觉上下文，甚至包括未见指令的情况下，模型的行为将会如何。3.消融研究。在RoboFlamingo框架中，将VLMs适应到机器人控制策略中的关键因素。

Dataset

CALVIN是一个开源的模拟基准测试环境，用于学习长时间跨度的语言条件任务。该环境包含34个不同的任务，并对连续任务的1000个唯一指令链进行评估。CALVIN提供了总共24,000个语言注释的演示，可用于模型训练。数据集分为4个部分，每个部分具有不同的背景信息、物体颜色和位置，可用于零-shot评估。

Quantitative Analysis

Full 和 Lang表示模型是否使用未配对的视觉数据（即没有语言对的视觉数据）进行训练；Freeze-emb是指冻结融合解码器的嵌入层；Enriched表示使用GPT-4丰富的指令。灰色行表示重新训练的模型评估的数值结果。作者重新实现RT-1并采用Mees等人提供的HULC的原始代码。所有其他结果都是由HULC报告的。

RoboFlamingo在各设置和指标上的性能均为最佳，表现了其优秀的模仿能力、视觉泛化能力及语言泛化能力。例如，完成5个任务的平均序列从3.06提高到4.06。仅使用1%的语言注释数据，其表现优于所有其他方法。单任务成功率从53.5%提高到82.4%，完成5个任务的平均序列从0.90增加到2.48。

Zero-shot Generalization

本文分别从视觉和语言两个方面评估了RoboFlamingo的零样本泛化能力。对于视觉泛化，文中在A、B和C上训练模型，并在D上进行测试，这呈现了不同的视觉上下文。RoboFlamingo在这种视觉泛化场景（ABC→D）中显着优于基线，如表中所示。关于语言泛化，作者通过使用GPT4为每个任务生成50个同义指令来丰富语言设置。然后，在评估期间随机采样指令。与这种语言泛化设置中的所有基线相比，RoboFlamingo表现出卓越的性能。

Ablation Study

1) 不同的policy head：

实验考察了四种不同的策略头部：MLP w/o hist、MLP w hist、GPT和LSTM。其中，MLP w/o hist直接根据当前观测预测历史，其性能最差，MLP w hist将历史观测在vision encoder端进行融合后预测action，性能有所提升；GPT和LSTM在policy head处分别显式、隐式的维护历史信息，其表现最好，说明了通过policy head进行历史信息融合的有效性。

2) 视觉-语言预训练的影响：

预训练对于RoboFlamingo的性能提升起到了关键作用。实验显示，通过预先在大型视觉-语言数据集上进行训练，RoboFlamingo在机器人任务中表现得更好。

3) 模型大小与性能：

虽然通常更大的模型会带来更好的性能，但实验结果表明，即使是较小的模型，也能在某些任务上与大型模型媲美。

4) 指令微调的影响：

指令微调是一个强大的技巧，可以进一步提高模型的性能。实验结果表明，微调可以显著提高模型的性能。

Conclusion

本工作为语言交互的机器人操作策略提供了一个新颖的基于现有开源VLMs的框架，使用简单微调就能实现出色的效果。RoboFlamingo为机器人技术研究者提供了一个强大的开源框架，能够更容易地发挥开源VLMs的潜能。工作中丰富的实验结果或许可以为机器人技术的实际应用提供宝贵的经验和数据，有助于未来的研究和技术发展。

点击“阅读原文”跳转到00:19:22

可以查看回放哦！

本篇文章由陈研整理

往期精彩文章推荐

记得关注我们呀！每天都有新知识！

关于AI TIME

AI TIME源起于2019年，旨在发扬科学思辨精神，邀请各界人士对人工智能理论、算法和场景应用的本质问题进行探索，加强思想碰撞，链接全球AI学者、行业专家和爱好者，希望以辩论的形式，探讨人工智能和人类未来之间的矛盾，探索人工智能领域的未来。

迄今为止，AI TIME已经邀请了1800多位海内外讲者，举办了逾600场活动，超700万人次观看。

我知道你

在看

哦

点击 阅读原文 查看回放！

AITIME论道

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
论文解读 | ICLR2024：视觉-语言基础模型作为有效的机器人模仿者

点击蓝字关注我们AI TIME欢迎每一位AI爱好者的加入！作者简介李兴航，清华大学博士生论文标题Vision-Language Foundation Models as Effective Robot Imitators概述视觉语言基础模型的最新进展表明它们能够理解多模态数据并解决复杂的视觉语言任务，包括机器人操作。我们寻求一种直接的方法，利用现有的视觉语言模型(VLM)，并对机器人数据进行简单...
复制链接

扫一扫