Robotic Transformer 2 (RT-2)｜视觉-语言-行动（VLA）模型

最新推荐文章于 2024-02-26 14:27:51 发布

u013250861

最新推荐文章于 2024-02-26 14:27:51 发布

阅读量234

点赞数

分类专栏： Audio 文章标签： transformer 人工智能深度学习

本文链接：https://blog.csdn.net/u013250861/article/details/134085881

版权

Audio 专栏收录该内容

35 篇文章 28 订阅 ¥29.90 ¥99.00

订阅专栏

超级会员免费看

Google DeepMind 的研究人员推出了一种名为RT-2的新模型，其目标是将大规模预训练视觉-语言模型的能力融入到端到端的机器人控制任务中。这项开创性的研究探索了如何利用这些模型使机器人在现实环境中完成各种任务，同时提升机器人的适应性和语义推理能力。作者们提出了"视觉-语言-动作"（VLA）模型，这种模型利用互联网规模训练的知识，并将其与机器人控制无缝结合。

视觉-语言模型

长期以来，研究人员一直致力于创建强大且灵活的视觉-语言模型（VLM），以应对包括机器人技术在内的各种领域的复杂任务。这些模型将一个或多个图像作为输入，并生成token序列，这些token序列编码了在真实环境中执行高级任务和处理细微信息所需的任务。其中一个值得注意的子集是能够生成自然语言文本的模型，这些模型可以接收视觉和语言输入并生成自由形式的文本响应。在这项研究中，研究人员主要关注的是如何利用在互联网规模数据上预训练的视觉-语言模型，并将其调整以进行直接、闭环的机器人控制。

训练具有机器人意识的视觉-语言模型

将视觉-语言模型用于机器人的主要挑战在于如何教导它们输出机器人动作，同时保留它们对语言和视觉的现有理解。为了实现这一点，研究团队将机器人动作转化为文本token，并将它们作为自然语言token纳入训练集。这种方法使模型的权重能够在语言和动作任务之间共享，从而避免了只使用动作的模型层。

两个先前提出的视觉-语言模型，PaLI-X和PaLM-E，被调整用于闭环机器人操作任务。这些模型通过使用以256个动作token形式表示的离散化机器人动作进行了微调，这些动作token在微调过程中作为基准。

了解本专栏

超级会员免费看

u013250861

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
Robotic Transformer 2 (RT-2)｜视觉-语言-行动（VLA）模型

在这项研究中，研究人员主要关注的是如何利用在互联网规模数据上预训练的视觉-语言模型，并将其调整以进行直接、闭环的机器人控制。此外，它还表现出了一些新的能力，比如解读并执行机器人训练数据中未出现过的指令，识别场景中最小或最大的物体，判断出应该使用哪个物体作为临时锤子，以及为疲倦的人选择最好的能量饮料。总的来说，RT-2模型在整合视觉-语言-动作模型用于机器人控制方面，代表了一个重要的进步。通过在机器人的运动轨迹上训练视觉-语言模型，并将标记化的动作直接融入其输出，使得这些模型能够实施遵循指令的机器人策略。
复制链接

扫一扫