Google DeepMind 的研究人员推出了一种名为RT-2的新模型,其目标是将大规模预训练视觉-语言模型的能力融入到端到端的机器人控制任务中。这项开创性的研究探索了如何利用这些模型使机器人在现实环境中完成各种任务,同时提升机器人的适应性和语义推理能力。作者们提出了"视觉-语言-动作"(VLA)模型,这种模型利用互联网规模训练的知识,并将其与机器人控制无缝结合。
视觉-语言模型
长期以来,研究人员一直致力于创建强大且灵活的视觉-语言模型(VLM),以应对包括机器人技术在内的各种领域的复杂任务。这些模型将一个或多个图像作为输入,并生成token序列,这些token序列编码了在真实环境中执行高级任务和处理细微信息所需的任务。其中一个值得注意的子集是能够生成自然语言文本的模型,这些模型可以接收视觉和语言输入并生成自由形式的文本响应。在这项研究中,研究人员主要关注的是如何利用在互联网规模数据上预训练的视觉-语言模型,并将其调整以进行直接、闭环的机器人控制。
训练具有机器人意识的视觉-语言模型
将视觉-语言模型用于机器人的主要挑战在于如何教导它们输出机器人动作,同时保留它们对语言和视觉的现有理解。为了实现这一点,研究团队将机器人动作转化为文本token,并将它们作为自然语言token纳入训练集。这种方法使模型的权重能够在语言和动作任务之间共享,从而避免了只使用动作的模型层。
两个先前提出的视觉-语言模型,PaLI-X和PaLM-E,被调整用于闭环机器人操作任务。这些模型通过使用以256个动作token形式表示的离散化机器人动作进行了微调,这些动作token在微调过程中作为基准。