ChatGPT式人工智能模型为机器人添加了视觉功能,无需特殊培训即可指导机器人行动。
周一,来自谷歌和柏林工业大学的一组AI研究人员推出了PaLM-E,这是一个具有5620亿参数的多模态具身化视觉语言模型(VLM),它将视觉和语言集成到机器人控制中。他们声称这是有史以来最大的VLM,可以执行各种任务,而无需重新训练。
据谷歌表示,当给出高级命令,例如“从抽屉里拿给我米饼干”时,PaLM-E可以为具有机械臂的移动机器人平台(由谷歌机器人技术开发)生成动作计划,并自行执行动作。
PaLM-E能够通过分析机器人相机中的数据,而无需预处理场景表示,从而实现这一功能。这消除了人类预处理或注释数据的需求,使得机器人的控制更加自主。
在谷歌提供的演示视频中,PaLM-E执行了“从抽屉里取来米饼干”的指令,包括多个规划步骤,同时结合机器人相机的视觉反馈。
它还具有弹性,可以对其环境做出反应。例如,PaLM-E模型可以指导机器人从厨房取一袋薯片 - 并且通过将PaLM-E集成到控制环路中,它变得能够抵御在执行任务期间可能发生的中断。在一个视频示例中,研究人员拿走了机器人的薯片并将其移动,但是机器人定位到薯片并再次拿起了它们。
另一个例子是,同样的PaLM-E模型自主控制机器人完成了先前需要人类指导的复杂序列任务。谷歌的研究论文解释了PaLM-E如何将指令转化为动作:
我们演示了PaLM-E在具有挑战性和多样化的移动操作任务中的表现。我们在很大程度上遵循了Ahn等人(2022)的设置,其中机器人需要基于人类的指令计划一系列导航和操作步骤。例如,给定指令“我洒了饮料,你能给我拿点东西擦一下吗?”,机器人需要计划包含“1.找海绵,2.拿起海绵,3.将其带给用户,4.放下海绵”的序列。受这些任务的启发,我们开发了3个用例来测试PaLM-E的具体推理能力:可供性预测、故障检测和长期规划。底层策略来自RT-1(Brohan等人,2022),这是一个变压器模型,它接受RGB图像和自然语言指令,并输出端点控制命令。
PaLM-E是一个下一个令牌的预测器,它被称为“PaLM-E”,因为它基于谷歌现有的大型语言模型(LLM)“PaLM”(类似于ChatGPT背后的技术)。谷歌通过添加感官信息和机器人控制将PaLM“具体化”。
由于它基于语言模型,PaLM-E接受连续的观察数据,比如图像或传感器数据,并将它们编码成与语言令牌大小相同的向量序列。这使得模型可以以与处理语言相同的方式“理解”感官信息。
Google提供的演示视频展示了一个由PaLM-E引导的机器人,按照指示“给我拿一个绿色的星星”。研究人员说,这个绿色的星星“是这个机器人没有直接接触过的物体。”
除了RT-1机器人变形器外,PaLM-E还借鉴了谷歌在2月份公布的ViT-22B的先前工作。ViT-22B已经对各种视觉任务进行了训练,例如图像分类、目标检测、语义分割和图像字幕。
除了机器人技术外,谷歌研究人员观察到了使用大型语言模型作为PaLM-E核心所带来的几个有趣效果。首先,它表现出“正迁移”,这意味着它可以将从一个任务中学到的知识和技能转移到另一个任务中,从而与单一任务机器人模型相比表现出“显着更高的性能”。
此外,他们观察到了一个与模型规模相关的趋势:“语言模型越大,在训练视觉语言和机器人任务时,它越能保持其语言能力——从数量上看,562B PaLM-E模型几乎保留了其所有语言能力。”
PaLM-E是迄今为止报道的最大的VLM。尽管仅在单图像提示上进行了训练,但我们观察到了像多模式思维推理和多图像推理这样的新兴能力。尽管不是我们工作的重点,但PaLM-E在OK-VQA基准测试中取得了新的最佳表现。
研究人员声称,尽管PaLM-E只是通过单张图像进行训练,但它具有多模式思维推理(允许模型分析包括语言和视觉信息的输入序列)和多图像推断(使用多张图像作为输入来进行推断或预测)等新兴能力。在这个意义上,PaLM-E似乎延续了随着深度学习模型不断复杂化而出现的惊喜趋势。
谷歌的研究人员计划探索PaLM-E在家庭自动化或工业机器人等实际场景中的更多应用,并希望PaLM-E能启发更多关于多模态推理和具有体现智能的人工智能的研究。
“多模态”是一个我们将听到越来越多的时髦词汇,因为公司们正在寻求人工通用智能,这种智能理论上应该能够像人类一样执行一般任务。