来自清华大学交叉信息研究院的研究者提出了「ViLa」(全称 Robotic Vision-Language Planning)算法,其能在非常复杂的环境中控制机器人,为机器人提供任务规划。
GPT-4V 已经能帮我们设计网站代码,控制浏览器,这些应用集中在虚拟数字世界中。假如我们把 GPT-4V 带入现实世界,让它作为控制机器人的大脑,会有什么有趣的结果呢?
ViLa 全称是 Robotic Vision-Language Planning,它利用 GPT-4V 在视觉和语言两个模态上做联合推理的能力,把抽象的语言指令分解为一系列可执行的步骤。ViLa 最让人惊喜的是它展现出对物理世界中常识的理解,而这是很多之前基于大语言模型(LLM)的机器人任务规划算法所欠缺的。
比如在下面这个视频中,研究人员让机器人拿出搁板上的漫威模型(钢铁侠)。ViLa 能理解这个场景中物体的复杂空间位置关系,即纸杯和可乐罐挡住了钢铁侠,要拿出钢铁侠,则必须先拿走纸杯和可乐罐。
又比如在下面这个视频中,研究人员让机器人为上美术课的孩子们整理出一个桌面区域。ViLa 能根据这个场景中的剪纸,推断出现在上课所需的工具是剪刀,把其它危险物品,比如螺丝刀和水果刀放入收纳盒中。