文章链接: https://arxiv.org/abs/2308.07241
2023年,大型语言模型(LLMs)以及AI Agents的蓬勃发展为整个机器智能领域带来了全新的发展机遇。一直以来,研究者们对具身智能(Embodied Artificial Intelligence)的要求就是通过创建软硬件结合的智能体(例如不同形态的机器人),使其在各种真实物理环境中来执行各种各样的复杂任务,完成人工智能的进化过程。依靠LLMs强大的语言理解和推理能力,可以极大的提升具身智能机器人的工作效率。
本文介绍一篇被计算机视觉顶会ICCV 2023录用的论文,针对现有机器人在环境导航以及与环境目标交互时经常犯错的问题,提出了一种上下文感知规划和环境感知记忆(Context-Aware Planning and Environment-Aware Memory)的具身智能框架CAPEAM,CAPEAM通过设计一系列的代理来将语义上下文(语言指令、交互的对象信息等)纳入机器人的规划序列中,同时考虑交互物体的空间布局和状态变化(例如,物体已移动到的位置),以推断后续行动。基于这样的设计,CAPEAM的代理程序可以在标准的机器人交互指令基准上达到SOTA性能。
01. 介绍
具身智能机器人在工业制造、快递物流、智能家居、高危环境救援等多种场景中都具有良好的应用前景,为了进一步提高工作效率,研究者们开始思考能否制造一种可以精确理解人类语言指令,同时具有自我路径规划和动作执行能力的具身智能机器人呢。为了完成用户指定的各种特定任务,机器人代理首先需要对任务指令进行拆分,并规划出完整的行动序列,其中涉及到与任务特定的相关对象进行交互。然而难点在于,简单的代理程序可能会规划出一些错误行动,例如与任务无关的对象进行交互。例如,如果用户指定任务“把苹果切片放在桌子上”&#