ICCV 2023 | CAPEAM：基于上下文感知规划和环境感知记忆机制构建具身智能体

本文链接：https://blog.csdn.net/hanseywho/article/details/133385013

文章链接： https://arxiv.org/abs/2308.07241

2023年，大型语言模型（LLMs）以及AI Agents的蓬勃发展为整个机器智能领域带来了全新的发展机遇。一直以来，研究者们对具身智能（Embodied Artificial Intelligence）的要求就是通过创建软硬件结合的智能体（例如不同形态的机器人），使其在各种真实物理环境中来执行各种各样的复杂任务，完成人工智能的进化过程。依靠LLMs强大的语言理解和推理能力，可以极大的提升具身智能机器人的工作效率。

本文介绍一篇被计算机视觉顶会ICCV 2023录用的论文，针对现有机器人在环境导航以及与环境目标交互时经常犯错的问题，提出了一种上下文感知规划和环境感知记忆（Context-Aware Planning and Environment-Aware Memory）的具身智能框架CAPEAM，CAPEAM通过设计一系列的代理来将语义上下文（语言指令、交互的对象信息等）纳入机器人的规划序列中，同时考虑交互物体的空间布局和状态变化（例如，物体已移动到的位置），以推断后续行动。基于这样的设计，CAPEAM的代理程序可以在标准的机器人交互指令基准上达到SOTA性能。

01. 介绍

具身智能机器人在工业制造、快递物流、智能家居、高危环境救援等多种场景中都具有良好的应用前景，为了进一步提高工作效率，研究者们开始思考能否制造一种可以精确理解人类语言指令，同时具有自我路径规划和动作执行能力的具身智能机器人呢。为了完成用户指定的各种特定任务，机器人代理首先需要对任务指令进行拆分，并规划出完整的行动序列，其中涉及到与任务特定的相关对象进行交互。然而难点在于，简单的代理程序可能会规划出一些错误行动，例如与任务无关的对象进行交互。例如，如果用户指定任务“把苹果切片放在桌子上”&#