🌍 引言
在当今复杂的环境中,机器人逐渐成为我们生活的得力助手。然而,随着它们在建筑物、仓库和户外等多种场景中的广泛应用,如何有效地导航并理解这些环境成为了一项巨大的挑战。想象一下,一个机器人在行走时,突然被问到:“你在哪里见过我的手机?”或者“那件事情发生在什么时候?”这要求机器人不仅能回忆起它看到的所有物体,还要能够在长时间的历史中进行推理。为了解决这一问题,我们提出了一种新系统:Retrieval-augmented Memory for Embodied Robots(ReMEmbR),旨在为机器人导航提供长时间跨度的视频问答能力。
📚 相关工作
在机器人领域,现有的时空视频记忆方法通常只能处理短时间段的信息,通常限制在1到2分钟内。而我们的方法,ReMEmbR,通过引入检索增强的长时记忆,能够有效处理更长的历史数据。我们的系统设计分为两个主要阶段:记忆构建和查询阶段。这种结构化的方法使我们能够利用时间和空间信息,从而高效地处理不断增长的机器人历史。
🧐 问题表述
我们将问题表述为长时间视频问答任务。机器人在多个传感器的帮助下,持续积累历史信息。我