一、研究背景
这篇论文的背景主要集中在具身指令跟随(Embodied Instruction Following, EIF)领域,这是人工智能领域一个重要的研究方向,涉及到让AI代理在三维环境中根据自然语言指令执行任务。这类任务通常要求AI代理解析语言指令,并执行一系列的动作,如导航至特定位置、与对象交互等。这些任务对于实现高级机器人功能,如家庭助手、自动导购等应用场景有重要意义。
然而,在实际应用中,虽然端到端的Transformer模型在训练环境中显示出良好的执行效果,但在未见过的新环境中,它们的表现通常会大幅下降。这一问题的根源在于现有模型在处理自然语言指令时缺乏泛化能力,即使在提供了明确指令的情况下,也往往不能正确执行任务。这主要是因为这些模型倾向于记住训练环境中的视觉观察,而不是学习如何根据指令动态调整其行为。
二、当前难点
- 环境泛化能力不足:
-
指令依赖性低:现有的模型在测试时如果环境与训练时相同,即使不提供语言指令,也能达到较高的成功率。这说明模型主要是通过记忆训练环境中的视觉观察来预测动作序列,而非真正学习如何跟随指令。
-
新环境表现差:当模型部署到未见过的环境中时,即便提供了指令,其性能也会显著下降。这表明模型对训练环境的视觉特征过度拟合,缺乏必要的泛化能力。
- 语义对齐问题:
-
指令与动作的语义差距:自然语言指令通常描述的是较高层次的目标,而AI代理的动作空间则是具体的、低层次的,如左转、前进等。这种高层次指令与低层次动作之间的语义鸿沟,使得从指令中直接生成动作序列变得困难。
-
状态表示与指令的对齐:即便是使用了高级的Transformer模型,AI代理的内部状态表示与语言指令之间仍然存在对齐问题。这种对齐不足导致代理不能准确理解和执行给定的指令。
- 动作序列的预测:
- 动作预测的复杂性:在EIF任务中,代理必须根据指令连续执行多个子任务,这需要代理能够理解并预测一系列复杂的动作序列。然而,现有的模型往往难以有效处理长序列的动作预测,特别是在环境复杂或指令模糊的情况下。
- 训练数据的依赖:
- 训练数据的局限性:大多数现有的EIF模型都依赖于大量的、特定环境下收集的训练数据。这种数据的局限性直接影响了模型的泛化能力,使得模型在面对新环境或新任务时性能不佳。
三、技术方案
这篇论文提出的技术路线是通过语言对齐对比学习与元动作(LACMA)来增强具身指令跟随(EIF)的效果。下面是详细介绍这篇论文中提出的方法和技术路线:
- 对比学习的语言对齐
这一部分的核心是通过对比学习增强AI代理的状态表示与给定指令之间的对齐。具体来说,方法包括以下几个关键点:
-
状态表示与指令表示:利用Transformer模型处理输入的语言指令、视觉观察和先前的动作,以生成代表当前环境状态的向量表示。
-
对比目标:在训练中,构建正样本对(正确指令与相应的状态表示)和负样本对(相同任务中其他不相关指令或不同任务的指令与状态表示),通过对比损失函数优化模型,使得正样本对的表示更接近,负样本对的表示更远离。
- 元动作的定义和应用
元动作(Meta-Actions)是解决语义差距的关键,具体实施步骤包括:
-
元动作的定义:预定义一系列的元动作,每种元动作代表一组具体的动作序列模式,这些模式具有较高的语义层级,更接近自然语言的描述。
-
从动作序列到元动作的解析:使用动态规划算法,根据最小描述长度原理解析出最优的元动作序列。这个过程涉及将低层次的动作序列转换成更高层次、更简洁的元动作序列,从而降低模型的复杂度和提高泛化能力。
- 训练策略
为了有效地整合对比学习和元动作,采用了以下训练策略:
-
预训练和微调:首先,在预训练阶段使用动态规划标注的元动作序列进行模型训练,结合对比学习目标来优化状态与指令的对齐;其次,在微调阶段使用真实的低层次动作(ground-truth actions)作为监督,进一步优化模型,确保在实际环境中的有效性。
-
损失函数:在训练过程中,结合分类损失(针对元动作的识别)和对比损失(针对状态与指令的对齐),通过这种多任务学习方式,同时优化元动作的预测和状态-指令的对齐。
这种结合了对比学习和元动作的方法,不仅改进了状态与指令的语义对齐,而且通过元动作简化了动作序列的处理,有效地提高了模型在未知环境中执行复杂指令的能力。这一方法的创新点在于通过显式地对语言指令和动作执行之间的语义桥梁进行建模,从而解决了EIF中的关键挑战。
四、实验结果
参考文献
[1] Yang C F, Chen Y C, Yang J, et al. Lacma: Language-aligning contrastive learning with meta-actions for embodied instruction following[J]. arxiv preprint arxiv:2310.12344, 2023.