Abstract
从演示中学习,提出从数据中学习机器人行为模型的领域随着深度生成模型的出现越来越受欢迎。尽管这个问题已经在模仿学习、行为克隆或逆强化学习等名称下进行了研究,但经典方法依赖于不能很好地捕捉复杂数据分布或不能很好地扩展到大量演示的模型。近年来,机器人学习社区对使用深度生成模型来捕获大型数据集的复杂性越来越感兴趣。在本次调查中,我们旨在对去年在机器人中使用深度生成模型的进展进行统一和全面的回顾。我们提出了社区探索的不同类型的模型,例如基于能量的模型、扩散模型、动作值图或生成对抗网络 energybased models, diffusion models, action value maps, or generative adversarial networks。我们还展示了使用深度生成模型的不同类型的应用程序,从抓取生成到轨迹生成或成本学习 grasp generation to trajectory generation or cost learning。生成模型最重要的元素之一是分布之外的泛化。在我们的调查中,我们回顾了社区为提高学习模型泛化所做的不同决策。最后,我们强调了研究的挑战,并提出了学习机器人深度生成模型的一些未来方向
I. INTRODUCTION
Learning from Demonstration (LfD)
也称为模仿学习[3]、[4],是一个通过观察和模仿一组专家演示来学习所需机器人行为的领域。基于对场景的观察和要解决的期望任务,该模型(通常称为policy)经过训练,可以生成模拟专家演示中行为的动作。根据任务的不同,这些动作可能代表理想的末端执行器姿势[5]、[6]、机器人轨迹[7]、[8]或理想的场景布置[9]、[10],仅举几例。LfD包括几种解决这个问题的方法。行为克隆(BC)方法[1]将条件生成模型与基于观察的行为相匹配。尽管它在顺序决策问题上存在缺点(例如,复合误差导致协变量移位[11]),但在实践中,它显示出了一些最令人印象深刻的结果[6]、[12]、[7]、[13],部分原因是其稳定高效的训练算法。
或者,反向强化学习(irl)[14]、[15]、[16]或[17]、[18]、[19]等变体将演示与环境中的试错相结合(即强化学习(rl)),从而产生比bc更稳健的policies,但受到不太稳定的训练算法的限制。与直接模仿演示行为的bc不同,irl侧重于推断演示行为旨在优化的潜在奖励函数,并应用rl来推断policy。irl的一个关键优势是它能够从纯粹的观察中学习[20],[21],而不需要关于演示期间采取的行动的明确信息。
在LfD中,演示的固有特性带来了重大挑战。通常,收集的数据是次优的、有噪声的、以高维观测为条件的,并且包括多种行为模式[22]、[23]、[24]。这种多样性可以从掌握给定对象的多种方式、专家在提供演示时的偏好或专家之间的分歧中观察到。数据的这些固有特性使研究人员能够找到能够正确捕捉其分布的模型。
传统上,在深度学习成为标准之前,LfD方法通常使用高斯过程(GP)[25]、[26]、隐马尔可夫模型(HMM)[27]、[28]或高斯混合模型(GMM)[29]来表示生成模型。然而,这些模型无法扩展到大型数据集,也无法表示图像等高维环境中的条件分布。基于神经网络的模型允许对图像[30]、[31]或文本[32]、[33]等高维变量进行调节,但它们通常被训练为单峰模型。这些类型的模型与收集到的演示的性质不一致。这些模型无法捕捉数据中固有的多样性和多种模式,导致研究人员将自己限制在较小的[34]或高度策划的数据集中,以确保单一模式,从而简化建模过程。
深度生成模型(dgm)在图像[35]和文本生成[36]中的最新成功证明了它们捕获高度多模态数据分布的能力。近年来,这些富有表现力的模型在模仿学习应用的机器人领域引起了人们的关注(见图2)。例如,扩散模型(dm)[37]、[35]已被有效地用于学习高维轨迹分布[38]、[7]、[8];基于语言和图像的policies是使用gpt风格的模型开发的,该模型表示动作空间中的分类分布[39];应用变分自编码器(vae)[40]为任意物体生成6-dof抓取姿势[5]。本文对机器人界探索的各种方法进行了统一而全面的回顾,这些方法通过演示来学习dgm,以捕获数据的固有多模态。虽然其中一些模型借鉴了机器学习的其他领域,如dm,但我们也强调了在表示机器人中的动作分布方面特别有影响力的方法,如动作值图[41],[42],[43]。
调查主要侧重于考虑离线数据的方法,即不在线或交互式收集额外数据,以及离线监督,即除专家行动外不进行额外监督。尽管从离线数据集学习dgm在从视觉到文本生成的各个领域得到了广泛的研究,但机器人技术中存在固有的挑战,需要谨慎的设计选择。为了激励机器人应用的具体设计选择,在第i-a节中,我们介绍了从机器人演示中学习policies的基本挑战。
我们将调查分为六个部分(见图1):在第二部分中,我们将问题形式化,并提供我们将在整个调查中使用的术语。在第三节中,我们介绍了机器人学中最常用的dgm,介绍了它们的固有特性,简要列出了将这些方法应用于机器人学的各种工作,并介绍了每个模型的训练和采样算法。在第四节中,我们介绍了应用深度生成模型的不同类型的应用,突出了模型生成的数据类型和考虑的条件变量类型。在第五节中,我们提出了一系列设计和算法归纳偏差,以提高学习模型数据分布的泛化能力。我们如何保证产生作为背景观察而不是在演示中给出的有用行动?我们提出的选项包括生成模型的模块化组合、从观测中提取信息特征以及利用观测和动作之间的对称性。最后,在第六节中,我们强调了该领域当前的研究挑战,并提出了未来的研究方向
A. Challenges in Learning from Offline Demonstrations
离线演示中的学习机器人policies带来了几个挑战。虽然其中许多挑战(例如演示中的多种模式)与其他研究领域(如图像生成或文本生成)共享,但我们应该考虑机器人特有的挑战。下面,我们介绍了从离线数据中学习机器人policies的主要挑战。
Demonstration Diversity
主要挑战之一是演示本身固有的可变性。不同的演示者可能有不同的技能水平、偏好和完成同一任务的策略,从而导致数据集中包含了各种各样的方法。单峰分布 Unimodal distributions 缺乏在演示中捕捉这种可变性的表现力,导致性能不佳。DGM是应对这一挑战的一种有前景的方法。能够捕捉复杂的多峰分布,这些模型可以学习表示演示中展示的不同策略和行为。
Heterogeneous Action and State Spaces.异构动作和状态空间
与数据空间定义良好的计算机视觉不同,在机器人技术中,没有单一的状态动作空间。机器人动作的范围可以从扭矩命令到所需的目标位置或所需的轨迹。此外,机器人行为可以在机器人的配置空间和任务空间中建模。这种可变性导致学习机器人policies的异构数据集和异构解决方案。
Partially Observable Demonstrations.
当一个人进行演示时,他的行为不仅仅基于可观察的元素;它们是由受演示者对任务的了解和观察历史影响的内部状态驱动的。此外,人类可以整合来自环境的信息,这些信息可能不容易被机器人的传感器获取或观察到,例如人类视觉捕捉到但被机器人的摄像头错过的外围细节。这种不匹配通常会导致演示仅部分代表任务的上下文,从而导致机器人学习的policies存在歧义。部分可观测性问题在文献中得到了广泛的研究[44]。一种常见的实用方法是将观测历史编码为上下文,而不是单个观测,使模型能够提取内部状态,从而减少歧义[45]。
Temporal Dependencies and Long-Horizon Planning.
机器人任务通常涉及顺序决策,其中行动随着时间的推移是相互关联的。这种顺序性可能会导致复合错误,导致机器人陷入训练演示中没有遇到的情况。这个问题已经通过多种方式得到了解决。一些作品建议学习短期技能,然后与高级planner联系起来。在另一个方向上,许多研究[38]、[13]提出学习policies,生成动作轨迹而不是单步动作,从而减少顺序复合误差。此外,其他选择是在生成演示时注入噪声[46]或交互式地扩展数据集[11]。
Mismatch between training and evaluation objectives.
从离线演示中学习通常被视为密度估计问题。学习模型经过训练,生成与训练数据集相似的样本。然而,学习到的模型用于解决给定的任务,其中要最大化的指标是任务成功率。当机器人用于解决特定任务时,训练目标和评估目标之间的这种不匹配可能会导致性能不佳。解决这一问题的一个可能方向是将行为克隆阶段与后验强化学习微调相结合[47]。
Distribution Shifts and Generalization
从离线演示中学习的一个基本挑战是演示数据和部署学习的policies的真实场景之间的分布变化。演示通常在受控环境或特定环境中收集,但机器人必须在演示未涵盖的潜在新情况下运行。当学习到的policies在训练数据范围之外应用时,这种不匹配可能会导致泛化失败和性能下降。应对这一挑战需要能够从给定的演示中推断并适应新的、看不见的环境的技术。我们将第五节专门探讨提高机器人应用泛化能力的不同方法。
B. Related Surveys
LfD领域有着悠久的历史,已经在几次调查中进行了探索。
在基于深度学习的方法成为标准之前,有几项调查[50]、[51]、[52]、[53]探讨了模仿学习的基本问题。这些调查解决了诸如我们应该如何获取数据等问题?,我们应该学习什么模型?,或者我们应该如何学习policy?。
最近的研究[54]、[3]、[55]将评论更新到了最新的技术水平,基于深度学习的模型开始被整合到LfD问题中。特别是,[3]提出了模仿学习的算法视角,允许从信息论的角度比较不同的算法。
机器人学习社区的现阶段,随着模拟和现实世界中大规模机器人演示的可用性越来越高,基于模仿的方法越来越重要,廉价机器人硬件的可用性也越来越高。因此,及时提供一份涵盖过去几年研究的调查,并重点关注该领域目前面临的挑战(多模态、泛化、异构数据集……),是时候了。
最近,一些调查[56]、[57]探讨了学习机器人基础模型的问题,主要集中在将互联网规模的视觉和语言基础模型集成到机器人问题中。尽管视觉语言基础模型有应用于机器人问题的潜力,但我们的调查侧重于另一个问题。这项调查的兴趣在于探索直接从机器人数据中学习policies的方法(部分原因是大型数据集的可用性越来越高[24],[58]),而不是将视觉语言模型应用于机器人。
II. PROBLEM FORMULATION
BC的主要目标是学习一个条件概率密度模型(生成模型),它准确地捕捉数据的潜在概率分布,表示为
,其中a是我们想要生成的数据变量,c是条件变量。中心思想是确保模型生成的样本
与实际数据样本
无法区分。
在决策和控制的背景下,a表示动作,范围从末端执行器姿势[59]、位移[60]、轨迹[38]、所需的场景排列[61]到机器人配置[62]。条件变量通常在场景的观测值o和目标定义g之间解耦。观察可能包括视觉数据[63]、3D空间数据[64]或机器人本体感觉,提供有关环境状态的信息。根据任务的不同,提供最后t次观测的历史记录而不是单步观测也很常见。目标变量g定义了机器人应该完成的期望行为或任务。该目标可以通过多种方式指定,包括语言命令[65]、期望的目标状态[66]或目标图像[67];每个都提供了一种不同的方法来指导机器人的动作以实现特定的结果。
为了学习模型,我们假设真实的数据分布
是未知的,并且我们只能访问从该分布中提取的有限样本集。这些样本形成一个数据集
,其中N是样本数。然后将学习生成模型的任务表示为一个优化问题,其目标是使学习到的分布
与真实数据分布
之间的差异最小化
其中D是发散距离the divergence distance.尽管(1)中有一般表示,但训练算法会根据所选模型(高斯基于能量的模型(EBM)[68],[69],DM[70],