【论文阅读】Deep Generative Models in Robotics:A Survey on Learning from MultimodalDemonstrations

Abstract

从演示中学习,提出从数据中学习机器人行为模型的领域随着深度生成模型的出现越来越受欢迎。尽管这个问题已经在模仿学习、行为克隆或逆强化学习等名称下进行了研究,但经典方法依赖于不能很好地捕捉复杂数据分布或不能很好地扩展到大量演示的模型。近年来,机器人学习社区对使用深度生成模型来捕获大型数据集的复杂性越来越感兴趣。在本次调查中,我们旨在对去年在机器人中使用深度生成模型的进展进行统一和全面的回顾。我们提出了社区探索的不同类型的模型,例如基于能量的模型、扩散模型、动作值图或生成对抗网络 energybased models, diffusion models, action value maps, or generative adversarial networks。我们还展示了使用深度生成模型的不同类型的应用程序,从抓取生成到轨迹生成或成本学习 grasp generation to trajectory generation or cost learning。生成模型最重要的元素之一是分布之外的泛化。在我们的调查中,我们回顾了社区为提高学习模型泛化所做的不同决策。最后,我们强调了研究的挑战,并提出了学习机器人深度生成模型的一些未来方向

I. INTRODUCTION

Learning from Demonstration (LfD)

也称为模仿学习[3]、[4],是一个通过观察和模仿一组专家演示来学习所需机器人行为的领域。基于对场景的观察和要解决的期望任务,该模型(通常称为policy)经过训练,可以生成模拟专家演示中行为的动作。根据任务的不同,这些动作可能代表理想的末端执行器姿势[5]、[6]、机器人轨迹[7]、[8]或理想的场景布置[9]、[10],仅举几例。LfD包括几种解决这个问题的方法。行为克隆(BC)方法[1]将条件生成模型与基于观察的行为相匹配。尽管它在顺序决策问题上存在缺点(例如,复合误差导致协变量移位[11]),但在实践中,它显示出了一些最令人印象深刻的结果[6]、[12]、[7]、[13],部分原因是其稳定高效的训练算法。

或者,反向强化学习(irl)[14]、[15]、[16]或[17]、[18]、[19]等变体将演示与环境中的试错相结合(即强化学习(rl)),从而产生比bc更稳健的policies,但受到不太稳定的训练算法的限制。与直接模仿演示行为的bc不同,irl侧重于推断演示行为旨在优化的潜在奖励函数,并应用rl来推断policy。irl的一个关键优势是它能够从纯粹的观察中学习[20],[21],而不需要关于示威期间采取的行动的明确信息。

在LfD中,演示的固有特性带来了重大挑战。通常,收集的数据是次优的、有噪声的、以高维观测为条件的,并且包括多种行为模式[22]、[23]、[24]。这种多样性可以从掌握给定对象的多种方式、专家在提供演示时的偏好或专家之间的分歧中观察到。数据的这些固有特性使研究人员能够找到能够正确捕捉其分布的模型。

传统上,在深度学习成为标准之前,LfD方法通常使用高斯过程(GP)[25]、[26]、隐马尔可夫模型(HMM)[27]、[28]或高斯混合模型(GMM)[29]来表示生成模型。然而,这些模型无法扩展到大型数据集,也无法表示图像等高维环境中的条件分布。基于神经网络的模型允许对图像[30]、[31]或文本[32]、[33]等高维变量进行调节,但它们通常被训练为单峰模型。这些类型的模型与收集到的演示的性质不一致。这些模型无法捕捉数据中固有的多样性和多种模式,导致研究人员将自己限制在较小的[34]或高度策划的数据集中,以确保单一模式,从而简化建模过程。

深度生成模型(dgm)在图像[35]和文本生成[36]中的最新成功证明了它们捕获高度多模态数据分布的能力。近年来,这些富有表现力的模型在模仿学习应用的机器人领域引起了人们的关注(见图2)。例如,扩散模型(dm)[37]、[35]已被有效地用于学习高维轨迹分布[38]、[7]、[8];基于语言和图像的policies是使用gpt风格的模型开发的,该模型表示动作空间中的分类分布[39];应用变分自编码器(vae)[40]为任意物体生成6-dof抓取姿势[5]。本文对机器人界探索的各种方法进行了统一而全面的回顾,这些方法通过演示来学习dgm,以捕获数据的固有多模态。虽然其中一些模型借鉴了机器学习的其他领域,如dm,但我们也强调了在表示机器人中的动作分布方面特别有影响力的方法,如动作值图[41],[42],[43]。

调查主要侧重于考虑离线数据的方法,即不在线或交互式收集额外数据,以及离线监督,即除专家行动外不进行额外监督。尽管从离线数据集学习dgm在从视觉到文本生成的各个领域得到了广泛的研究,但机器人技术中存在固有的挑战,需要谨慎的设计选择。为了激励机器人应用的具体设计选择,在第i-a节中,我们介绍了从机器人演示中学习policies的基本挑战。

我们将调查分为六个部分(见图1):在第二部分中,我们将问题形式化,并提供我们将在整个调查中使用的术语。在第三节中,我们介绍了机器人学中最常用的dgm,介绍了它们的固有特性,简要列出了将这些方法应用于机器人学的各种工作,并介绍了每个模型的训练和采样算法。在第四节中,我们介绍了应用深度生成模型的不同类型的应用程序,突出了模型生成的数据类型和考虑的条件变量类型。在第五节中,我们提出了一系列设计和算法归纳偏差,以提高学习模型数据分布的泛化能力。我们如何保证产生作为背景观察而不是在演示中给出的有用行动?我们提出的选项包括生成模型的模块化组合、从观测中提取信息特征以及利用观测和动作之间的对称性。最后,在第六节中,我们强调了该领域当前的研究挑战,并提出了未来的研究方向

A. Challenges in Learning from Offline Demonstrations

离线演示中的学习机器人policies带来了几个挑战。虽然其中许多挑战(例如演示中的多种模式)与其他研究领域(如图像生成或文本生成)共享,但我们应该考虑机器人特有的挑战。下面,我们介绍了从离线数据中学习机器人policies的主要挑战。

Demonstration Diversity

主要挑战之一是演示本身固有的可变性。不同的演示者可能有不同的技能水平、偏好和完成同一任务的策略,从而导致数据集中包含了各种各样的方法。单峰分布 Unimodal distributions 缺乏在演示中捕捉这种可变性的表现力,导致性能不佳。DGM是应对这一挑战的一种有前景的方法。能够捕捉复杂的多峰分布,这些模型可以学习表示演示中展示的不同策略和行为。

Heterogeneous Action and State Spaces.异构动作和状态空间

与数据空间定义良好的计算机视觉不同,在机器人技术中,没有单一的状态动作空间。机器人动作的范围可以从扭矩命令到所需的目标位置或所需的轨迹。此外,机器人行为可以在机器人的配置空间和任务空间中建模。这种可变性导致学习机器人policies的异构数据集和异构解决方案。

Partially Observable Demonstrations.

当一个人进行演示时,他的行为不仅仅基于可观察的元素;它们是由受演示者对任务的了解和观察历史影响的内部状态驱动的。此外,人类可以整合来自环境的信息,这些信息可能不容易被机器人的传感器获取或观察到,例如人类视觉捕捉到但被机器人的摄像头错过的外围细节。这种不匹配通常会导致演示仅部分代表任务的上下文,从而导致机器人学习的policies存在歧义。部分可观测性问题在文献中得到了广泛的研究[44]。一种常见的实用方法是将观测历史编码为上下文,而不是单个观测,使模型能够提取内部状态,从而减少歧义[45]。

Temporal Dependencies and Long-Horizon Planning.

机器人任务通常涉及顺序决策,其中行动随着时间的推移是相互关联的。这种顺序性可能会导致复合错误,导致机器人陷入训练演示中没有遇到的情况。这个问题已经通过多种方式得到了解决。一些作品建议学习短期技能,然后与高级planner联系起来。在另一个方向上,许多研究[38]、[13]提出学习policies,生成动作轨迹而不是单步动作,从而减少顺序复合误差。此外,其他选择是在生成演示时注入噪声[46]或交互式地扩展数据集[11]。 

Mismatch between training and evaluation objectives.

从离线演示中学习通常被视为密度估计问题。学习模型经过训练,生成与训练数据集相似的样本。然而,学习到的模型用于解决给定的任务,其中要最大化的指标是任务成功率。当机器人用于解决特定任务时,训练目标和评估目标之间的这种不匹配可能会导致性能不佳。解决这一问题的一个可能方向是将行为克隆阶段与后验强化学习微调相结合[47]。

Distribution Shifts and Generalization

从离线演示中学习的一个基本挑战是演示数据和部署学习的policies的真实场景之间的分布变化。演示通常在受控环境或特定环境中收集,但机器人必须在演示未涵盖的潜在新情况下运行。当学习到的policies在训练数据范围之外应用时,这种不匹配可能会导致泛化失败和性能下降。应对这一挑战需要能够从给定的演示中推断并适应新的、看不见的环境的技术。我们将第五节专门探讨提高机器人应用泛化能力的不同方法。

B. Related Surveys

LfD领域有着悠久的历史,已经在几次调查中进行了探索。

在基于深度学习的方法成为标准之前,有几项调查[50]、[51]、[52]、[53]探讨了模仿学习的基本问题。这些调查解决了诸如我们应该如何获取数据等问题?,我们应该学习什么模型?,或者我们应该如何学习policy?。

最近的研究[54]、[3]、[55]将评论更新到了最新的技术水平,基于深度学习的模型开始被整合到LfD问题中。特别是,[3]提出了模仿学习的算法视角,允许从信息论的角度比较不同的算法。

机器人学习社区的现阶段,随着模拟和现实世界中大规模机器人演示的可用性越来越高,基于模仿的方法越来越重要,廉价机器人硬件的可用性也越来越高。因此,及时提供一份涵盖过去几年研究的调查,并重点关注该领域目前面临的挑战(多模态、泛化、异构数据集……),是时候了。

最近,一些调查[56]、[57]探讨了学习机器人基础模型的问题,主要集中在将互联网规模的视觉和语言基础模型集成到机器人问题中。尽管视觉语言基础模型有应用于机器人问题的潜力,但我们的调查侧重于另一个问题。这项调查的兴趣在于探索直接从机器人数据中学习policies的方法(部分原因是大型数据集的可用性越来越高[24],[58]),而不是将视觉语言模型应用于机器人。

II. PROBLEM FORMULATION

BC的主要目标是学习一个条件概率密度模型(生成模型),它准确地捕捉数据的潜在概率分布,表示为,其中a是我们想要生成的数据变量,c是条件变量。中心思想是确保模型生成的样本与实际数据样本无法区分。

在决策和控制的背景下,a表示动作,范围从末端执行器姿势[59]、位移[60]、轨迹[38]、所需的场景排列[61]到机器人配置[62]。条件变量通常在场景的观测值o和目标定义g之间解耦。观察可能包括视觉数据[63]、3D空间数据[64]或机器人本体感觉,提供有关环境状态的信息。根据任务的不同,提供最后t次观测的历史记录而不是单步观测也很常见。目标变量g定义了机器人应该完成的期望行为或任务。该目标可以通过多种方式指定,包括语言命令[65]、期望的目标状态[66]或目标图像[67];每个都提供了一种不同的方法来指导机器人的动作以实现特定的结果

为了学习模型,我们假设真实的数据分布是未知的,并且我们只能访问从该分布中提取的有限样本集。这些样本形成一个数据集,其中N是样本数。然后将学习生成模型的任务表示为一个优化问题,其目标是使学习到的分布与真实数据分布之间的差异最小化

其中D是发散距离the divergence distance.尽管(1)中有一般表示,但训练算法会根据所选模型(高斯基于能量的模型(EBM)[68],[69],DM[70],[35])进行修改

III. DENSITY ESTIMATION MODELS

这项调查的核心思想是以统一的方式呈现机器人技术中使用的不同类型的模型,以正确捕捉演示中的多模态。因此,本次调查不包括使用单峰模型来表示policies的工作,而是侧重于能够从多峰分布中生成样本的模型。我们将这些模型分为五组:

Sampling Models抽样模型

给定一个噪声样本,这些模型直接生成动作。它们往往具有非常快的推理时间。VAE、生成对抗网络(GAN)或归一化流 Normalizing Flows(NFlow)都属于这一类

Energy-based Models.

给定一个动作候选作为输入,EBM返回一个标量值,表示该动作候选的能量。从EBM中采样通常需要马尔可夫链蒙特卡洛(MCMC)策略。我们还将能量定义为特征描述符之间距离的模型视为EBM[71]。

Diffusion Models.

DM是一种生成模型,它通过反转一个渐进的破坏过程来学习生成数据。由于迭代去噪过程,这些类型的模型能够生成高质量的样本。

Categorical Models.

给定一个上下文变量,分类模型将动作分布表示为k个区间的离散分布。我们将GPT启发的动作模型[39]和动作值映射[63]归为这一类。请注意,尽管分类分布代表了这两种类型的模型,但动作值映射直接在视觉观察中绘制分类分布。相比之下,在GPT启发的模型中,观察和动作分布在不同的空间中表示。

Mixture Density Models.

给定一个上下文变量,混合密度模型(MDM)返回表示动作分布的混合密度函数的参数。常见的选择是返回GMM或逻辑分布混合物的均值、标准差和权重的模型。

所提出的分类并不严格或明确。例如,归一化流[72]在生成过程中作为一个采样模型运行,但它也有助于以类似于EBM的方式计算样本的可能性。此外,我们在范畴模型内将GPT风格的自回归模型[39],[73]和动作值图[74],[75]进行聚类。虽然这两个模型都通过分类分布来表达分布,但它们在概念上存在分歧。

在下文中,我们将在五个不同的小节中介绍每种模型类型、其固有属性和应用它的问题类型。

A. Sampling Models

我们将采样模型称为允许显式生成样本的深度生成模型集。给定一个上下文变量和一个潜在变量,网络将潜在变量解码为样本。为了从我们的模型生成动作样本,我们首先从易于采样的分布(例如正态分布)中对潜在变量进行采样,并将其解码为动作(见图3)。

图3:左:采样模型的可视化表示。给定一个潜在样本z,通常从正态分布中采样,采样模型通过学习解码器生成一个动作样本。右:采样模型的常见应用表示:作为采样分布[48],作为行为先验[49]和作为生成模型[5]。

有几种生成模型属于这一类:GAN[76]、VAE[40]或NFlow[72]。 

1) Main applications:

在机器人技术领域,这些类型的模型已被用于多种环境和应用中(见图3)。

As an Initial Sampling Distribution.

由于其快速的采样时间,它们已被用作运动规划和优化问题的初始采样分布[48],[77],[78],[79],[80]。在[48]中,条件VAE用于对基于采样的运动规划问题[81]、[82]的初始无碰撞引导状态进行采样。在[78]中,GAN被用来为长时间任务和运动规划问题生成初始状态。GAN的输出后来被优化以满足一组约束。

As Exploration Guiding Models.

rl中的一个常见问题是探索。考虑到大的状态动作空间,决定哪些区域是有意义的探索通常是一个难题。为了指导这一探索,几项工作[49]、[83]、[84]、[85]探索了学习一个采样模型,该模型对数据集中所有可能的行为进行编码。通过在潜在空间中运行policy,该模型可以集成到rl问题中。鉴于该模型将从数据集中生成解决方案,policy学会在潜在空间中搜索,以最大化给定的奖励。

As Explicit Sampling Models.

最直接的应用是将模型用作生成模型。在此背景下,采样模型已被用于生成抓取姿势[5]、[86]、逆运动学解[62]、[66],或直接对policy[87]、[88]中的动作进行采样。

2) Training Sampling Model:

GAN、VAE和NFlow共享相同的采样过程。然而,每个模型都使用不同的算法进行训练。接下来,我们将简要介绍三种模型的训练流程。

Variational Autoencoders.

[40]中介绍的VAE模型由两个网络组成:编码器和解码器。给定动作a,编码器将其映射到潜在正态分布的参数。给定来自潜在空间的样本,解码器将潜在变量映射到动作空间,条件是上下文变量c。

训练损失由两部分组成:重建损失和KL散度。给定数据集,VAE损失由下式给出

其中是高斯函数,其参数是编码器输出。是零附近的高斯函数。虽然KL散度项鼓励编码器生成接近的分布,但重建损失旨在解码潜在样本,使其看起来尽可能与输入a相似。

Generative Adversarial Networks

与VAE不同,GAN[76]建议使用鉴别器而不是编码器。给定模型生成的样本,鉴别器被训练来区分我们模型生成的样本和来自数据集的样本,而生成器被训练来使生成的样本尽可能与数据集相似。给定数据集,GAN目标由二进制交叉熵损失表示

然后,优化问题通过最小化-最大化问题来解决,其中我们的目标是相对于ψ(鉴别器)最小化目标,并相对于θ(生成器)最大化目标。鉴别器旨在区分真实数据样本和生成器生成的假样本,而生成器旨在向鉴别器生成与真实数据无法区分的样本。

Normalizing Flows

NFlow中的生成器Dθ不同于VAE或GAN中的生成器。在GAN或VAE中,它由任意网络表示,而在NFlow中,我们需要一个可逆网络[72]、[89]、[90]作为生成器。

由于生成器Dθ是可逆的,NFlow允许精确计算似然性[72]

其中是潜在空间正态分布,是解码器的雅可比矩阵。

然后,给定数据集,NFlow,通过最小化负对数似然来训练

请注意,与VAE和GAN不同,NFlow不需要训练额外的模型。此外,由于生成器是可逆的,我们可以计算模型中样本的可能性,类似于EBM。

B. Energy-Based Models.

我们称EBM为一组深度生成模型,给定一个动作a,输出标量值,其中c表示条件上下文变量(图4)。在EBM中,概率密度模型由玻尔兹曼分布表示

其中是分布的能量,即非规范化对数似然

由于模型的隐式性质,从EBM中采样不是直接的。EBM通过能量函数定义数据上的概率分布,采样需要像MCMC这样的方法来近似分布。一种常见的采样算法是Langevin Monte Carlo。给定从简单先验分布生成的初始样本,通过迭代更新样本来生成样本

其中是一个小常数。这个过程可能是计算密集型的,并且比VAE或GAN等模型中使用的直接采样方法慢。或者,鉴于EBM的隐含性质,一些工作[93]、[94]通过解决优化问题来搜索最可能的样本

由于其隐含性,EBM包含了几个有趣的特性。如[95]、[93]、[96]所述,EBM允许不同EBM的模块化组合。这种模块化方法允许训练单独的EBM来表示数据的不同行为或方面,然后可以组合这些模型。结果是一个复合模型,其中变量a在所有组件模型下都有很高的概率,有效地整合了每个单独的EBM捕获的不同特征或模式。

C. Diffusion Models

DM[109]、[35]将数据生成过程构建为迭代去噪过程。给定先验采样分布,通常是高斯分布,迭代去噪过程将噪声样本从先验分布移动到数据分布

其中等价于数据分布。去噪过程是正向扩散过程的逆过程,该过程逐渐向数据集样本中添加噪声

在实践中,DM与EBM密切相关,其中去噪预测估计能量函数的梯度场[110],[111],[112]。给定一个动作a作为输入,输出一个向量s,,其中c表示上下文变量,k是一个通知扩散步骤的标量值,扩散过程的每一步都可以被视为使用EBM进行朗之万动力学采样的一步。由于迭代采样过程,DM的推理时间比其他DGM慢。最近的研究,如一致性策略[113],探索了如何使DM采样更快。

傻逼csdn不自动保存中间的全丢了

IV. INTEGRATING GENERATIVE MODELS INTO ROBOTICS

V. GENERALIZING OUTSIDE DATA DISTRIBUTIONS

B. Extracting the informative features from the perception

鉴于视觉观察c中的大量信息,为了正确解决机器人任务,我们可能需要应用某种形式的表示学习来专注于有意义的特征来解决任务。例如,由于训练数据有限,端到端视觉运动器policies可能会错误地将动作与任务无关的视觉因素相关联,导致在新情况下泛化能力较差[147],[176]。相比之下,通过适当的表示学习方法,机器人可能会学习有意义的特征,以便在演示之外进行泛化。考虑一个经过语言训练的policy,其演示包含特定的文本命令,如“打开抽屉”。至关重要的是,这些模型能够泛化到语义相似但词汇不同的命令,例如“拉出抽屉”,而无需对这些命令进行直接训练,这代表了泛化方面的重大进步。另一个例子可能是图像调节的policy。给定一个学习模型,机器人应该能够将其行为推广到可能出现干扰物或物体位于新位置的场景中

学习编码器z“Epcq可以促进这种泛化,该编码器能够产生捕获相关特征的潜在表示z,以解决机器人任务。与视觉背景相关,一种常见的方法是从图像中提取某种形式的以对象为中心的特征,通常与对象的位置相关。一种经典的方法是预先训练一个姿势估计模型,该模型将视觉输入转换为感兴趣对象的位置P R3和方向R P SOp3q[177],[178],[179]。然而,正如[180]中指出的那样,在类别内形状变化较大的情况下,类别级的姿势估计可能是模糊的。例如,知道咖啡杯的姿势可能会不足以将其成功挂在架子上,因为不同的咖啡杯可能有不同的把手形状或把手位置。或者,一组作品提出从图像中提取一组关键点[30]、[180]、[181]、[182]、[183]、[184]、[176]。例如,在[180]中,3D关键点检测网络将RGB-D图像转换为一组3D关键点P“tpiuN i”1 P RNˆ3,其中N是关键点的数量。与仅提取姿势相反,几个关键点可以告知感兴趣对象的形状。

一种更通用的方法是通过边界框提取一组裁剪后的图像[185]、[186]、[147]。给定rgb图像作为输入,编码器输出一组由边界框位置(构建边界框的像素位置)表示的感兴趣区域(roi)和由给定像素位置表示的裁剪图像。[185]、[186]考虑了一种类别级训练来提取边界框,而在[147]中,使用了一种通用的预训练区域建议网络(rpn)[187]来提取裁剪图像。然后,transformed policy将注意力集中在与任务相关的裁剪图像上。

获得裁剪图像的另一种方法是通过分割掩模 segmentation masks [188]、[189]、[190]。例如,在[188]中,Slot Attention[191]被应用于无监督地提取场景中对象的不同分割掩模。在[189]中,建议在需要注意的重要对象上提供演示和涂鸦。然后,交互式分割模型[192]生成所需对象的分割掩码。最近的一项研究探索了使用图像中的语言条件语义特征[107],[193],[131],[194]。给定一个语言命令,该模型会突出语义上最一致的特征,使机器人的行为主要集中在这些特征上。语言和视觉输入之间的这种关系通常是通过计算CLIP特征之间的余弦距离来获得的[108]。这种方法与机器人技术特别相关,因为它可以有效地利用预先训练好的视觉语言模型。在另一个方向上,一些研究探索了如何将触觉信息整合到机器人操纵中。一种常见的策略是从触觉重建3D形状[195],[196],[197],[198],[199],[200]。在[195]中,通过对对象进行多次触摸来更新由体素网格表示的基于视觉的预测3D形状。触觉信息与传感器的位置相结合被转换为占用的体素信息,以将其固定在3D空间中。在[196]中,在操纵对象的同时,将对象的形状重建为神经SDF。考虑到物体的方向和姿态发生了变化,这项工作将姿态估计与形状重建目标相结合。在[200]中,触觉信号被表示为3D点云。给定二进制传感器,如果传感器与物体接触,作者将信号转换为3D点云。

C. Exploiting Symmetries between Perception and Action

多个机器人任务具有内在的对称性。例如,考虑一个俯视图选择问题。演示摘苹果所需的抓握姿势;如果苹果移动了10厘米,想要的抓握姿势也应该移动10厘米。因此,构建利用这种对称性的policies将产生重要的泛化。在共享空间中表示感知和行动在这个方向上显示了重要的结果[201],[42]。鉴于两者(行动和观察)都在同一空间中表示,生成模型利用了空间结构,并允许构建包含空间对称性的架构,例如平移等方差[41],[63]。

一种常见的policy架构将动作嵌入到感知中,被称为动作值图[41],[43]或功能图[42],[131](见图6)。考虑一下俯视图选择问题。给定对要摘的苹果的视觉观察o,动作值图将学习在苹果周围的像素上放置高概率(给定动作基于像素空间),并在空间的其余部分放置低概率。然后,在推理时间内,即使苹果被平移了,动作分布也会类似地平移到苹果所在的区域。如图11所示。

这种模型类型在顶视图操作任务上特别成功。Affordance模型的首批应用之一是在binpicking问题中生成抓取姿势[42]。给定图像作为输入,模型在像素空间中输出一个值图,表示通过抽吸拾取对象的所有2D位置的质量。为了考虑平行夹具的方向,[42]将观察图像旋转16个不同的角度,并生成16个值图,每个旋转图像一个值图。每个旋转的值图都被用作抓取的可能方向候选。[201]生成了一个附加值图,通知每个像素的最佳方向。在[202]、[63]、[131]中,负担模型 Affordance models 被扩展到拾取和放置问题。 

在[202]中,通过匹配模块推断可能的拾取对象和可能的放置位置之间的对应关系,从而得出拾取和放置动作之间的相关性。在[63]中,放置值图以沿着所选拾取像素的裁剪图像为条件。在[131]中,Transporter Networks[63]被扩展到考虑语言目标g以及视觉观察Qθpo,gq。在[203]中,传输者网络扩展了Equivariant网络。这不仅导致了翻译的等价性,还导致了旋转的等价性。

这种类型的模型对于可变形物体特别有用[204],[43],[205],[152]。在[204]中,重新排列可变形对象的问题通过一系列拾取和放置动作来解决。在他们的工作中,transporter networks被扩展到学习目标条件的拾取和放置policy。在[43]中,一个双手机器人被训练用于布料操作。对负担模型进行训练,以选择 Flinging policy的参数。与[42]类似,旋转图像以考虑不同的可能抓握方向。此外,图像被缩放到不同的大小,以参数化投掷时两个操纵器之间的距离。

除了“拾取和放置”或可变形对象操作之外,在[75]中,affordance模型被训练为投掷对象。affordance模型首先选择拾取对象的位置,然后投掷速度模块为该像素分配理想的投掷速度。在[74]中,学习了policy来整理桌子。给定两个原语(推送和拾取),每个原语都会训练一个负担模型,并在所有值映射中选择最可能的动作。最后,在[41]中,affordance模型被应用于移动导航任务,其中机器人需要操纵一组对象。

对六自由度操纵的接地感知和动作也进行了探讨。在[206],[6],[207]中,动作值地图被扩展到体素网格空间。给定一个代表3D空间的体素作为输入,动作空间被定义为沿体素的分类分布,其中每个体素代表移动末端执行器的目标3D位置。为了生成具有有意义语义信息的体素网格[156],提出结合神经辐射场[208]和稳定扩散[209]构建体素网格。基于体素的网络通常对计算量要求很高。为了解决这个问题,RVT[129],[210]建议将问题投影到多个图像级的动作值图中。给定多个视点,RVT建议为每个视图生成一个动作值图,然后通过对所有视图的优化对动作进行采样。类似地[211]也将6自由度操作问题投射到图像动作值图上。在这种情况下,作者在多个视点中解决一个优化问题,以选择提供最佳顶视图的视点来解决任务。

一组作品没有使用体素网格,而是探索了使用点云表示,其中动作直接投影在点云中[64]、[212]、[213]、[214]、[215]、[216]。与基于图像的值图类似,这些方法表示沿点云中的点的分类分布,其中每个点都是一个可能的动作,模型输出所有点的概率。在[100]中可以找到一个特殊的情况,在给定点云作为观察的情况下,动作可以在3D空间中的任何点上表示。

动作值图的一个局限性是不能扩展到大的动作空间,如轨迹。为了表示更高维的动作空间,几项工作探索了在DM中整合观察动作对称性。[217],[218]通过将动作候选投影到一组相机视图来计算去噪步骤。或者,[158]、[157]首先构建一个特征化的3D点云场景,并通过计算观测值和动作之间的相对距离直接在3D空间中对动作进行去噪。

VI. FUTURE RESEARCH DIRECTIONS

尽管LfD在多个机器人任务中得到了成功部署,但仍存在一些开放的研究挑战。我们认为三个主要支柱将推动LfD的未来研究:

我们如何解决长期任务?

我们如何获得大量数据来训练dgm?,我们如何向他们学习?

我们如何保证policies能够推广到新的目标和新的场景?

在下文中,我们提出了一系列未来的研究方向,将LfD方法应用于解决机器人任务。

Robot policies for long horizon tasks

长期任务通常通过任务和运动规划算法来解决。这些方法通常是为特定应用而设计的,不会推广到任何可能的任务。另一方面,基于学习的policies通常仅限于短期技能。学习能够解决任何类型的长期任务的policies是一个开放的研究问题。一个有前景的方向是将用于高级任务规划的llm与低级、短期机器人技能相结合[127],[135]。然而,正确利用llm的输出进行任务生成需要将语言命令与机器人动作正确地结合起来。

Learning from video demonstrations.

遥操作数据是向机器人演示如何行为的最常见方法之一。然而,收集大量远程操作数据的成本很高。相反,互联网上充斥着人类执行各种任务的视频。这些视频是教机器人解决任何任务所需行为的重要数据来源。已经探索了几种策略,从视频中提取信息特征[219],[220],直接从视频中学习奖励[221],[222],或学习视频生成模型[125],[126]。从视频中正确学习的不同挑战包括解决人类和机器人之间的实施例不匹配、缺乏直接动作数据或训练和测试环境之间的不匹配

Learning from synthetic data. 从合成数据中学习。

鉴于收集真实机器人数据的困难,物理模拟器成为生成大量数据的可能方法。在这个方向上,已经有几项工作[223]、[224]、[225]、[226]、[227]在模拟中建立了基准,并为合成数据生成提供了管道。然而,部署在合成数据上训练的真实机器人policies需要正确解决模拟到真实的差距。

Learning from online interaction.

考虑到机器人可能遇到的场景的高度可变性,从离线数据集中学习所有可能任务的通才单个policy是不可行的。相反,一个重要的研究方向建议通过允许机器人与部署环境进行交互来训练policies执行新任务[228]。这要求机器人探索不同的可能行为,以找到最适合部署任务的行为。然而,机器人探索和学习解决新任务的方式对于高效学习新的policies至关重要,是未来研究的重要方向。

Generalization.

即使模型是在大量数据上训练的,机器人也可能会遇到数据集中没有的情况。因此,生成模型应该能够泛化,在看不见的情况下产生良好的行为。如第五节所示,适当选择归纳偏差可以提高泛化能力。尽管存在一些有趣的特性,但当前的生成模型尚未显示出强大的泛化能力,对结构化先验进行进一步探索以进行泛化是未来工作的一个重要方向。此外,整合互联网知识可以成为泛化性能的额外来源。现有的基础模型从互联网上捕获了丰富的信息来源,机器人policy可以利用这些信息来推广到新的环境中。最后,3d几何方面的结构可以进一步帮助机器人policies的语义信息的基础和聚合,从而更好地进行泛化。在这方面,3d特征字段[100]、[107]、[193]是表示公共空间中的语义信息和机器人动作的方向。

  • 18
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值