Robotic Manipulation in Dynamic Scenarios viaBounding Box-Based Hindsight Goal Generation

最新推荐文章于 2025-05-16 14:05:46 发布

好悬给我拽开线

最新推荐文章于 2025-05-16 14:05:46 发布

阅读量634

点赞数 16

文章标签：人工智能

本文链接：https://blog.csdn.net/qq_33673253/article/details/146936963

版权

摘要：通过使用启发式或课程目标对过去的经验进行重新标记，最先进的强化学习（RL）算法，如后见经验回放（HER）、后见目标生成（HGG）和基于图的后见目标生成（G-HGG），已经在具有稀疏奖励的多目标设置中解决了具有挑战性的机器人操作任务。HGG通过从课程中学习，在目标难以探索的复杂任务中优于HER，其中中间目标的选择基于与目标目标的欧几里得距离。G-HGG通过从环境的预计算图表示中选择中间目标来增强HGG，这使得其适用于具有静态障碍物的环境。然而，G-HGG不适用于具有动态障碍物的操作任务，因为其图表示仅在静态场景中有效，并且无法为探索提供正确的信息。在本文中，我们提出了基于边界框的后见目标生成（Bbox-HGG），这是G-HGG的一个扩展，通过环境的图像观察来选择后见目标，使其适用于具有动态障碍物的任务。我们在四个具有挑战性的操作任务上评估了Bbox-HGG，在样本效率和整体成功率方面均优于最先进的算法。视频可在https://videoviewsite.wixsite.com/bbhgg查看。

关键词：强化学习，后见经验回放，机器人臂操作，路径规划

一、引言

深度强化学习（RL）的研究使机器人能够执行许多复杂任务[^30]，例如在书架上整理书籍[^25]、将销钉插入孔中[^27]、实现车辆[^1]和空中无人机[^4]的自主导航。RL的基本原理是通过代理与环境的互动来学习最优策略。这些互动为代理提供了奖励，这是代理学习如何成功完成任务的唯一机制。然而，在大多数复杂的机器人任务中，由于缺乏对高效或可接受行为的具体表示，设计一个合适的任务定制奖励是极具挑战性和耗时的，这使得这种策略对于广泛的机器人应用是不切实际的。

幸运的是，大多数任务都有明确的成功和失败条件，这些条件可以用来定义一个二元奖励信号，表明任务是否完成。这种二元奖励也被称为稀疏奖励，可以从任务定义中轻松推导出来，只需付出最小的努力。然而，支持稀疏奖励的RL算法通常由于只能在训练过程中提供浅层和不充分的信息而遭受学习效率低下的问题。为了解决这个问题，Andrychowicz等人[^2]提出了后见经验回放（HER）算法，该算法提高了离线策略RL算法在具有稀疏奖励的多目标RL问题中的成功率。HER的概念是使用代理收集的先前经验来定义后见目标，这些目标最初容易学习，然后继续处理更困难的目标。尽管HER已被证明在可以通过随机探索轻松到达目标的环境中高效工作，但在目标分布远离初始状态且仅通过随机探索难以到达目标的环境中，HER会失败，且从实现目标的状态中启发式选择后见目标。为了解决这个问题，Ren等人[^23]提出了后见目标生成（HGG），它使用后见目标作为隐式课程，引导探索朝着短期容易实现且长期有望实现目标目标的中间目标前进。尽管HGG在解决具有远距离目标的任务中取得了成功，但在障碍物环境中，其距离机制无法使用欧几里得度量计算，因此无法解决任务。我们之前的工作，基于图的后见目标生成（G-HGG）[^3]，通过选择基于预计算的避障图的最短距离的后见目标，克服了这个问题，这是一种环境的离散表示。与HER或HGG相比，G-HGG在具有静态障碍物的复杂操作任务中表现出色，但它假设障碍物的尺寸和位置是已知且恒定的，因此可以在训练前预计算基于图的距离。

然而，在大多数任务中，障碍物的位置并不总是为机器人所知，并且它们的位置可能会动态变化，这使得HGG或G-HGG无法应用于此类任务。一种常见的方法是使用图像观察来获取动态场景的每一步的信息，这些信息通常容易获取，并且可以捕获大量与任务相关的特征。因此，在本文中，我们介绍了基于边界框的后见目标生成（Bbox-HGG），这是G-HGG的一个扩展，用于借助图像观察解决动态场景中的复杂机器人操作任务。

我们声明，仅靠现有的基于稀疏奖励的RL算法无法解决此类任务。我们将Bbox-HGG算法表述为边界框创建、避障图构建作为预训练步骤，以及状态扩展和多目标稀疏奖励作为关键训练步骤。为了使Bbox-HGG适用于具有动态障碍物的环境，我们首先使用从图像观察中提取的边界框信息来创建环境的基于图的表示，以消除目标空间中的静态障碍物。其次，我们利用边界框信息扩展观察状态，这些状态可以提供有关动态障碍物的关键信息，以便学习期望的行为。第三，我们提出了一种多目标稀疏奖励，以惩罚可能导致与任何障碍物发生碰撞的行为。最后，我们设计了四个新的具有挑战性的机器人操作任务，这些任务包含静态和动态障碍物，以比较Bbox-HGG、G-HGG和HGG的性能。我们对文献的主要贡献是一种能够使用图像观察解决具有动态障碍物的复杂操作任务的稀疏奖励算法。具体来说，首先，我们提出了一种自监督机制，用于训练边界框编码器（BboxEncoder），以从图像观察中识别物体的边界框。这种BboxEncoder提供了一种实用的方法，可以从未知的动态环境中提取物体信息，这些信息可以进一步用于训练目标条件的RL代理。其次，我们提出了一种机制，用于估计障碍物的尺寸和位置，以自动化创建避障图及其各自的基于图的距离，这些距离可以用来像HGG和G-HGG一样生成中间目标。第三，我们提出了一种多目标稀疏奖励，以惩罚代理与障碍物发生碰撞的行为，这只需要最少的工程工作即可适应不同环境。最后，实验结果表明，与G-HGG和HGG相比，Bbox-HGG在样本效率和整体成功率方面都有显著提升。

二、相关工作

由于我们的工作涉及不同的模块，即基于稀疏奖励的机器人操作、基于图像的RL和目标识别，我们简要讨论这三个主要主题的相关工作。

A. 基于稀疏奖励的机器人操作

机器人操作作为一种具有挑战性的任务，已被广泛用于检验许多不同RL方法的性能，例如基于经验重新标记[^2]、[^36]、内在动机[^35]、[^6]和引导探索与利用[^9]、[^23]的方法。这些方法背后的基本思想是提高稀疏奖励RL设置中的探索效率，在这种设置中，由于目标空间的稀疏性和无信息的稀疏奖励，有效的探索在操作任务中极为困难。基于经验重新标记的方法，以HER[^2]为代表，利用这样的观点：对于一个任务来说无信息的数据很可能是另一个任务的丰富信息来源。其他一些后见经验重新标记的方法进一步研究了如何提高数据效率。例如，Li等人[^14]从逆强化学习的角度提出了一个通用的多任务后见重新标记方法。Eysenbach等人[^8]进一步证明了后见重新标记是逆强化学习的一种形式，通过最大化熵并推导出后见重新标记方法的理论最优形式。基于内在动机的方法受到自我意识概念的启发，通过提供内在动机来鼓励代理进行探索。例如，在[^29]中，使用夹持器的触觉信息来构建内在奖励，以鼓励夹持器与环境中的物体进行互动。引导探索扩展了经验重新标记的方法，通过创建后见目标的隐式课程来引导探索朝着目标目标前进。引导度量可以使用欧几里得距离[^23]、[^9]或其他自定义距离[^3]来计算。

B. 基于图像的机器人操作

为了解决涉及动态障碍物的更复杂任务，使用图像作为状态表示是一个吸引人的想法，因为它们易于获取，并且无论环境是静态还是动态，都包含大量关于环境的信息。由于图像是高维的，对代理来说直接学习不太直观，研究人员研究了不同的方法，从图像中抽象出低维表示，以学习复杂的行为。Nasiriany等人提出了用于抽象规划的潜在嵌入（LEAP[^17]），它使用变分自编码器（VAE）对图像进行编码，作为学习目标条件RL策略的潜在观察。LEAP还训练了一个时间差分模型[^21]，以计算价值函数，预测目标是否可达，并因此使用价值函数作为规划器，从VAE中采样适合下游任务的中间目标。Hafner等人开发了一种基于模型的RL方法，用于处理图像，该方法使用递归空间模型[^11]在潜在空间中学习

环境的动态变化。他们还利用变分自编码器（VAE）对图像进行编码和解码，递归网络接收潜在表示序列和动作，以预测任务的动态模型。类似的工作，如好奇目标搜索代理（COBRA[^31]），也将基于模型的强化学习与图像观察相结合，并从潜在表示中学习环境的动态变化。

C. 无监督目标发现

从视觉观察中发现目标的能力对于机器人来说非常重要，因此有许多研究调查了无监督目标发现[^34]。多目标网络（MONet）[^5]被提出以无监督的方式学习分解和表示复杂场景中的语义组件，通过提供注意力掩码和重建图像区域。另一种无监督目标发现方法是通过空间注意力和分解进行场景表示（SPACE[^15]），它使用概率推理对图像进行建模，并生成分解的目标表示。类似于MONet和SPACE，Nash等人提出了多实体变分自编码器（MVAE[^16]）来发现目标，其中编码器返回一个潜在表示网格，选择具有最高KL散度的N个表示，并重建它们。Greff等人开发了迭代目标分解推理网络（IODINE[^10]），它用K个潜在变量对图像进行编码，并迭代细化它们，以正确地从图像中重建目标。这些方法通过学习每个目标的独立潜在变量来解决无监督目标发现问题，这些变量可以表示目标的外观和位置。

三、预备知识

A. 多目标网络（MONet）

MONet是一种算法，可以通过联合训练注意力网络和变分自编码器（VAE）以无监督的方式分解和表示具有挑战性的图像场景[^5]。注意力网络ψ用于创建K个不同的掩码m1, ..., mK ∈ RH×W×1，将输入图像Λ ∈ RH×W×C划分为区域，使每个区域只包含一个单独的对象，包括背景。H、W和C分别是图像的高度、宽度和通道数。MONet将每个掩码与图像连接起来，并将这些信息传递给VAE，VAE重建所有掩码m1, ..., mK ∈ RH×W×1和图像的部分Λ1, ..., ΛK ∈ RH×W×C。潜在变量z1, ..., zK包含表示图像Λ的信息。由于潜在空间编码了目标的特征，编码器φ具有后验分布qφ(zk|Λ, mk)，解码器θ具有先验pθ(Λ|zk)。然后，网络模拟分布p(c|{mk})，表明图像的某个组成部分c在第k个槽位中被表示。相应的后验和先验分别是qψ(c|Λ)和pθ(c|{zk})。该网络使用以下损失进行训练：

其中β和γ是平衡损失函数每个组成部分的超参数。DKL是KL散度。

B. 后见经验回放（HER）

后见经验回放（HER[^2]）是一种简单而有效的RL算法，专为具有稀疏奖励的目标导向任务设计，其中代理通常无法高效学习。这是因为无信息的稀疏奖励只能提供关于任务的非常浅层的信息，而目标空间的稀疏性使得训练过程中的探索更加困难。为了提高学习效率，HER通过对过去的经验进行重新标记，利用这样的观点：对于一个目标来说无信息的数据很可能是另一个目标的丰富信息来源。在具有稀疏奖励的多目标RL任务中，HER假设每个目标g对应一个谓词fg : S → {0, 1}。当代理达到任何满足fg(s) = 1的状态s时，就认为目标已经实现。定义了一个稀疏奖励函数rg(s, a) = -[fg(s) = 0]，意味着只要代理没有达到目标，就会不断收到负奖励。只有当目标实现时，才能观察到零奖励。在HER中，每个转换不仅存储了用于该剧集的原始目标g，还存储了其他目标（后见目标）g′作为（st||g′, at, rt, st+1||g′）。因此，当重放得到的转换（st||g′, at, rt, st+1||g′）时，代理更有可能遇到信息丰富的奖励。HER可以被解释为一个隐式课程，最初专注于容易实现的中间目标，然后转向更接近目标目标的困难目标。

C. 后见目标生成（HGG）

HGG[^23]扩展了HER，用于解决目标分布远离初始状态且无法通过启发式探索解决的任务。这些目标GT属于目标空间G，初始状态S0属于状态空间S。分布T* : G × S → R决定了它们是如何采样的。与其优化Vπ与困难的目标-初始状态分布T*，这存在远离已知目标的风险，HGG试图优化一组中间目标，这些目标采样自T。一方面，T中的目标应该容易实现，这要求一个高的Vπ(T)。另一方面，T中的目标应该足够接近T*，以对代理构成挑战。这种权衡可以形式化为：

max T,π Vπ(T) - L · D(T*, T) （2）

Lipschitz常数L被视为一个超参数。在实践中，为了选择这些目标，HGG首先通过从T中采样K个样本并将其存储在T^中来近似T。然后，对于初始状态和目标（si^0, gi^）∈ T^，HGG选择一个轨迹，该轨迹最小化以下函数：

m(·)是状态抽象，将状态空间映射到目标空间。c > 0在1）目标之间的距离和2）初始状态的目标表示之间的距离之间提供权衡。最后，从每个选定的轨迹τi中，后见目标gi是从状态si^t ∈ τi中选择的，该状态最小化了（3）。更正式地，

D. 基于图的后见目标生成（G-HGG）

G-HGG[^3]指出，HGG中使用的欧几里得距离度量∥·∥在（3）和（4）中不适用于具有障碍物的环境，因为在这些环境中，它不是一个准确的距离度量。这导致了非最优甚至错误的中间目标，使得代理难以解决任务。G-HGG提出用从无障碍图G = (V, E)中提取的基于图的距离替换HGG中的欧几里得距离。图G作为环境可访问目标空间的离散表示。因此，必须定义GA ⊂ G，其中GA表示环境中的所有可访问目标。这意味着如果目标空间中的某个目标g ∈ G位于障碍物内部，则将其从可访问目标空间中排除。此外，定义了一组顶点V和加权边E，以离散化可访问目标空间。使用Dijkstra算法[^7]计算每对节点之间的最短路径距离，并将它们存储在一个表中。有了这个表，就可以创建一个度量dG，将任意两个点g1, g2 ∈ G映射到最近的离散化坐标，并从表中读取距离。dG用于替换（3）和（4）中的项∥gi^ - m(st)∥，以dG(gi^ - m(st))表示。

四、问题陈述

在本文中，我们专注于通过具有稀疏奖励的强化学习在动态环境中学习操作技能，其中每个物体的定位信息对RL代理是未知的。这一约束使得最先进的RL算法无法应用于具有以下特征的环境：

内部状态空间Sint ⊂ R^l，l ∈ N。它包含机器人臂的内部信息，如关节位置和角速度。
外部状态空间Sext ⊂ R^3。它是一个图像观察Λ，捕获环境的信息。
多维状态空间S，它是Sint和Sext的连接。
动作空间A ∈ R^3，控制末端执行器的位置。
初始状态分布S0 : S → [0, 1]。
目标空间G ⊂ R^2。目标被定义为环境中一个2D平面上的一个点。
目标目标分布GT ⊂ G → [0, 1]。
目标谓词 A goal predicate fg : S → {0, 1}，g ∈ G，用于确定状态是否在距离阈值δg内接近目标：

fg(s) := {1, if ∥m

(s) − g∥ ≤ δg; 0, otherwise.} （5）

稀疏奖励函数 rg : S × A → R 定义为：

rg(s) := {0, if fg(s) = 1; −1, otherwise.} （6）

障碍物 {o1, o2, ...} 可以是静态的或动态的。在我们的环境中，我们考虑位于桌子上的障碍物；因此，如果障碍物 oi 是动态的，它将沿着速度为 vi ∈ R^2 的直线运动，并且可以在两个极限位置之间周期性地到达。正如在先前的工作中介绍和解释的那样，设计能够在动态场景中通过稀疏奖励学习操作技能的RL算法是具有挑战性的，并且仍然是一个未解决的问题。原因如下：
某些方法，如HER[^2]和EBP[^36]，仅通过使用启发式目标对过去的经历进行后见重放来取得成功。这些方法无法学习远距离目标。
一些引导探索的方法可以学习远距离目标，但仅适用于没有障碍物或静态障碍物的场景，因为它们需要事先了解环境信息（CHER[^9]、HGG[^23]、G-HGG[^3]）。因此，这些方法不适用于具有动态障碍物的环境。
先前的研究假设完全了解静态障碍物的定位信息，这在现实世界中要么未知，要么难以获得。为了解决这个问题，我们考虑使用图像观察作为一种方式来获取环境的定位信息，然后提出一种能够在动态场景中通过稀疏奖励设置学习操作技能的方法。特别是，我们的方法旨在实现以下目标。首先，我们的方法应该能够从动态环境中使用图像观察推导出物体信息，例如识别和定位可操作物体和障碍物。其次，基于推导出的信息，我们的方法应该创建一个环境的表示，该表示可以用来为代理生成可访问的后见目标。第三，我们的方法应该仅使用稀疏奖励来学习策略，这允许代理到达远距离目标，并且在最小的工程工作量下防止与环境中的障碍物发生碰撞。

五、方法论

略