强化学习论文导读1——Human-Robot Gym: Benchmarking Reinforcement Learning inHuman-Robot Collaboration

“人机协作中的强化学习基准测试:Human-Robot Gym”

摘要— 深度强化学习(RL)在机器人运动规划中展现了有前景的成果,并首次尝试在人机协作(HRC)中应用。然而,在保证安全的前提下,对RL方法在人机协作中的公平比较尚未完成。因此,我们提出了“Human-Robot Gym”,这是一个用于HRC中安全RL的基准测试套件。我们在一个模块化的仿真框架中提供了具有挑战性、现实的人机协作任务。最重要的是,Human-Robot Gym 是首个包含安全屏障的基准测试套件,可以通过证明性地保证人类的安全。这填补了理论RL研究与其在现实世界中的应用之间的关键空白。我们对六个任务的评估得出了三个主要结果:(a)Human-Robot Gym 提供的多样化任务为最先进的RL方法创建了一个具有挑战性的基准,(b)通过利用专家知识以动作模仿奖励的形式,RL代理可以超越专家表现,以及(c)我们的代理在训练数据上几乎没有出现过拟合现象。

PS:深度强化学习在人机协作中的框架,确保安全行为

I. 引言

近年来,深度强化学习(RL)的进展为解决复杂的决策过程和复杂的操作任务提供了希望。这些能力对于人机协作(HRC)至关重要,因为机器人系统必须在具有高度非线性的人类动态特征的环境中行动。尽管前景可观,但关于HRC中RL的研究较少,并且通常局限于狭窄的任务领域。阻碍RL在HRC中广泛应用的两个主要挑战是安全性问题和任务的多样性。确保RL代理在以人为中心的环境中运行时的安全性是一个难题,因为代理可能会生成不可预测的行为,给人类合作伙伴带来相当大的风险。当前的HRC基准测试通过专注于与主要静止的人类互动来规避这些安全问题。

在本文中,我们提出了Human-Robot Gym,一个HRC基准测试套件,包含广泛的任务,例如对象检查、物品传递和协同操作,并通过集成SaRA Shield,一种可证明安全的HRC强化学习工具,确保机器人的安全行为。借助这些富有挑战性的HRC任务,Human-Robot Gym使得训练RL代理与人类安全协作成为可能,而这在其他基准测试中是无法实现的。

Human-Robot Gym 提供了易于扩展和调整的预定义基准测试。我们跟踪所有相关的性能和安全指标,以便对解决方案进行全面评估。我们的基准测试套件具有以下关键要素,降低了进入HRC中RL领域的门槛:

  • 预定义任务(见图1),具有不同的难度,每个任务都包含一系列真实的人类动作。
  • 可用机器人包括:Panda、Sawyer、IIWA、Jaco、Kinova3、UR5e和Schunk。
  • 通过使用SaRA Shield,在HRC中提供可证明的安全性,并防止静态和自我碰撞。
  • 基于MuJoCo的高保真度仿真。
  • 支持关节空间和工作空间的操作。
  • 高度可配置和可扩展的基准测试。
  • 基于OpenAI Gym标准的环境定义,以支持诸如Stable-Baselines 3等先进的RL框架。
  • 预定义的专家策略,用于收集模仿数据和进行性能比较。
  • 易于重复的基线结果(见第五节)。

II. 相关工作

Semeraro 等人总结了在机器学习用于人机协作(HRC)方面的最新研究工作。他们识别出了四种典型的HRC应用:协作装配、物品传递、物品处理、以及协作制造。

最近的强化学习(RL)发展引发了对各种应用中可比较基准测试的需求。其中一个最常用的机器人操作基准测试套件是robosuite,它提供了一组多样化的机器人模型、逼真的传感器和执行器模型、简单的任务生成,以及使用MuJoCo进行的高保真度仿真。另一个值得注意的操作基准测试套件是Orbit,它侧重于照片级真实感;Behavior-1K在仿真环境OmniGibson中提供了1000个日常机器人任务;而meta-world则用于元强化学习研究。

然而,上述基准测试中都不包括人在仿真中。尽管如此,还是有一些基准测试提供了有限的人工能力,并有特定的研究重点。首先,Robot Interaction in Virtual RealitySIGVerse基准测试通过虚拟现实设置,包含了实时遥操作中的真实人类。然而,由于训练时间较长,这种方法不适合从头开始训练RL代理。与我们工作最接近的是AssistiveGymRCareWorld。这些基准测试套件提供了用于护理任务的仿真环境。RCareWorld使用逼真的人类模型和多种机器人操作器提供了大量的辅助任务。然而,AssistiveGymRCareWorld专注于人类主要是静止或仅有少量有限动作的任务。相比之下,我们的工作侧重于协作任务,其中人类和机器人都扮演积极的角色,因此人类动作更加复杂。此外,Human-Robot Gym的一个主要关注点是人类的安全性,而其他基准测试只对这一问题进行了表面上的覆盖。

与我们工作密切相关的还有HandoverSim,它研究了人类向机器人传递各种物体的过程。在这里,预录制的动作捕捉片段引导了人类的手。然而,这些动作只捕捉到手部拾取物体并将其展示给机器人,从那以后,手部保持静止状态。相比之下,HandoverSim(a)在传递过程中不提供动作数据,(b)任务选择范围更窄,(c)不包括安全性问题。

我们利用专家学习方法来提供我们基准测试的初步结果。目前,我们主要依赖两种技术:参考状态初始化,它让代理从专家轨迹的随机点开始,以及基于状态的模仿奖励,它为代理靠近专家轨迹的行为提供额外奖励。我们明确决定不采用行为克隆技术,因为它们只是简单地复制专家行为,往往无法推广到任务目标。

III. 基准测试套件

我们在robosuite [17] 的基础上构建了 human-robot gym,它已经提供了可调的机器人控制器和使用 MuJoCo 的高保真度仿真环境。我们的环境主要引入了与人类实体互动的功能,定义了具有复杂协作目标的任务,并评估人类安全性。在以下子节中,我们将更详细地描述我们的基准测试、human-robot gym 的典型工作流程及其元素。

A. 基准定义

我们在 human-robot gym 中定义基准测试的方式包括机器人 (R)、奖励 (C) 和任务 (Θ),遵循 [28, Eq. 1] 的定义。所有的基准测试都通过 Hydra 框架 [29] 的模块化配置文件来描述,这使得 human-robot gym 易于配置和扩展。每个基准测试都有一个主要配置文件,其中包含任务和奖励定义、机器人规格、环境包装器设置、专家策略描述、训练参数和 RL 算法超参数的配置文件指针。

a) 机器人:我们当前支持七种不同的机器人模型:Panda、Sawyer、IIWA、Jaco、Kinova3、UR5e 和 Schunk。

b) 奖励:我们环境中的奖励可以是稀疏的,例如,指示一个物体是否在目标位置;也可以是密集的,例如,与目标的欧几里得距离成比例。此外,环境可以具有延迟稀疏奖励信号,这应该模拟现实的 HRC 环境,其中代理在完成任务的动作后不久才会收到任务完成奖励。延迟奖励的一个例子是当物体传递成功,但人类需要短暂时间来确认执行时。奖励延迟为 RL 代理提供了额外的挑战。

c) 任务定义:human-robot gym 中的每个任务由安全模式、物体、障碍物、人类动作和一组目标定义,这些都增加了 [28] 的任务定义。human-robot gym 包含反映 HRC 类别的任务。此外,我们选择了两个典型的共存任务:到达以及拾取和放置。此外,我们提供了一个管道来从动作捕捉数据生成新的人工运动,允许用户定义自己的任务并扩展 human-robot gym。表 I 显示了我们在实验中使用的每个任务的默认设置,以及作者对每个任务在操作、时间范围长度和人类动态方面的相对难度的主观估计。安全模式的详细信息在第 IV-A 节中讨论。

B. 典型工作流程

图 2 显示了 human-robot gym 中 RL 循环的典型工作流程。RL 代理的动作可以是关节空间动作 ajointa_{joint}ajoint​ 或工作空间动作 aEEFa_{EEF}aEEF​。如果选择 aEEFa_{EEF}aEEF​,逆向运动学包装器将从 pEEF,desiredp_{EEF, desired}pEEF,desired​ 确定 pjoint,desiredp_{joint, desired}pjoint,desired​ 并返回关节动作。工作空间动作可以包括在 SO(3) 中的末端执行器方向。然而,在我们的实验中,我们仅使用末端执行器在笛卡尔空间中的期望位置差 aEEF=pEEF,desired−pEEFa_{EEF} = p_{EEF, desired} - p_{EEF}aEEF​=pEEF,desired​−pEEF​ 作为动作,其中夹具向下指向。这种简化为四维动作空间(三个位置动作和一个夹具动作)在文献中较为常见 [2], [30], [31]。在关节空间训练中,虽然初步实验显示类似的性能,但由于动作空间较大,收敛所需的 RL 步骤显著增加。

RL 动作可能违反安全约束。因此,用户可以在外部 RL 循环或内部环境循环中实现安全功能。我们在第 IV 节中介绍了我们的附加工具如何使用这两种变体来防止与静态障碍物的碰撞,并确保人类安全。

我们环境的步进函数执行其内部循环 L 次。每次内部循环迭代都运行可选的内部安全功能、机器人控制器、MuJoCo 仿真的一个固定步骤,以及人类测量。在执行动作后,环境向代理返回一个观察值和奖励。

C. 人类仿真

我们的仿真使用从 Vicon 跟踪系统获得的动作捕捉文件来移动人类。所有运动都是针对定义任务专门录制的,并包括场景中的任务相关物体,确保行为真实。使用录音的一个限制是,录音必须暂停直到机器人启动特定事件,例如在物体传递任务中。先前的工作表明,在这些情况下人类行为不自然。为了应对这个限制,我们引入了表示人类等待事件触发的闲置运动。对于每个录音,关键帧可以指定闲置阶段的开始和结束。一旦达到,运动将保持闲置状态直到事件谓词 σE\sigma_EσE​ 为真,此时运动将转入下一个阶段。当机器人实现特定任务子目标之后,例如物体传递,谓词 σE\sigma_EσE​ 变为真。为了避免简单地循环闲置阶段,这会导致运动的跳跃,我们通过一组 D 个叠加正弦函数来改变录音的回放时间:

{t,if t≤tI or σEtI+∑i=1Dνisin⁡((t−tI)ωi),otherwise\begin{cases} t, & \text{if } t \leq t_I \text{ or } \sigma_E \\ t_I + \sum_{i=1}^{D} \nu_i \sin((t - t_I) \omega_i), & \text{otherwise} \end{cases}{t,tI​+∑i=1D​νi​sin((t−tI​)ωi​),​if t≤tI​ or σE​otherwise​

其中 νi\nu_iνi​ 和 ωi\omega_iωi​ 分别定义了第 iii 个正弦函数在闲置阶段的振幅和频率,并且在每个episode开始时随机化。闲置阶段的回放时间也可以反向。开始时随机选择回放的录音,起始位置和方向也稍作随机化,以避免过拟合。

D. 观察

human-robot gym 具有典型的任务相关和机器人观察,如表 II 所示。物体、障碍物、目标和人类身体具有可测量的姿态 T∈SE(3)T \in SE(3)T∈SE(3)。这些对象可以通过以下投影进行观察(改编自 [28, Tab. II]):在世界(W)和末端执行器(E)框架中的位置 pW:SE(3)→R3p_W : SE(3) \to \mathbb{R}^3pW​:SE(3)→R3、pE:SE(3)→R3p_E : SE(3) \to \mathbb{R}^3pE​:SE(3)→R3、与末端执行器的欧几里得距离 d:SE(3)→R+d : SE(3) \to \mathbb{R}^+d:SE(3)→R+、以及通过四元数给出的世界框架中的方向 oW:SE(3)→SO(3)o_W : SE(3) \to SO(3)oW​:SE(3)→SO(3)。表 II 中的任务特定元素包括完成任务所需的那些,即 Tobj,aT_{obj,a}Tobj,a​, a=1,…,Aa = 1, \ldots, Aa=1,…,A, Tobs,bT_{obs,b}Tobs,b​, b=1,…,Bb = 1, \ldots, Bb=1,…,B, Tgoal,cT_{goal,c}Tgoal,c​, c=1,…,Cc = 1, \ldots, Cc=1,…,C, 和 Tbody,dT_{body,d}Tbody,d​, d=1,…,Dd = 1, \ldots, Dd=1,…,D,其中 A 代表物体数量,B 代表障碍物数量,C 代表目标姿态数量,D 代表人类身体数量。机器人信息包含其关节位置和速度,以及末端执行器的位置、方向和开口。在我们的实验中,我们发现减少观察中元素的数量,例如仅提供人手位置的测量而不是整个人体模型,对训练性能有利。为了模拟现实世界的传感器,用户可以选择性地向所有测量中添加来自紧凑集合的噪声和延迟,进一步减少仿真和现实之间的差距。除了物理测量外,用户还可以定义观察场景的摄像头,并从视觉输入中进行学习。

IV. 支持工具

本节描述了 human-robot gym 中包含的附加工具,以提供安全性和 RL 训练功能。

A. 安全工具

我们可以通过使用 pinocchio [32] 对所需机器人轨迹进行碰撞检查,从而在外部 RL 循环中防止静态和自碰撞。如果 RL 动作产生的轨迹不安全,我们会从动作空间中均匀采样,直到找到一个安全的动作。

在外部 RL 循环中保证人类安全是具有挑战性的,因为 RL 动作的时间范围相对较长,例如 200 毫秒。因此,仅在执行前检查安全会导致非常严格的安全行为 [33]。因此,我们在内部环境循环中确保人类安全。我们提供了 SaRA shield 工具,该工具在 [6], [34] 中为机器人操控器引入,并在 [33] 中推广到任意机器人系统。首先,SaRA shield 将每个 RL 动作转换为一个预期轨迹。在 RL 动作的随后的时间段内,盾牌执行 L 次。在每个时间步,盾牌计算一个 failsafe 轨迹,这个轨迹将机器人引导到一个始终安全的状态。根据 [6] 的定义,在操控中,始终安全的状态是指机器人完全停止并符合 ISO 10218-1 2021 规范 [35]。接下来,盾牌构建了一个保护轨迹,将计划的预期轨迹中的一个时间步与 failsafe 轨迹结合起来。SaRA shield 通过对人类和机器人的集合基础可达性分析来验证这些保护轨迹。

为此,盾牌接收来自仿真的人类身体部位的位置和速度作为测量。我们通过仅在验证的保护轨迹确认安全时执行预期轨迹的步骤来无限期地保证安全 [6]。如果安全验证失败,机器人将遵循最近验证的 failsafe 轨迹,确保持续安全操作。最后,SaRA shield 返回下一个时间步的所需机器人关节状态,以跟随验证的轨迹。然后,我们使用比例-积分-微分控制器计算所需的机器人关节扭矩。

SaRA shield 的默认模式是速度和分离监控,这在即将发生碰撞之前停止机器人。这对于接触任务(例如物体传递)过于严格,因为机器人必须与人类接触。因此,我们在 SaRA shield 工具中包括了一个功率和力限制模式,该模式在任何人类接触之前将机器人减速到安全的笛卡尔速度 5 mm/s,如 [36, Def. 3] 所提议的那样。通过这种方式,我们的功率和力限制模式确保符合 ISO 10218-1 2021 [35] 的无痛接触。与速度和分离监控模式一样,SaRA shield 仅在基于可达性验证的潜在碰撞被检测到时才会减慢机器人速度。否则,机器人允许以全速运行。我们计划在未来将符合性阻抗控制器(如 [37] 所提议的)纳入 SaRA shield。

B. 训练工具

为了提供 RL 代理在我们环境中的性能视角,我们为我们的任务提供了专家和 RL 策略。在这项工作中,我们考虑了一个在连续或离散动作空间 A 和连续状态空间 S 中学习的 RL 代理,该代理由元组 (S, A, T, r, S0, γ) 描述,其中 S0 是初始状态集合。这里,T(sk+1 | sk, ak) 是转移函数,表示从状态 sk 到 sk+1 的转移概率密度函数,当采取动作 ak 时。代理从环境中接收由函数 r : S × A × S → R 确定的奖励。最后,我们考虑一个折扣因子 γ ∈ [0, 1] 以调整未来奖励的相关性。RL 旨在学习一个最优策略 πP⋆(ak∣sk)\pi^\star_P(a_k | s_k)πP⋆​(ak​∣sk​),以最大化从初始状态 s0∈S0s_0 \in S_0s0​∈S0​ 开始并遵循 π⋆(ak∣sk)\pi^\star(a_k | s_k)π⋆(ak​∣sk​) 直到在 k=Kk = Kk=K 终止的期望回报 R=∑k=0Kγkr(sk,ak,sk+1)R = \sum_{k=0}^{K} \gamma^k r(s_k, a_k, s_{k+1})R=∑k=0K​γkr(sk​,ak​,sk+1​) [38]。

C. 预定义专家

我们为每个任务定义一个确定性专家策略 πe(ak∣sk)\pi_e(a_k | s_k)πe​(ak​∣sk​) 以收集模仿数据和比较性能。这些专家策略是手工制作的,并遵循基于人类专业策略的比例控制法则,如 human-robot gym 文档中详细描述的那样。

为了在我们的专家数据中实现多样性,我们向专家动作添加噪声项,得到噪声专家 π~e(ak∣sk,k)=πe(ak∣sk)∗fk,n\tilde{\pi}_e(a_k | s_k, k) = \pi_e(a_k | s_k) \ast f_{k,n}π~e​(ak​∣sk​,k)=πe​(ak​∣sk​)∗fk,n​,其中 ∗\ast∗ 表示概率分布的卷积,fk,nf_{k,n}fk,n​ 是噪声信号 n 在时间 k 的概率密度函数。为了限制随机过程偏离专家的程度,我们选择了均值回归过程。特别地,我们将 n 模型为独立随机变量 nin_ini​ 的向量,并离散化单变量的 Ornstein-Uhlenbeck 过程 [39],以检索一个一阶自回归模型。我们可以通过蒙特卡洛模拟采样专家轨迹 χ=(s0,…,sK)\chi = (s_0, \ldots, s_K)χ=(s0​,…,sK​),其中我们从 s0∈S0s_0 \in S_0s0​∈S0​ 开始,随后按照 sk+1∼T(sk+1∣sk,ak+1)s_{k+1} \sim T(s_{k+1} | s_k, a_{k+1})sk+1​∼T(sk+1​∣sk​,ak+1​) 并使用 ak∼π~e(ak∣sk,k)a_{k} \sim \tilde{\pi}_e(a_k | s_k, k)ak​∼π~e​(ak​∣sk​,k) 进行采样,直到 k=K−1k = K - 1k=K−1。对于 human-robot gym 中的每个任务,我们提供专家策略 πe\pi_eπe​ 和 π~e\tilde{\pi}_eπ~e​,以及从 π~e\tilde{\pi}_eπ~e​ 中采样的 M 条专家轨迹集合 B={χ1,…,χM}B = \{ \chi_1, \ldots, \chi_M \}B={χ1​,…,χM​}。

D. 强化学习代理

由于其样本效率和在先前实验中的良好性能 [6],Soft Actor-Critic (SAC) [40] 作为我们实验的基线。我们包括了三种模仿学习的变体,以调查专家知识对 RL 代理的好处。首先,我们使用参考状态初始化 [26] 重新定义初始状态集合为包含在专家轨迹中的状态集合 S0={s~∣s~∈χ,χ∈B}S_0 = \{ \tilde{s} | \tilde{s} \in \chi, \chi \in B \}S0​={s~∣s~∈χ,χ∈B}。从专家达到的状态开始 episode 可以使代理了解可到达的状态及其在长时间任务中的奖励。

其次,我们评估基于状态的模仿奖励,其中代理接收一个额外的奖励信号,该信号与其在状态空间中接近专家轨迹 χ∈B\chi \in Bχ∈B 的程度成正比 rSIR(sk,ak,sk+1,s~k)=(1−ς)r(sk,ak,sk+1)+ςdist(sk−s~k)r_{SIR}(s_k, a_k, s_{k+1}, \tilde{s}_k) = (1 - \varsigma)r(s_k, a_k, s_{k+1}) + \varsigma \text{dist}(s_k - \tilde{s}_k)rSIR​(sk​,ak​,sk+1​,s~k​)=(1−ς)r(sk​,ak​,sk+1​)+ςdist(sk​−s~k​),其中 0≤ς≪10 \leq \varsigma \ll 10≤ς≪1。对于距离函数,我们选择一个缩放的高斯函数 dist(x)=2−κ∥x∥2\text{dist}(x) = 2^{-\kappa} \|x\|^2dist(x)=2−κ∥x∥2,其中缩放因子为 1/κ1/\kappa1/κ,如 [26] 所建议的那样。我们还在使用基于状态的模仿奖励时应用参考状态初始化,如 [26] 所提议的。

最后,我们将基于状态的模仿奖励方法调整为基于动作的模仿奖励,其中代理接收一个额外的奖励信号,该信号与其动作与专家动作的接近程度成正比 rAIR(sk,ak,sk+1,a~k)=(1−ς)r(sk,ak,sk+1)+ςdist(ak−a~k)r_{AIR}(s_k, a_k, s_{k+1}, \tilde{a}_k) = (1 - \varsigma)r(s_k, a_k, s_{k+1}) + \varsigma \text{dist}(a_k - \tilde{a}_k)rAIR​(sk​,ak​,sk+1​,a~k​)=(1−ς)r(sk​,ak​,sk+1​)+ςdist(ak​−a~k​),其中 a~k∼π~e(ak∣sk,k)\tilde{a}_k \sim \tilde{\pi}_e(a_k | s_k, k)a~k​∼π~e​(ak​∣sk​,k)。在使用基于动作的模仿奖励时,我们在每一步中同时采样专家策略和 RL 策略,但仅执行 RL 动作。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

编程小星星

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值