【机器人】首次提出！CMU仅用RGB摄像头，远程操控人形机器人，实现人机合一

本文链接：https://blog.csdn.net/2401_84005497/article/details/137502534

【日记导读】本篇论文的中心思想是提出了一种名为H2O的框架，它利用强化学习实现了人类动作到人形机器人的实时、全身远程操控。视频号有关于这篇论文的讲解（请关注公众号）

以往的人形机器人远程操控方法主要依赖于基于模型的控制器和动作捕捉，这些方法因计算成本高、依赖外部设备和缺乏动态运动的可扩展性而受限。此外，现有工作在实时性和全身体动作的精确模仿上存在不足。

H2O框架通过引入“sim-to-data”过程和零样本迁移学习，解决了这些问题。它首先通过逆运动学和仿真环境中的特权模仿策略（privileged imitation policy）生成适用于人形机器人的大规模运动数据集，然后训练一个鲁棒的模仿策略，无需任何额外的动作捕捉设备。

网络的输入是RGB摄像头捕获的人类姿态估计，输出是人形机器人的关节目标位置。这种方法的作用是将人类的动作无缝转换为人形机器人的动作，使得机器人能够在真实世界中执行复杂的任务。

为了验证所提出方法的有效性，作者在仿真环境和真实世界中进行了一系列实验，包括行走、踢球和后跳等动作的模仿。实验结果表明，H2O框架在实时远程操控全身体动作方面表现出色，证明了其在提高人形机器人远程操控实用性方面的重要贡献。

在这里插入图片描述
1.背景和insight

作者指出以往的人形机器人远程操控研究主要依赖于基于模型的控制器和动作捕捉，这些方法存在计算成本高昂、依赖外部设备、动态运动可扩展性差等问题。此外，先前的工作在实现实时性和精确模仿自由形态人类动作方面也存在局限。

本篇文章的insight源自于自然界中人类与人类之间的模仿学习行为，即通过观察和模仿他人的动作来学习新技能。作者提出了一种基于强化学习的框架，该框架能够通过RGB摄像头实时捕捉人类动作，并将这些动作转换为人形机器人的行为。这种方法通过一个创新的“sim-to-data”过程，有效地筛选和优化了适用于人形机器人的动作数据集，并在仿真环境中训练出一个鲁棒的模仿策略，最终实现了在真实世界中的零样本迁移。

方法 H2O：Human-to-Humanoid

本文方法是基于强化学习（Reinforcement Learning, RL）的Human to Humanoid (H2O)框架，它使得使用普通的RGB摄像头实时远程操控人形机器人成为可能。这个框架包括三个主要阶段：重定向（Retargeting）、仿真到现实训练（Sim-to-Real Training）以及实时远程操控部署（Real-time Teleoperation Deployment）。下面详细介绍这三个阶段：
在这里插入图片描述

图片

重定向（Retargeting）：

阶段一：这一阶段的目标是将SMPL身体模型与机器人的结构对齐。SMPL模型通过优化形状和运动参数来适配人形机器人的特定结构。这个过程涉及到调整SMPL模型的参数，使其尽可能地匹配机器人的关节和身体比例。

阶段二：在第一阶段的基础上，使用一个经过训练的特权模仿策略（privileged imitation policy）来清除不现实的运动和动作瑕疵。这个特权模仿策略可以访问机器人的完整刚体状态信息，包括全局3D刚体位置、方向、线速度和角速度等。通过这种方式，可以生成一个既真实又干净的运动数据集，供人形机器人使用。

仿真到现实训练（Sim-to-Real Training）：

在这一阶段，训练一个模仿策略来跟踪从清洁过的重定向数据集中采样的运动目标。这个策略通过在仿真环境中学习来掌握如何模仿人类动作，以便能够在现实世界中应用。训练过程中使用了广泛的领域随机化（domain randomization）来弥合仿真与现实之间的差距，从而提高策略的鲁棒性和泛化能力。

实时远程操控部署（Real-time Teleoperation Deployment）：

在实时远程操控部署阶段，通过RGB摄像头和姿态估计器捕捉人类操作者的动作，然后让人形机器人使用训练好的仿真到现实模仿策略来模仿这些动作。这个过程中，人类操作者的动作被转化为机器人的动作，实现了实时的全身远程操控。

为了实现实时性，使用了30Hz的3D姿态估计器和200Hz的内置传感器来获取机器人的自身状态信息。通过这种方式，人形机器人能够在现实世界中执行各种复杂的任务，如踢球、走路和跳等。

H2O框架通过这三个阶段实现了人类动作到人形机器人行为的实时转换。

2.1 将SMPL身体模型与机器人的结构对齐

重定向（Retargeting）的第一步，是将SMPL（Skinned Multi-Person Linear Model）身体模型与人形机器人的结构进行对齐。SMPL是一种广泛使用的参数化人体模型，它通过一组参数来表示人体的形状和姿态。这个对齐过程是至关重要的，因为它确保了人类的动作能够被准确地映射到人形机器人上，从而使机器人能够模仿人类的动作。

以下是该阶段的详细步骤：

模型对齐：

首先，需要确定SMPL模型与人形机器人之间的对应关系。这包括识别人类模型和机器人模型之间的关节对应，以及它们在空间中的相对位置。

通过这种对应关系，可以将人类的动作映射到机器人的关节上。这一步骤通常涉及到逆运动学（Inverse Kinematics）的计算，以确定机器人关节的角度，使得机器人的末端执行器（如手或脚）能够达到与人类相似的位置。

图片

形状优化：

SMPL模型允许通过调整形状参数（β）来改变人体的体型。在这一步中，通过优化这些参数，使得SMPL模型的体型与人形机器人的体型尽可能匹配。

这通常涉及到使用梯度下降或其他优化算法，以最小化人类和机器人关节位置之间的差异。这个过程可能需要迭代多次，直到找到最佳的形状参数，使得SMPL模型的人体结构与人形机器人的结构最为接近。

动作调整：

一旦SMPL模型的形状与人形机器人对齐，接下来就是调整动作。这包括对SMPL模型中的动作序列进行修改，以确保它们能够被机器人实际执行。

这可能涉及到对动作序列中的关节角度进行调整，以适应机器人的运动范围和限制。例如，如果人类的动作中包含了超出机器人关节活动范围的姿势，那么这些动作就需要被修改，以确保机器人能够安全地执行。

通过这些步骤，SMPL模型被调整和优化，以便能够准确地代表人形机器人的身体结构和运动能力。这样，当人类操作者通过RGB摄像头进行动作捕捉时，这些动作就能够被有效地转换为人形机器人可以执行的动作序列。这一阶段的成功执行为人形机器人的实时远程操控奠定了基础，使得机器人能够在后续的仿真到现实训练和实时远程操控部署阶段中，更好地模仿人类的动作。

2.2 特权模仿策略（privileged imitation policy）来清除不现实的运动和动作瑕疵

重定向（Retargeting）的第二步，是在第一阶段对齐SMPL模型与人形机器人结构的基础上，进一步优化和清洗动作数据集。这一步骤的目的是确保所有用于训练的数据都是对机器人可行的，并且能够被机器人准确地执行。为此，文章中提出了使用一个特权模仿策略（privileged imitation policy），这是一种在仿真环境中训练的策略，它具有访问机器人完整刚体状态信息的能力。

图片

以下是该阶段的详细步骤：

特权模仿策略的训练：

特权模仿策略是一种强化学习算法，它在训练期间可以访问通常在现实世界中难以获得的完整刚体状态信息。这些信息包括机器人的全局3D刚体位置、方向、线速度和角速度等。

通过这种策略，可以在仿真环境中对人形机器人进行训练，使其学会模仿人类的动作。在训练过程中，策略会尝试模仿从第一阶段获得的所有动作，包括那些可能不现实的或有瑕疵的动作。

不现实动作的识别与清除：

在训练特权模仿策略时，某些动作可能因为超出了机器人的物理能力或设计限制而无法被成功模仿。这些动作可能是不现实的，例如，人类的动作可能涉及到超出机器人关节活动范围的姿势，或者需要的力量超过了机器人的电机能力。

特权模仿策略会识别出这些不现实的动作，并将它们从数据集中移除。这个过程类似于一个筛选机制，确保最终保留下来的数据集只包含机器人能够执行的动作。

数据集的清洗与优化：

清除不现实动作后，剩下的数据集会被进一步清洗和优化。这可能包括对动作序列进行平滑处理，以减少突变和不连贯的动作，从而使动作更加自然和流畅。

清洗后的数据集将用于后续的仿真到现实训练阶段，为机器人提供高质量的动作样本，以便在现实世界中进行准确的模仿。

通过这一阶段的工作，可以生成一个既真实又干净的运动数据集，这个数据集将用于训练机器人的实时远程操控能力。特权模仿策略的使用确保了机器人能够在仿真环境中学习到高质量的动作，这些动作在现实世界中也能够被准确地执行，从而提高了人形机器人远程操控的可行性和效率。

2.3 仿真到现实训练（Sim-to-Real Training）

仿真到现实训练（Sim-to-Real Training）是H2O框架中的一个关键阶段，它的目的是让训练出的模仿策略（imitation policy）能够在现实世界中有效地工作。这一阶段的关键在于利用仿真环境来模拟现实世界的复杂性，并确保策略在真实世界中也能够表现出良好的泛化能力和鲁棒性。

图片

以下是该阶段的详细介绍：

模仿策略的训练目标：

在仿真环境中，模仿策略的目标是学习如何准确地跟踪和模仿从清洗过的重定向数据集中采样的运动目标。这意味着策略需要学会根据人类操作者的动作来控制人形机器人的动作，以便在真实世界中复现这些动作。

域随机化（Domain Randomization）：

为了弥合仿真与现实之间的差距，训练过程中广泛使用了域随机化技术。域随机化通过在仿真环境中随机改变某些参数（如摩擦系数、机器人的质量、关节的P/D增益、扭矩噪声等）来增加训练数据的多样性。

这种方法可以使模仿策略在面对现实世界中的变化和不确定性时表现得更加鲁棒。通过在仿真中“见识”过各种不同的情况，策略能够更好地适应真实环境中可能出现的意外和变化。

策略的训练过程：

模仿策略的训练采用强化学习方法，近端策略优化（Proximal Policy Optimization, PPO）。在训练过程中，策略会根据与人类动作的匹配程度来获得奖励，以此来调整其行为，使得机器人的动作更加接近人类的动作。

训练过程中，策略会不断地尝试新的行动，并根据结果（例如，动作的准确性、机器人的稳定性等）来更新其参数，从而逐步提高其模仿人类动作的能力。

策略的评估与调整：

在训练过程中，需要定期评估模仿策略的性能，确保其在仿真环境中能够有效地模仿人类动作。如果策略的性能不佳，可能需要调整训练参数、奖励函数或领域随机化的范围。

一旦策略在仿真环境中表现出良好的性能，就可以将其应用于现实世界的机器人上，进行实际的远程操控测试。

通过这一阶段的训练，模仿策略将具备在现实世界中控制人形机器人执行各种复杂动作的能力，从而为实时远程操控部署阶段打下坚实的基础。

2.4 实时远程操控部署

实时远程操控部署（Real-time Teleoperation Deployment）是H2O框架的最终应用阶段，它将之前阶段训练好的模仿策略应用于真实世界中，实现人类操作者对人形机器人的实时远程操控。

图片

以下是该阶段的详细介绍：

RGB动作捕捉：

在此阶段的开始，使用RGB摄像头和3D姿态估计器（如HybrIK）来捕捉人类操作者的动作。姿态估计器以30Hz的频率运行，能够从摄像头捕获的视觉数据中提取出人体的关键点信息，进而推断出操作者的整体姿态和运动。

信号处理与转换：

从姿态估计器获得的人体关键点信息随后被转换成机器人可以理解的指令。这通常涉及到将人体姿态映射到机器人的运动学模型上，以便机器人的关节和末端执行器能够模仿操作者的动作。

模仿策略的应用：

转换后的信号被用来指导训练好的仿真到现实模仿策略。这个策略已经通过之前的仿真到现实训练阶段学习了如何根据人类动作来控制机器人的动作。在实时部署中，策略会根据当前的操作者姿态来决定机器人应该执行的动作。

机器人控制：

模仿策略输出的机器人动作指令通过比例-微分（PD）控制器以200Hz的频率被应用到人形机器人上。PD控制器负责将机器人的实际关节位置和速度调整到策略指定的目标位置和速度，以实现精准的运动控制。

实时反馈与调整：

在远程操控过程中，机器人的传感器持续监测其自身状态，包括关节位置、速度、加速度等信息。这些数据被实时反馈给模仿策略，以便进行必要的调整和优化，确保机器人的动作与操作者的意图保持一致。

执行复杂任务：

通过上述过程，人形机器人能够在现实世界中实时地执行操作者的动作，完成各种复杂的任务。这些任务可能包括行走、跑步、跳跃、踢球、搬运物品等，展示了实时远程操控系统的高效性和灵活性。

实时远程操控部署阶段的成功实施，不仅展示了H2O框架在实际应用中的潜力，也为未来人形机器人在辅助人类工作、灾难救援、家庭服务等领域的应用提供了技术基础。通过这种方式，人形机器人能够更加自然地与人类互动，并在人类的指导和控制下完成更加复杂的任务。

实验

远程操控，使用RGB来捕捉人类动作完成以下动作。

图片

对外部干扰也很鲁棒。

图片

结论

本文成功提出了H2O框架，一种基于强化学习的实时人形机器人远程操控系统。通过创新的“sim-to-data”过程和零样本迁移学习，该框架能够将人类动作准确地映射到机器人上，实现了在真实世界中对机器人的高效控制。实验结果表明，H2O框架在执行复杂任务如行走、踢球和后跳等方面表现出色，展示了其在提高人形机器人远程操控实用性和鲁棒性方面的显著优势。这一突破性工作为人形机器人在多种实际应用场景中的部署提供了强有力的技术支持。