Exbody 2——从MDM、RobotMDM到UC San Diego的Exbody：人体运动扩散模型赋能机器人的训练

v_JULY_v

已于 2025-04-30 00:06:56 修改

阅读量4.8k

点赞数 26

分类专栏：人形发展史：HumanPlus/H2O/VLA Helix 文章标签：运动扩散模型人体动作生成 MDM RobotMDM Exbody 2 Exbody 富有表现力的全身控制

于 2024-10-11 23:25:20 首次发布

本文链接：https://blog.csdn.net/v_JULY_v/article/details/142854390

版权

人形发展史：HumanPlus/H2O/VLA Helix 专栏收录该内容

13 篇文章

订阅专栏

前言

在上一篇文章《OmniH2O——通用灵巧且可全身远程操作并学习的人形机器人(其前身H2O是HumanPlus的重要参考)》中的“2.3节趣味工作：语音指令控制机器人干活与GPT4o加持”时，我们提到

通过将与预训练的文本到人体动作生成扩散模型MDM[57-Human motion diffusion model]连接，实现了通过语音指令控制人形机器人

如下图所示

人类可以描述所需的动作，例如“举起你的右手”，然后MDM生成相应的动作目标，由OmniH2O跟踪「with humans describing desired motions, such as “raise your right hand”. MDM generatesthe corresponding motion goals that are tracked by the OmniH2O」

我个人感觉到很amazing，毕竟确实挺酷的，直接口头让机器人干活

语音模型根据人类语音转换成文本
然后类似MDM、Momask这样的模型再根据文本生成3D骨骼动画，作为机器人的动作目标
然后用训练好的策略去驱动人形机器人达到该动作目标

我自己都想复现这个工作了..

故，本文来了

第一部分从Human Motion Diffusion Model、PhysDiff到RobotMDM

1.1 动态扩散模型

22年9月，来自TAU的研究者们通过此篇论文《Human Motion Diffusion Model》提出了运动扩散模型MDM，在该文中，作者通过在无分类器的方式下对CLIP进行条件化来实现文本到动作的转换，类似于文本到图像

如下图所示「运动扩散模型（MDM）通过在给定文本提示的情况下生成多样化的动作，反映了文本到动作映射的多对多特性，其中，较深的颜色表示序列中的较晚帧，即最后生成的帧」

1.1.1 MDM的整体框架与几何损失

MDM的目标是在给定任意条件c的情况下合成长度为N的人体动作x1:N。这个条件可以是任何将决定合成的现实世界信号，例如音频（Li等，2021；Aristidou等，2022）、自然语言（文本到动作）（Tevet等，2022；Guo等，2022a）或离散类别（动作到动作）（Guo等，2020；Petrovich等，2021）

此外，也可以进行无条件的动作生成，此时将其表示为空条件 $c=\emptyset$ ，生成的动作 $x^{1: N}=\left\{x^{i}\right\}_{i=1}^{N}$ 是由关节旋转或位置 $x^{i} \in \mathbb{R}^{J \times D}$ 表示的人体姿势序列，其中 $J$ 为关节的个数， $D$ 为关节表示的维数(总之，MDM 可以接受由位置、旋转或两者共同表示的运动，下文还会详述此点)

首先，在整体框架上

扩散建模为马尔可夫噪声过程， $\left\{x_{t}^{1: N}\right\}_{t=0}^{T}$ ，其中 $x_{0}^{1: N}$ 取自数据分布，且有

$q\left(x_{t}^{1: N} \mid x_{t-1}^{1: N}\right)=\mathcal{N}\left(\sqrt{\alpha_{t}} x_{t-1}^{1: N},\left(1-\alpha_{t}\right) I\right)$

其中， $t \in(0,1)$ 是常数超参数，当 $\alpha_{t}$ 足够小时，可以得到如此近似 $x_{T}^{1: N} \sim \mathcal{N}(0, I)$ 。从这里开始，用 $x_t$ 表示在噪声步骤 $t$ 的完整序列

在该语境中，条件运动合成将分布 $p\left(x_{0} \mid c\right)$ 建模为逐步清理 $x_T$ 的反向扩散过程。且不再像 Ho 等人所提出的那样预测 $\epsilon_t$ ，而是遵循 Ramesh 等人（2022）的方法，直接预测信号本身，即 $\hat{x}_0=G(x_t, t, c)$ ，其目标是（Ho 等人，2020）

$\mathcal{L}_{\text {simple }}=E_{x_{0} \sim q\left(x_{0} \mid c\right), t \sim[1, T]}\left[\left\|x_{0}-G\left(x_{t}, t, c\right)\right\|_{2}^{2}\right]$

其次，在几何损失上

在运动领域，生成网络通常使用几何损失进行正则化（Petrovich等，2021；Shi 等，2020）。这些损失用于强化物理属性并防止伪影，促进自然和连贯的运动

在这项工作中，作者尝试了三种常见的几何损失来调节（1）位置（在我们预测旋转的情况下），（2）脚部接触，以及（3）速度

$\begin{array}{c} \mathcal{L}_{\mathrm{pos}}=\frac{1}{N} \sum_{i=1}^{N}\left\|F K\left(x_{0}^{i}\right)-F K\left(\hat{x}_{0}^{i}\right)\right\|_{2}^{2} \\ \mathcal{L}_{\text {foot }}=\frac{1}{N-1} \sum_{i=1}^{N-1}\left\|\left(F K\left(\hat{x}_{0}^{i+1}\right)-F K\left(\hat{x}_{0}^{i}\right)\right) \cdot f_{i}\right\|_{2}^{2} \\ \mathcal{L}_{\text {vel }}=\frac{1}{N-1} \sum_{i=1}^{N-1}\left\|\left(x_{0}^{i+1}-x_{0}^{i}\right)-\left(\hat{x}_{0}^{i+1}-\hat{x}_{0}^{i}\right)\right\|_{2}^{2} \end{array}$

如果预测关节旋转，FK(·)表示将关节旋转转换为关节位置的正向运动学函数（否则，它表示恒等函数）。 $f_{i} \in\{0,1\}^{J}$ 是每一帧 $i$ 的二进制足部接触掩码。仅与足部相关，它指示它们是否接触地面，并根据二进制真实数据设置（Shi等，2020）。本质上，它通过在接触地面时将速度归零来减轻足部滑动效应

总体而言，训练损失是

$\mathcal{L}=\mathcal{L}_{\text {simple }}+\lambda_{\text {pos }} \mathcal{L}_{\text {pos }}+\lambda_{\text {vel }} \mathcal{L}_{\text {vel }}+\lambda_{\text {foot }} \mathcal{L}_{\text {foot }}$

1.1.2 MDM的模型架构图

如下图所示

在左侧中可以看到该模型的输入总共有两个：一个运动序列 $x_{1:N}^t$ ——一个噪声步骤中长度为N的序列，和一个条件编码 $c$
但这个条件编码 $c$ 需要先做一定处理，即它一开始是一个基于CLIP（Radford等，2021）的文本嵌入，首先被随机屏蔽以进行无分类器学习「通过使用CLIP（Radford等人，2021）文本编码器将文本提示编码为c来实现文本到运动的转换，并通过每个类别的学习嵌入实现动作到运动的转换」，然后与 $t$ 一起投影到输入token $z_{t k}$ 中——相当于噪声时间步 $t$ 和条件编码 $c$ 分别通过独立的前馈网络投影到与transformer相同的维度，然后相加以生成token $z_{t k}$
The model is fed a motion sequencex1:Nt of length N in a noising step t, as well as t itself and a conditioning code c. c, a CLIP (Radfordet al., 2021) based textual embedding in this case, is first randomly masked for classifier-free learningand then projected together with t into the input token ztk.

且噪声输入xt的每一帧也被线性投影到与transformer相同的维度，并与标准位置嵌入相加。 $z_{t k}$ 和投影帧随后被输入到编码器。除去第一个输出token（对应于 $z_{t k}$ ），编码器的结果被投影回原始运动维度，并作为预测 $\hat{x}_{0}$ ——即在在每个采样步骤中，transformer编码器预测最终的干净运动 $\hat{x}_{0}^{1: N}$
在右侧则是采样MDM
给定一个条件 $c$ ，然后在期望运动的维度上采样随机噪声 $x_T$ ，然后从T迭代到1。在每个步骤 $t$ ，MDM预测干净样本 $\hat{x}_{0}$ ，并将其扩散回 $x_{t-1}$

具体而言，根据Ho等人（2020）的说法，从 $p\left(x_{0} \mid c\right)$ 进行采样是以迭代的方式完成的
在每个时间步 $t$ ，预测出干净样本 $\hat{x}_{0}=G\left(x_{t}, t, c\right)$ ，然后将其重新加噪至 $x_{t-1}$

这一过程从 $t=T$ 开始重复，直到获得 $x_0$
$\rightarrow$ 且使用无分类器引导法训练我们的模型G（Ho & Salimans，2022），在实际操作中，G通过随机设置 $c=\emptyset$ 来学习有条件和无条件的分布，这占样本的10%，使得 $G\left(x_{t}, t, \emptyset\right)$ 可以近似 $p\left(x_{0}\right)$
$\rightarrow$ 然后，在对G进行采样时，可以通过插值甚至外推这两种变体来在多样性和保真度之间进行权衡——使用 $s$
$G_{s}\left(x_{t}, t, c\right)=G\left(x_{t}, t, \emptyset\right)+s \cdot\left(G\left(x_{t}, t, c\right)-G\left(x_{t}, t, \emptyset\right)\right)$

// 待更

1.2 PhysDiff

1.3 RobotMDM

第二部分 UC San Diego的Exbody

2.1 提出背景与相关工作

2.1.1 提出背景与其定义

尽管基于物理的角色动画能够生成在虚拟环境中看起来很自然的反应式控制策略，但这种结果通常涉及到较大的执行器增益，范围在60kg/m，这比当前硬件所能实现的增益大一个数量级

且他们还发现，人类的参考运动通常包含比机器人硬件更多的自由度(DoF)。例如，基于物理的动画可以使用更多的自由度『例如，69个自由度[35]』，而真实世界中的机器人(例如，Unitree H1)仅有19个自由度

24年2月初，UC San Diego提出了一种面向人形机器人的全身运动控制策略Exbody，其对应的论文为《Expressive Whole-Body Control for Humanoid Robots》

其通过结合来自图形学社区的大规模人类运动捕捉数据，和在仿真环境中的深度强化学习RL，生成一个可以直接部署在真实机器人上的全身控制器
Exbody的核心思想是不完全模仿参考动作。他们提出了一种新颖的控制器训练方法，该控制器以参考动作和根运动命令作为输入，用于真实的人形机器人控制「We propose to train a novel controller that takes both a reference motion and a root movement commandas inputs for real humanoid robot control」
他们将这种方法称为表达性全身控制(Expressive Whole-Body Control，简称ExBody）

在使用RL进行训练时，鼓励人形机器人的上半身模仿多样化的人类动作以实现表达性，同时放松对其双腿的动作模仿要求

具体来说，腿部运动的奖励函数被设计为稳健地跟随参考动作提供的根运动命令，而不是匹配每个确切的关节角度。且在高度随机化的复杂地形模拟中训练我们的策略。这不仅允许稳健的仿真到现实的转移，还学习了一种不会简单“重复”给定动作的策略
用户可以命令人形机器人以不同的速度移动，在不同的方向转弯，在多样的地形上行走，同时在上半身再现参考动作
如图1所示，可以命令机器人与人类共舞，挥手和握手，同时行走，或者在不同地形上像木乃伊一样行走
作者在模拟和现实实验中采用了Unitree H1机器人
且为了从多样化的人类动作中学习，使用了CMU的MoCap数据集(大约包含780个参考动作)。这种丰富性不仅使得人形机器人动作更具表现力，也使得行走更加稳健
他们认为他们的结果表明，ExBody的方法通过放宽约束确实能够带来更好和更稳健的结果

2.1.2 相关工作

第一方面，对于全身控制与腿式机器人

腿式机器人通常需要协调整个身体来完成一些任务或动作，例如跳舞、伸手拿远处的物体等

这些动作以前主要通过动力学建模和控制来实现
40-Dynamic walk of a biped
61-Simbicon: Simple biped locomotion control
21-Anymal-a highly mobile and dynamic quadrupedal robot
41-Whole-body control of humanoid robots
9-Whole body humanoid control from human motion descriptors
26-The 3d linear inverted pendulum mode: A simple modeling for a biped walking pattern generation
57-Hybrid zero dynamics of planar biped walkers

然而，对于具有高自由度的人形机器人
17-Mabel, a new robotic bipedal walker and runner
27-Development of wabot
20-The development of honda humanoid robot
7-The mit humanoid robot: Design,motion planning, and control for acrobatic behaviors
2-Boston Dynamics
1-Agility Robotics
这将需要大量的工程和建模[51-A compliant hybrid zero dynamics controller for stable, efficient and fast bipedal walking on mabel]，并且对真实世界的动力学变化敏感
最近针对四足机器人的基于学习的方法
15-Deep whole-body control: learning a unified policy for manipulation and locomotion
22-Efficient multitask learning with an embodied predictive model for door opening and entry with wholebody control
5-Legs as manipulator: Pushing quadrupedal agility beyond locomotion
23-Learning wholebody manipulation for quadrupedal robot
48- Curiositydriven learning of joint locomotion and manipulation tasks
25-Dribblebot: Dynamic legged manipulation in the wild
24-Hierarchical reinforcement learning for precise soccer shooting skills using a quadrupedal robot
实现了全身运动和操作能力

这些进展还促进了基于学习的人形控制的改进
29-Words into action: Learning diverse humanoid robot behaviors using language guided iterative motion refinement
52-Humanmimic: Learning natural locomotion and transitions for humanoid robot
via wasserstein adversarial imitation
31- Robust and versatile bipedal jumping control through multi-task reinforcement learning
49-Deep imitation learning for humanoid loco-manipulation through human teleoperation

然而，大多数研究更关注于运动方面或学习相对较小的数据集
与之前的所有工作不同，Exbody的研究实现了对真实世界中人类大小机器人进行全身控制以表现丰富的动作

第二，对于崎岖地形的研究

崎岖地形的研究已经被广泛开展

包括通过奖励规范化
39- Rapid locomotion via reinforcement learning
28-Rma: Rapid motor adaptation for legged robots
14-Minimizing energy consumption leads to the emergence of gaits in legged robots
13- Learning deep sensorimotor policies for vision-based autonomous drone racing

模仿学习[11-Adversarial motion priors make good substitutes for complex reward functions]

以及步态启发式[30-Reinforcement learning for robust parameterized locomotion control of bipedal robots,50-Blind bipedal stair traversal via sim-to-real reinforcement learning]的方法

另，基于视觉的运动已经在跨越楼梯
4- Legged locomotion in challenging terrains using egocentric vision
60-Neural volumetric memory for visual locomotion control
38- Learning to jump from pixels
10-Learning vision-based bipedal locomotion for challenging terrain

征服跑酷障碍[63-Robot parkour learning,6-Robot parkour learning]、操作箱体[8-Sim-to-real
learning for humanoid box loco-manipulation]等方面取得了巨大成功
然而，这些工作尚未完全利用示例数据。即使是利用重新定位的动物运动或预优化轨迹的工作，仍然使用了非常小的数据集
[43- Learning agile robotic locomotion skills by imitating animals
56-Amp in the wild: Learning robust, agile, natural legged locomotion skills
11-Adversarial motion priors make good substitutes for complex reward functions
16-Opt-mimic: Imitation of optimized trajectories for dynamic quadruped behaviors
59-Generalized animal imitator: Agile locomotion with versatile motion prior]

而Exbody的框架可以从使用大规模运动数据集中学习中受益

第三，基于物理的角色动画

全身类人动作控制在计算机图形学领域得到了广泛研究，其目标是生成逼真的角色行为

诸如[45, 46, 53, 19]之类的对抗方法随着动作越来越多会出现模式崩溃的问题。Peng 等人[46]使用单位球体潜在空间来表示 187 种动作
然而，它仍然存在模式崩溃的问题，并且利用了额外的技能发现目标
基于模仿的方法[58， 55， 62， 42]通过将 “控制和动作生成” 解耦来缓解此问题，其中训练了一个通用的动作跟踪控制器来跟踪任何动作，而动作生成器输出要跟踪的动作
mitation-basedmethods [58, 55, 62, 42] alleviate this problem by decoupling control and motion generation, where a general motion track-ing controller is trained to track any motions and a motiongenerator outputs motions to track.

这些工作展示了成功转移到真实的机器人四足动物[44,11]
[58]将整个CMU MoCap数据分成几个簇，并训练专家混合策略以再现整个数据集的物理上合理的控制器
Luo等人[35]通过逐步分配新网络来学习新动作，使用了类似的想法
然而，这些方法很难转移到真实的人形机器人，因为不现实的角色模型『SMPL人形模型[33]总共有69个自由度，23个球形关节被驱动，每个关节有3个自由度，通常没有扭矩限制』，以及使用了仿真环境中的特权信息（机器人世界坐标、速度等），如表 I 所示

因此，作者提出了表达性全身控制以解决此问题。ExBody 放宽了下半身跟踪目标，而是使用了全身根部运动目标
且考虑到机器人的能力，他们选择了一组运动，主要包括步行、日常行为和表情，并且只使用一个单一的网络来处理所有运动

2.1.3 问题定义：根部运动控制与Expressive Whole-Body Control

作者将人形运动控制视为学习一个目标条件的运动策略

$\pi: \mathcal{G} \times \mathcal{S} \mapsto \mathcal{A}$

其中

$\mathcal{G}$ 是指定行为的目标空间，S 是观察空间，A 是包含关节位置和扭矩的动作空间
在本文的其余部分假设，在不失一般性的情况下，观察空间和动作空间由H1 人形机器人设计给出
且作者声明，他们认为他们提出的方法应该可以推广到类似的身体形式，即使它们在具体的驱动自由度数量上有所不同

一方面，是命令条件的运动控制(Command-conditioned Locomotion Control)——根部运动控制

作者的的目标是为 Unitree H1 硬件生成一个稳健的控制策略，该策略能够通过线性速度 $\mathbf{v} \in \mathbb{R}^{3}$ 、以横滚/俯仰/偏航 $r p y \in \mathbb{R}^{3}$ 表示的机身姿态，以及在根链接处测量的机身高度 $h$ 来进行指令控制

形式上，根部运动控制的目标空间为

$\mathcal{G}^{m}=\langle\mathbf{v}, r p y, h\rangle$

观测 $S$ 包括机器人的当前本体感知信息 $s_t = \left[\omega_{t}, r_{t}, p_{t}, \Delta y, q_{t}, \dot{q}_{t}, \mathbf{a}_{t-1}\right]^{T}$
$\omega_{t}$ 是机器人根部的角速度， $r_{t}$ , $p_{t}$ 分别是横滚和俯仰
注意，策略并未观测当前速度 $v$ 、绝对身体高度 $h$ 以及当前偏航角 $y_{t}$ ，因为这些是对真实机器人来说的特权信息

如下表1所示，在 PHC中，策略观察每个刚体的线速度Linear velocities和关键点位置keypoint positions，而在 ASE 中，线速度仅针对根部root。PHC 和 ASE都观察到在真实机器人上不可用的特权状态
且作者让策略观察当前偏航角与期望偏航角之间的差异 $\Delta y=y_{t}-y$ ，以将全局量转换为局部框架，从而可以在部署时直观地指令
动作 $\mathbf{a}_{t} \in \mathbb{R}^{19}$ 是关节级比例-微分(PD)控制器的目标位置
PD 控制器使用指定的PD 增益 $k_{p}^{i}$ 和阻尼系数 $k_{d}^{i}$ 计算每个电机的扭矩

二方面，是富有表现力的全身控制(Expressive Whole-Body Control，ExBody)

作者将命令条件的运动控制扩展为包含机器人运动的描述，这些描述未被 $\mathcal{G}^{m}$ 中的根姿态和速度捕获

故作者将其表述为更通用的目标空间 $\mathcal{G}=\mathcal{G}^{e} \times \mathcal{G}^{m}$ ，其中表达目标 $\mathbf{g}^{e} \sim \mathcal{G}^{e}$ 包括期望的关节角度和身体的各种3D 关键点位置

具体来说，在这项工作中，作者处理一个放宽的问题，其从 $\mathcal{G}^{e}$ 中排除了身体下半部分的关节和关键点。这是因为机器人与人类的身体结构不同，包含来自人体运动捕捉数据的下半身特征往往会使问题过于受限，导致控制策略脆弱且性能较差

形式上，对于本文的其余部分，使用

$\mathcal{G}^{e}=\langle\mathbf{q}, \mathbf{p}\rangle$

其中

$\mathbf{q} \in \mathbb{R}^{9}$ 是上半身九个执行器的关节位置
$\mathbf{p} \in \mathbb{R}^{18}$ 是两个肩膀、两个肘部以及左右手的3D 关键点

表达性全身控制ExBody的目标是同时跟踪：根部运动目标(针对全身) $\mathbf{g}^{m} \sim \mathcal{G}^{m}$ ，以及表达式目标(针对上半身) $\mathbf{g}^{e} \sim \mathcal{G}^{e}$ 『The goal of expressive whole-body control (ExBody)is to simultaneously track both the root movement goal (for the whole body) gm ∼Gm, as well as the target expression goal (for upper body) ge ∼Ge』

2.2 表达式全身控制ExBody

如下图图2所示

框架能够使用来自多种来源的数据进行训练，例如静态人体运动数据集、生成模型、视频到姿态模型等，这些资源广泛可用
在运动重定向之后，获得了一系列与机器人运动学结构兼容的运动片段
且作者从重定向的运动片段的丰富特征中提取表达目标 $\mathbf{g}^{e}$ 和根部运动目标 $\mathbf{g}^{m}$ ，作为“目标条件强化学习目标”的目标
We extract expression goal ge and root movement goal gm from the rich features from retargeted motion clips as the goal of our goal-conditioned RL objective.

根部运动目标 $\mathbf{g}^{m}$ 也可以通过操纵杆命令直观地给出，从而能够方便地在现实世界中部署

在接下来的章节中，将介绍该方法的关键组成部分，包括将人类动作捕捉数据策划和重定向到人形机器人硬件的策略，以及如何利用这些先验知识改进强化学习训练过程

// 待更

第三部分 Exbody 2

24年12月17，UC San Diego的该Xiaolong Wang团队推出Exbody的升级版Exbody 2

其项目地址为：exbody2.github.io
其对应paper为：ExBody2: Advanced Expressive Humanoid Whole-Body Control

这是一种通用的全身跟踪框架，可以接受任何参考动作输入并控制人形机器人模仿动作。该模型在仿真环境中通过强化学习进行训练，然后转移到现实世界。它将关键点跟踪与速度控制解耦，并有效利用特权教师策略(privileged teacher policy)将精确的模仿技能传授给目标学生策略，能够高保真地复制动态动作，如跑步、蹲下、跳舞和其他挑战性动作

3.1 Exbody 2的提出背景与其创新性

3.1.1 提出背景与相关工作

机器人动作模仿机器人动作模仿可以分为两个主要领域：操作和表现力

对于操作任务，机器人——通常是轮式或桌面式的——优先考虑精确控制平衡和地面接触，使得人形形态变得不必要
这类机器人通常使用远程操作[2-Rt-1,3- Rt-2,79-ALOHA ACT，Learning fine-grained bimanual manipulation with low-cost hardware]

或人类示范[5-Arcap: Collecting high-quality human demonstrations for robot learning with augmented reality feedback,34-Egomimic: Scaling imitation learning via egocentric video,65-Hrp: Human affordances for robotic pretraining,70-Dexcap: Scalable and portable
mocap data collection system for dexterous manipulation，详见此文《DexCap——斯坦福李飞飞团队泡茶机器人：带灵巧手和动作捕捉的数据收集系统(含硬件改进VIVE)》]的数据
相比之下，表现性动作模仿则专注于从人类或动物动作捕捉数据中学习逼真的行为。由于需要对接触和平衡进行精细控制，这一任务更加具有挑战性

尽管强化学习已经在模拟中实现了基于物理的角色动作模仿[22-Synthesizing physical character-scene interactions,43-Character controllers using motion vaes,44-Universal humanoid motion representations for physics-based control,54-Amp,55-Ase,67-Calm,68-Maskedmimic,71-Strategy and skill learning for physics-based table tennis animation,77-Learning physically simulated tennis skills from broadcast videos]，但将这些方法转移到真实机器人上仍然是一个重大挑战
[8--Exbody,15-Learning Multi-Modal Whole-Body Control for Real-World Humanoid Robots,
16-Adversarial motion priors make good substitutes for complex reward functions,
20-Humanplus 详见此文《HumanPlus——斯坦福ALOHA团队开源的人形机器人：融合影子学习技术、RL、模仿学习》,
23- Omnih2o《OmniH2O——通用灵巧且可全身远程操作并学习的人形机器人(含其前身H2O：HumanPlus的重要参考)》,
25-Hover,53-Learning agile robotic locomotion skills by imitating animals]

目前，随着大规模人类运动数据集的日益可用[4-mocap database,45-Amass: Archive of motion capture as surface shapes]，解决这一挑战的实用方法是通过跟踪和模仿人类动作来学习复制多样化的运动[8-Exbody,20-Humanplus,23-Omnih2o,24-H2O]

然而，考虑到硬件，人形机器人和人类仍然存在很大差异，这阻碍了机器人完全复制人类动作的能力。这提出了一个引人注目的研究问题：在考虑到其物理限制的情况下，如何追求类人机器人的表现力和类似人类的能力，同时保持其稳定性和鲁棒性？

3.1.2 Exbody 2的4个关键设计

对此，作者训练了一个可以跨不同输入运动进行泛化的单一策略。并确定了实现这一目标的四个技术设计：

(i) 构建可行且多样化的训练数据集。像AMASS [45]这样的人体运动数据集通常包含超出机器人物理能力的复杂运动，使得跟踪过于具有挑战性并降低性能。一些工作通过改进数据集来解决这个问题

例如，ExBody[8]使用语言标签过滤掉不可行的运动，尽管模糊的描述（例如“跳舞”）仍可能包括不合适的运动。其他方法，如H2O[24]和OmniH2O [24]，使用SMPL模型模拟虚拟人形并过滤掉复杂运动。然而，SMPL化身可以执行真实机器人无法做到的极端动作，导致模拟与现实世界可行性之间的差距，仍可能影响训练效果

作者系统地分析了数据集的难度和多样性，重点关注上半身运动多样性以实现稳定性和跟踪准确性，以及下半身的可行性以实现稳健的训练。实验表明，数据集中的多样性和可行性对于在训练和测试阶段实现表现力和稳定性行为至关重要
(ii)两阶段训练。ExBody2采用了如下图图2所示的两阶段教师-学生训练框架「(b)ExBody2在Unitree G1和H1全身控制任务中采用了教师-学生学习框架」
首先使用标准的强化学习算法PPO[60]在模拟环境中利用特权信息训练教师策略，这些特权信息包括真实的根速度、每个身体链接的精确位置以及其他物理属性（例如摩擦力）。这产生了一种能够准确模仿多种人类动作的有效策略

然后，通过对教师策略执行DAgger[59-A reduction of imitation learning and structured prediction to noregret online learning]风格的蒸馏来学习可部署的学生策略
对于学生策略，特权信息被一系列历史观察所取代
(iii) 局部关键点跟踪策略。之前的全身跟踪方法，如 H2O [24] 和 OmniH2O [23]，依赖于关键点位置的全局跟踪。这种方法通常会导致在机器人难以与当前全局关键点对齐时，在后续步骤中出现跟踪失败，限制了其在高度静止场景中的应用

相比之下，ExBody2 将关键点转换到局部坐标系，并将关键点跟踪与速度控制解耦。为了进一步提高跟踪的鲁棒性，作者定期将全局跟踪关键点重置到局部坐标系。此方法确保了持续且稳健的全身跟踪
(iv) 使用CVAE进行远程运动。借助增强的全身跟踪能力，ExBody2的机器人现在可以执行长时间的运动模仿。然而，现有数据集中的动作相对较短，这在旨在实现连续运动执行而无需人工重置时提出了挑战

为了解决这个问题，作者训练了一个条件变分自编码器(CVAE)[64-Learning
structured output representation using deep conditional generative models,79-ALOHA ACT]模型来合成未来的动作

如下图图2-c所示「(c) ExBody2采用了基于Transformer的CVAE进行连续运动合成，(d) 通过跟踪CVAE生成的运动，ExBody2可以在现实世界中无缝部署，以生动地模拟持续运动」

CVAE利用过去的动作信息生成未来的动作序列，使机器人在部署期间能够无缝执行复杂且富有表现力的动作

3.2 ExBody2的4个组件：数据集策划、策略学习、运动合成和实际部署

ExBody2由四个主要组件组成：数据集策划、策略学习、运动合成和实际部署。接下来，将详细介绍ExBody2的这些组件

3.2.1 动作数据集整理

在ExBody2的动作数据集整理过程中，重点放在对动作的详细分析和选择，尤其是区分上半身和下半身运动所需的能力

此策略性方法旨在优化在可行范围内用于机器人实现的动作多样性

上半身动作的数据集包括各种各样的上半身动作。这种多样性对于挑战和增强机器人的适应性和为真实世界应用的准备至关重要，因为在面对意外情况时，灵活的反应是至关重要的
下半身动作由于机器人的机械限制和稳定性要求，选择下半身动作时采取了更为保守的方法。包括诸如行走和细微姿势调整等基本的运动动作

然而，诸如跳跃或复杂旋转动作等高度动态的动作需要进行仔细评估。在不切实际的动作上进行训练会在学习过程中引入噪声，从而降低其有效性。平衡动作与数据集完整性数据集的策划过程涉及在挑战机器人能力和保持动作在可行范围内之间的微妙平衡

过于简单的任务可能会限制训练策略推广到新情况的能力，而过于复杂的任务可能超出机器人的操作能力，导致无效的学习结果
因此，数据集准备的一部分包括排除或修改那些包含超出机器人能力的复杂下半身动作的条目。这一步骤对于确保数据集充满可操作内容而不因不切实际的任务而使机器人的学习算法不堪重负至关重要。通过精心策划，作者策划了适合机器人训练的最佳平衡的不同数据集

3.2.2 策略学习：教师策略与学生策略

ExBody2旨在通过全身更具表现力地跟踪目标运动。为此，ExBody2采用了一种有效的两阶段师生训练程序，如[37-Rma,38-Learning quadrupedal locomotion over challenging terrain]中所述

3.2.2.1 教师策略的训练

具体来说，首先使用现成的强化学习算法PPO [60]，在模拟器中仅能获取的特权信息下训练出一个理想的教师策略

可以将人形运动控制问题表述为一个马尔可夫决策过程（MDP），状态空间 $\mathcal{S}$ 包含特权观测 $\mathcal{X}$ 、本体感知状态 $\mathcal{O}$ 和运动跟踪目标 $G$
策略π 以 $\left\{p_{t}, o_{t}, g_{t}\right\}$ 作为输入，并输出动作 $\hat{a}_{t}$ ，如图2 中所示为教师策略
预测的动作 $\hat{a}_{t} \in R^{23}$ 是关节比例微分（PD）控制器的目标关节位置
作者使用现成的PPO [60] 算法来最大化累积未来奖励的期望
$E_{\hat{\pi}}\left[\sum_{t=0}^{T} \gamma^{t} \mathcal{R}\left(s_{t}, \hat{a}_{t}\right)\right]$
这鼓励以稳健的行为跟踪示范。预测的 $\hat{a}_{t} \in R^{23}$ 是关节比例微分（PD）控制器的目标位置

对于特权信息，包含人形机器人和环境的一些真实状态，这些状态只能在模拟器中观察到。它包含真实的根速度、真实身体连接的位置和物理属性（例如摩擦系数、马达强度）。特权信息可以显著提高RL算法的样本效率，这通常被利用来获得高性能的教师政策

对于运动跟踪目标，类似于Exbody [9]，ExBody2学习一种可以通过操纵杆命令（例如线速度和身体姿态）控制的策略，以为了准确跟踪全身运动
运动跟踪目标由两个部分组成，分别是（1）上半身和下半身的目标关节和3D关键点，以及（2）目标根速度和根姿势。有关特权信息、运动跟踪信息和教师策略的本体感觉观测的完整信息，请参阅补充材料

对于奖励设计，奖励函数经过精心构建，以增强人形机器人运动的性能和逼真度。奖励的主要组成部分包括跟踪根部的速度、方向和方向，以及关键点和关节位置的精确跟踪此外

作者的跟踪奖励的主要元素详见表1

作者还加入了几个正则化项

旨在提高机器人的稳定性并增强从模拟到现实应用的可转移性。而旨在提高稳定性和sim2real能力的补充奖励将在补充材料中广泛讨论

3.2.2.2 学生策略的训练

在第二阶段，用与现实世界对齐的观测数据替换特权信息，并将教师策略提炼为可部署的学生策略。作者使用IsaacGym[46-Isaac gym: High performance gpu-based physics simulation for robot learning]进行高效并行仿真来训练ExBody2的策略

具体而言，在此阶段，我们移除特权信息，并使用更长的历史观察来训练学生策略「与特权信息教师策略利用特权信息以获得准确的运动跟踪性能不同，学生生策略是在较长的历史长度上训练的，相较于教师，因为它无法观察特权信息，而必须从较长的过去观察序列中学习」。如下图图2所示

学生策略编码了一系列的过去的观测 $O_{t-H: t}$ 与编码的 $g_{t}$ 一起用于获取预测的 $a_{t} \sim \pi\left(\cdot \mid o_{t-H: t}, g_{t}\right)$
作者使用教师的动作 $\hat{a}_{t} \sim \hat{\pi}\left(\cdot \mid o_{t}, g_{t}\right)$ 和一个MSE 损失来监督π
$l=\left\|a_{t}-\hat{a}_{t}\right\|^{2}$

为了训练学生，作者采用DAgger [59- A reduction of imitation learning and structured prediction to noregret online learning]中使用的策略，作者在模拟环境中展开学生策略π以生成训练数据

对于每个访问的状态，教师策略 $\hat{\pi}$ 计算出作为监督信号的oracle动作。然后通过迭代地最小化累积数据上的损失 $l$ 来继续优化策略π。 $\hat{\pi}$ 的训练通过连续的展开继续进行，直到损失 $l$ 达到收敛「The training of ˆπ continues through successive rollouts untilthe loss l reaches convergence」
训练学生策略的一个关键方面是保留足够长的历史观察序列

3.2.2.3 分解跟踪策略

运动跟踪包括两个目标：跟踪自由度（关节）位置和关键点（身体关键点）位置。后者关键点跟踪通常在运动跟踪中起着至关重要的作用，因为前者关节自由度的错误可能会传播到整个身体，而关键点跟踪直接应用于身体

总之，跟踪目标信息教师策略和学生策略也将运动跟踪目标作为其观察的一部分，其中包括关键点位置、自由度（关节）位置以及根部运动信息

现有的工作如H2O、OmniH2O [23,24] 学习跟随全局关键点的轨迹。然而，这种全局跟踪策略通常会导致次优或失败的跟踪行为，因为全局关键点可能会随着时间的推移而漂移，导致累积误差最终阻碍学习

为了解决这个问题，作者将全局关键点映射到机器人的当前坐标系，并改用基于速度的全局跟踪。速度和运动的协调允许在出现轻微位置偏差时完成最大表达性的跟踪
此外，为了进一步增强机器人在跟随具有挑战性的关键点运动方面的能力，允许在训练阶段关键点有小范围的全局漂移，并定期将它们校正到机器人的当前坐标系
且在部署期间，作者严格采用局部关键点跟踪与速度分解控制

3.2.3 连续运动合成：类似ALOHA ACT，通过CVAE做编码、解码

现有的运动通常较短，这限制了人形机器人连续执行有趣和延长的行为。为了解决这个问题，作者训练了一个条件变分自编码器(CVAE)[64- Learning structured output representation using deep conditional generative models,79-ALOHA ACT]来合成可以被全身跟踪策略直接使用的未来运动，使机器人在部署期间能够无缝执行复杂且富有表现力的动作

如下图图2(c) 所示，CVAE 模型包含一个基于transformer 的编码器和解码器

CVAE 采用过去M 步的运动 $m_{t-M: t}$ ，并自回归地合成未来H 步的运动 $m_{t+1: t+H+1}$ 。 $m_{t}$ 包括当前的自由度位置、根姿态、速度和角速度

具体来说，作者利用基于Transformer 的CVAE 架构，类似于[79-ALOHA ACT]中提出的架构
首先通过两个独立的MLP 分别对自由度位置和根信息进行tokenize，获得tokenized的运动信息
然后通过Transformer 编码器网络，利用[CLS] token的特征，计算后验 $q_{\phi}\left(m_{t-M: t}, m_{t+1: t+H+1}\right)$
「相当于在训练过程中，transformer编码器 $f_{e n c}$ 接收整段全部动作 $m_{t-M: t+H+1}$ 和一个分类token [CLS]，并得到输出序列」

为了简化记号并与标准CVAE 保持一致，作者将条件 $c=m_{t-M: t}$ 表示为历史上下文，而 $x=m_{t+1: t+H+1}$
表示为要预测的目标，相当于ground truth

在训练时，潜在变量 $z$ 从 $\mathcal{N}\left(\mu(c, x), \sigma(c, x)^{2}\right.$ 中采样
相当于编码器利用双向注意力从过去M 步动作 $m_{t-M: t}$ 和未来H 步动作 $m_{t+1: t+H+1}$ 中提取潜在后验变量 $z$ ——The encoder leverages bidirectional attention to extract the latent posterior variable z based on past M−step motions mt−M:t and future H-step motions mt+1:t+H+1
一个Transformer 解码器将利用 $z$ 和 $c=m_{t-M: t}$ 以及位置嵌入来预测H 步的未来运动 $\hat{x}$
相当于解码器基于因果注意力基于 $z$ 和过去M 步动作 $m_{t-M: t}$ 去预测的未来H 步动作 $m_{t+1: t+H+1}$ ——即the decoder uses causal attention to predict future H-step motions mt+1:t+H+1 based on z and mt−M:t.
1) 这里 $m_t$ 包括当前关键点位置、根速度、根角速度、位置和旋转
2) 预测归预测，那实际的未来H步动作 $m_{t+1: t+H+1}$ 怎么生成的呢？一个潜在变量z 被采样并与整段全部动作 $m_{t-M: t+H+1}$ 一起输入解码器，以生成未来H步动作 $m_{t+1: t+H+1}$
A latent variable z is sampled and fed into the decoder alongside mt−M:t+H+1 to generate mt+1:t+H+1

CVAE 损失包括重建损失 $l_{\text {recon }}=\|x-\hat{x}\|^{2}$ 和KL 散度损失
$l_{K L}=\frac{1}{2} \sum_{i=1}^{d}\left(\sigma_{i}^{2}(x, c)+\mu_{i}^{2}(x, c)-1-\log \left(\sigma_{i}^{2}(x, c)\right)\right)$

其中， $d$ 是潜在空间的维数。为了提高预测运动的平滑性，作者还应用了平滑损失 $l_{\text {smooth }}=\left\|\hat{m}_{t+1}-m_{t}\right\|^{2}+\sum_{i=t+1}^{t+H}\left\|\hat{m}_{i+1}-\hat{m}_{i}\right\|^{2}$

cVAE 训练的总损失为： $l_{\text {motion }}=l_{\text {recon }}+\alpha l_{K L}+\beta l_{\text {smooth }}$ ，在作者的实验中设置α = β = 0.5。在推理过程中，z 被设置为先验的均值（即零）
且采用与Zhao 等人[79-ALOHA ACT] 类似的时间集成策略来获得预测的未来运动