Extreme Parkour with Legged Robots

最新推荐文章于 2025-05-23 10:18:27 发布

Tony Wey

最新推荐文章于 2025-05-23 10:18:27 发布

阅读量1.2k

点赞数 36

分类专栏：具身智能文章标签：人工智能

本文链接：https://blog.csdn.net/qq_38023194/article/details/141677322

版权

具身智能专栏收录该内容

5 篇文章

订阅专栏

Extreme Parkour with Legged Robots

1. 引言 (Introduction)

跑酷是一项流行的体育运动，它涉及人类以高度动态的方式穿越障碍，例如在墙壁和斜坡上奔跑、进行长距离的协调跳跃以及越过障碍物的高跳。这项运动需要出色的眼肌协调能力，因为错过一步可能是致命的。此外，由于产生了巨大的扭矩，人类的肌肉往往在其能力的极限下工作，四肢必须以最大化机械优势的方式定位。因此，错误的余地非常小，为了成功完成动作，运动员需要做出所有正确的动作。显然，这比行走或跑步要困难得多，需要多年的训练才能掌握。在机器人领域复制这种能力不仅在软件方面是一个巨大的挑战，在硬件方面也是如此，因为机器人需要在硬件的极限下运行才能完成极限跑酷。感知和控制必须精确且紧密耦合，以便在正确的时间执行正确的动作。机器人应该具备精确的物理理解，并能够提前在障碍物前做出正确的动作，因为与普通的行走不同，从次优行为中恢复不仅不安全，而且也使任务无法完成。例如，越过宽阔的缝隙需要有足够的时间在起跳前产生所需的动量。因此，传统的方法只能在所有障碍物的布局、大小和类型都精确测量的情况下执行跑酷，这意味着必须为每个时间步长进行优化以决定正确的控制动作。然而，如果任何障碍物发生了移动，或者机器人被要求在一个新的跑酷课程上执行，所有这些挑战对于这种方法来说都是不可行的。

与此相反，人类采取了一种非常不同的方法。跑酷专家和新手使用的是相同的一组“传感器”，在学习跑酷的过程中，他们的感知能力没有显著提高。相反，通过多年的反复试验，他们学会了使用相同的不精确的感知和执行能力，在真实环境中完成令人惊叹的壮举。本文的假设是，我们可以在低成本的机器人上以类似的方式展示跑酷学习。

我们基于最近的一些研究工作，这些工作展示了在多样化场景中的行走和跑步的令人印象深刻的结果，并使用低成本的Unitree A1硬件。然而，低成本为跑酷带来了一个新的挑战，这是在以前的行走研究中不那么显著的。由于动作的噪声和延迟，感知存在伪影、延迟和抖动。因此，使用嘈杂的感知构建地形图将导致地图中的巨大误差，这将使动作规划出错。即使动作是正确的，在嘈杂和延迟的执行器上执行它们也会导致灾难性的失败。

除了从嘈杂的执行器中获得精确控制外，训练极限跑酷控制器还面临两个概念上的挑战。首先，机器人应该具有自动调整其方向的“自由”，具体取决于跑酷障碍物的类型。我们发现，即使由人类专家提供方向，也不是最佳的，因为在极长或极高的跳跃过程中，哪怕在方向上有几度的误差都会导致失败。其次，每种跑酷行为从跳跃到倒立的性质各不相同，因此将它们组合在一个神经网络中是一个具有挑战性的学习问题。

我们通过一种端到端的数据驱动强化学习框架解决了所有这些挑战。一个神经网络通过在模拟环境中进行RL训练，直接从像素输出电机命令。为了允许机器人根据障碍物类型在部署时调整自己，我们提出了一种新的双重蒸馏方法。在第一阶段，策略通过特权方向进行训练，随后在第二阶段蒸馏成预测自己的方向。结果是，在部署时，策略不仅输出灵活的电机命令，还能从输入的深度图像中快速调整方向。此外，为了允许一个神经网络表示多样化的跑酷技能行为，我们提出了一种基于内积的简单但有效的通用奖励设计原则。

四足机器人的运动控制领域已经取得了显著的进展。传统的控制方法通常依赖于模型预测控制（MPC）或优化技术，这些方法需要精确的模型和感知系统。然而，最近的研究表明，基于深度强化学习（DRL）的策略可以在不依赖精确模型的情况下，在复杂和未知的地形上实现令人印象深刻的运动能力。

深度强化学习在机器人控制中的应用：DRL已被证明可以学习复杂的控制策略，并在模拟和现实世界中都展示了其有效性。尤其是在四足机器人领域，DRL已经成功应用于学习在各种地形上行走和跑步。然而，这些策略大多局限于较为简单的地形和行为，而不涉及需要高度协调的动态行为，例如极限跑酷。

视觉控制与自我调整：传统的视觉控制策略通常依赖于预先构建的地图或先验知识，而这些信息在动态和未知环境中可能不可用。相比之下，基于DRL的方法可以从原始的视觉输入中学习运动策略，并在不依赖地图的情况下执行自我调整。我们的研究通过提出一种双重蒸馏方法，使机器人能够从视觉输入中学习到自我调整的能力，从而在跑酷任务中更好地应对不同的障碍物。

多任务学习与通用策略：在机器人控制中，学习一个可以在多个任务中表现良好的通用策略是一个具有挑战性的问题。现有的方法通常通过设计复杂的奖励函数或使用多策略学习来应对这一挑战。然而，我们提出了一种简单但有效的基于内积的奖励设计原则，可以在一个神经网络中表达多样化的跑酷行为。

蒸馏方法与特权学习：蒸馏方法通常用于将复杂的模型压缩为更简单、更高效的模型。在机器人控制中，特权学习方法允许策略在训练过程中访问更多的状态信息（即特权信息），然后在部署时使用更有限的信息。我们的双重蒸馏方法结合了这两种技术，使得机器人可以在训练中利用特权方向信息，并在部署时通过视觉感知进行自我调整。

2. 相关工作 (Related Work)

2.1 四足运动 (Legged Locomotion)

经典的运动控制方法使用基于模型的控制来定义行走控制器，并结合通过融合点云和里程计数据构建的高程图。然而，这些控制器在处理物理属性高度变化的情况时（例如冰面或可变形材料）往往难以泛化。这推动了基于强化学习（RL）的学习控制器的使用，这些控制器可以适应动态变化，并利用高程图进行感知行走。然而，构建高程图通常需要复杂的传感器，并且可能导致下游性能的下降。近期的研究完全跳过了高程图的使用，实现了高度鲁棒的感知行走。在本文中，我们推广了类似的范式，并对其进行关键性的修改，以适应跑酷任务。

表格 1: 跑酷设置的比较

带星号的论文在第2和第3行，是最近发布的并行研究。Climb和Gap列中的数字表示相对于四足机器人高度和长度的障碍物相对尺寸。值得注意的是，我们的方法能够将低成本的A1机器人推向极限场景，这些场景中的障碍物高度和长度是机器人自身的两倍。Anymal是一个工业标准的高质量机器人，因此成本更高。

Method（方法）
Robot（机器人）
Climb（攀爬）
Gap（跨越）
Ramp（坡道）
Handstand（倒立）

Method	Robot	Climb	Gap	Ramp	Handstand
Rudin et. al [31]	AnymalC	1.1	0.75	×	×
Hoeller et. al [12]*	AnymalC	2	1.5	×	×
Zhuang et. al [47]*	Unitree-A1	1.6	1.5	×	×
Extreme Parkour (ours)	Unitree-A1	2	2	37°	✔

2.2 机器人跑酷 (Robotic Parkour)

大多数动物和人类在生命的第一年内学会了基本的行走技能。相比之下，跑酷更加具有挑战性，需要多年时间才能掌握，因为一次小小的失误就可能导致失败。尽管近年来在这一任务上取得了一些进展，但成果仍然相对较少。[31] 使用了一种经典的方法，将感知分解为高程映射，并利用强化学习（RL）在此基础上训练策略。一些最近的研究展示了使用从仿真到现实（sim2real）强化学习，在四足机器人[24]和双足机器人[45, 22]上实现的盲态动态奔跑和跳跃。

2.3 并行研究 (Concurrent Work)

在我们发表这篇文章的几周内，还有另外两项相关的并行研究发布。[12] 通过训练特定任务的策略并使用一个高层次的训练模块将它们组合起来，从而展示了敏捷行为，但它们仍然依赖于高程图。[47] 则训练了一种端到端策略，使用深度图而不是高程图，但需要一个复杂的课程设计，首先在仿真中训练带有软穿透约束的策略，然后通过蒸馏技术转移到硬约束。他们还使用了简化的障碍抽象（类型、宽度、高度和机器人与障碍物的距离）作为特权视觉信息。然而，这种类型的信息无法推广到通用的障碍物几何形状。

与这两篇论文相比，我们提出了一个概念上更简单的框架，能够实现更极端的跑酷行为。简洁性来自三个关键思想：(i) 我们使用 scandots 作为特权信息，而不是特权抽象，这种信息可以推广到不同的地形几何形状；(ii) 允许策略在部署时根据障碍物决定自己的航向。这使我们能够展示跨越倾斜坡道的能力；(iii) 一个统一的通用奖励原则。此外，我们的机器人能够跨越长达其自身长度 2 倍的缝隙，并跳跃高度为其自身高度 2 倍的障碍物，而并行工作中使用 A1 机器人的跳跃能力最多为其高度的 1.5 倍和长度的 1.5 倍（见表 1）。

3. 方法 (Method)

我们希望训练一个单一的神经网络，该网络能够直接从原始深度信息和机载传感器数据生成关节角度命令。为了训练自适应的电机策略，近期的方法使用了两阶段的师生训练模式【18, 25, 36, 8】。而后来的研究【9】引入了正则化在线适应（ROA），将这一过程简化为单阶段。在训练视觉主干网络时，采用了类似的师生框架【2, 43, 23】，其中使用特权信息（scandots）训练的教师模型被蒸馏到仅访问深度信息的学生模型中。在本文中，我们使用了ROA进行适应，并采用了两阶段训练来训练视觉主干网络，但我们为极限跑酷这一具有挑战性的任务引入了关键的修改。

首先，由于跑酷需要多样化的行为来穿越不同的障碍物，因此为每个障碍物设计特定的奖励函数是非常具有挑战性的。我们提出了一种简单的、统一的奖励公式，从中多样化的行为会自动地涌现，并能够完美适应地形的几何形状。

其次，在跑酷过程中，机器人需要能够选择自己的方向，而不是遵循人类指定的方向。例如，当跨越倾斜的坡道时，它需要在第一个坡道上以非常特定的角度跳跃，然后立即改变方向，而这对于人类来说是不可能提供的。为此，我们在第一阶段通过适当放置的航点提供方向指示，而在第二阶段，我们训练一个网络从深度信息中预测这些最佳航向方向。图2展示了这一概述。

请添加图片描述

这张图（图2）展示了训练过程的概述，分为两个阶段。

第一阶段 (Phase 1)

在第一阶段，使用强化学习（RL）来学习一个运动策略，该策略能够访问特权信息，如环境参数和 Scandots（深度传感器点云）。除此之外，这个策略还从航点中获取航向信息。为了增强适应性，还使用了正则化在线适应（ROA）方法，通过观察历史数据来训练一个估计器以恢复环境信息。此阶段中的策略（即“教师策略”）能够生成针对具体障碍物的运动命令。

第二阶段 (Phase 2)

在第二阶段，图中展示了一个从 Scandots 中蒸馏出的策略（即“学生策略”），它运行于机载深度信息（如深度图像）上，并且自动决定航向方向（偏航角），根据障碍物的情况进行调整。在这个阶段，深度图像被用来预测机器人的行进方向，模型从预测的航向中输出适当的电机命令，学生策略逐渐学习在没有 Scandots 的情况下执行复杂的跑酷任务。

图中的要素说明

Scandots：第一阶段中用于训练的特权信息，通过 Scandots 描绘的环境点云图帮助策略学习复杂地形的特征。
Oracle Heading：在第一阶段使用航点信息提供给机器人，帮助其学习如何应对特定障碍物。
Depth Image：在第二阶段，机器人从深度图像中提取环境信息，以替代特权的 Scandots 信息。
Predicted Heading：由深度图像预测出的行进方向，用于指导机器人在真实环境中的行动。
Actor：深度强化学习训练的策略，在第一阶段中使用了 Scandots 作为输入特权信息，在第二阶段则使用深度图像来做决策。
MLP 和 GRU：表示多层感知器（MLP）和门控循环单元（GRU），这些是神经网络的基本组件，用于处理输入数据并生成控制输出。

通过这个两阶段的训练过程，机器人在第二阶段能够在没有特权信息的情况下仅依靠机载感知系统，成功完成复杂的跑酷任务。

以下是图片中内容的翻译：

3.1 极限跑酷的统一奖励 (Unified Reward for Extreme Parkour)

文献[2] 中使用的奖励不能直接应用于跑酷场景。机器人不能简单地遵循任意的方向指令，而必须具备自由选择最佳方向的能力。我们不再随机采样方向，而是通过放置在地形上的航点来计算方向，如图3所示：

$\hat{d}_w = \frac{p - x}{\|p - x\|}$
其中， $p$ 是下一个航点的位置， $x$ 是机器人在世界坐标系中的位置。速度跟踪奖励计算如下：

$r_{tracking} = \min(\langle \vec{v}, \hat{d}_w \rangle, v_{cmd})$
其中， $\vec{v} \in \mathbb{R}^2$ 是机器人在世界坐标系中的当前速度， $v_{cmd} \in \mathbb{R}$ 是期望的速度。注意，[2] 中的奖励在基坐标系中跟踪速度，而此处使用的是世界坐标系中的速度。这样做是为了防止机器人通过绕开障碍物来利用奖励并学习到非预期的行为。

虽然上述奖励对于多样化的跑酷行为已经足够，但在面对具有挑战性的障碍时，机器人往往会选择贴近边缘行走以最小化能量消耗。这种行为是有风险的，并且无法在实际环境中应用。因此，我们添加了一个条款，用于惩罚机器人脚与地形边缘的接触。

$r_{clearance} = -\sum_{i=0}^{4} c_i \cdot M[p_i]$
其中，若第 $i$ 个脚接触到地面，则 $c_i = 1$ 。 $M$ 是一个布尔函数，当点距 $p_i$ 离边缘5厘米内时取值为1，否则为0。 $p_i$ 是每条腿的脚位置。

上面定义的奖励通常会导致使用所有四条腿的步态。然而，跑酷的一个决定性特征是以不同的方式行走，这些方式在美学上令人愉悦，但可能在生物力学上并非最佳。为了探索这种多样性，我们引入了一个术语，用来跟踪一个期望的前进向量，使用相同的内积设计原则，该原则可以由操作者在测试时控制。

$r_{stylized} = W \cdot \left[ 0.5 \cdot \left( \hat{v}_{fwd} \cdot \hat{\xi} \right) + 0.5 \right]^2$
其中， $\hat{v}_{fwd}$ 是指向机器人身体前方的单位向量， $\hat{\xi}$ 也是一个单位向量，表示期望的方向， $W$ 是一个二进制数，用来开关奖励。在我们的案例中，我们训练机器人做倒立，并选择 $\hat{\xi} = [0, 0, -1]^T$ 。 $W$ 在训练时从 ${0,1\}$ 中随机采样，并在部署时通过远程控制进行控制。

我们还使用了文献[4] 中提到的额外正则化条款。

请添加图片描述

这张图片（图3）展示了在仿真环境中的几种不同地形类型。图片中，红点表示航点，用于获取机器人的行进方向（航向）。这些地形类型包括：

Tilted Ramp（倾斜坡道）：机器人需要在倾斜的坡道上行进，并调整方向以应对斜坡的角度。
Hurdle（跨越障碍）：机器人必须跨越一个障碍物，例如一个矮墙，并继续前进。
Gap（跨越缝隙）：机器人面临一个需要跨越的缝隙，并且必须跳跃到对面的地面。
Step（台阶）：机器人需要爬上一个台阶，并在台阶上稳定行走。

这些红点作为航点，帮助机器人确定其需要前往的方向，并根据这些点调整自己的运动路径。

以下是图片中内容的翻译：

3.2 从 Scandots 学习的强化学习（第一阶段）

我们使用上述奖励，通过无模型的强化学习（RL）【33】在仿真环境中学习一个策略。该策略将以下作为输入：机器人自身状态 (x) 的感知信息、Scandots (m)、目标航向 (\hat{d}w)、指示航行状态的标志 (w) 以及命令速度 (v{cmd})。我们使用正则化在线适应（ROA）【10】来训练一个适应模块，以估计环境属性。

我们创建了一组倾斜坡道、缝隙、障碍物和高台阶地形（如图3所示），并按照【2】中的方法，将它们排列在难度递增的顺序中。为了辅助探索，机器人首先在简单的地形中初始化。如果它们行走的距离超过总长度的一半，则提升到更难的地形；如果它们行走的距离不到期望距离的一半（即 (v_{cmd} T)，(T) 是情节长度），则降级到更简单的地形。

3.3 蒸馏方向和外感知（第二阶段）

第一阶段的策略依赖于两项在真实机器人上不可直接获得的信息。首先，外感知信息仅以来自前置摄像头的深度图像形式提供，而不是Scandots。其次，没有专家可以指定航点和目标方向，必须从可见的地形几何结构中推断出来。我们使用监督学习来获得可部署的策略，该策略能够自动估计这些量。对于外感知，我们采用与【2】中类似的RMA架构，用一个接受深度输入的卷积网络-门控循环单元（ConvNet-GRU）管道替代了基于Scandots的输入。

这个网络通过使用Dagger【30】训练，使用来自第一阶段策略的真实动作作为地面真相。我们使用学生预测的电机命令来控制环境。我们初始化演员网络，使用来自第一阶段的副本以最小化直接通过学生动作设置环境时可能出现的漂移。然而，对于预测的航向，深度编码网络并未预训练。直接使用预测的航向作为观察值可能会导致灾难性的分布漂移，进而导致教师标签错误。为了解决这个问题，我们提出使用教师和学生（MTS）的混合策略。具体来说，学生观察的航向命令如下：

$obs_{\theta} = \begin{cases} \theta_{pred}, & \text{if } |\theta_{pred} - \hat{d}_w| < 0.6 \\ \hat{d}_w, & \text{otherwise} \end{cases}$
其中 $\theta_{pred}$ 和 $\hat{d}_w$ 是从预测中得出的偏航角和来自航点的期望方向，分别。 $obs_{\theta}$ 是用来引导策略的偏航角观察值。

请添加图片描述

4. 实验 (Experiments)

为了评估我们提出的方法的有效性，我们在模拟环境和实际机器人平台上进行了广泛的实验。我们选择了多种具有挑战性的跑酷场景，这些场景包括不同类型的障碍物，如高台、斜坡、缝隙和不规则地形。实验的目标是测试机器人在这些复杂环境中的适应能力和执行性能。

4.1 仿真设置 (Simulation Setup)

我们使用了基于物理的仿真环境进行策略训练。该环境能够精确模拟四足机器人的动力学特性以及与不同地形的交互。为了生成多样化的训练数据，我们在仿真过程中引入了各种随机扰动，包括不同的障碍物配置、地形摩擦系数的变化以及机器人的初始姿态偏差等。

在训练期间，我们使用了强化学习算法，结合我们提出的基于内积的通用奖励函数，对机器人策略进行优化。策略的输入是来自机器人传感器的视觉信息（如深度图像），输出则是每个关节的电机命令。我们在多个不同的场景中反复训练策略，以确保其具备良好的泛化能力。

4.2 真实世界实验 (Real-World Experiments)

在训练完成后，我们将训练好的策略部署到物理机器人上，并在实际环境中对其进行测试。为了确保仿真到现实的顺利转移，我们在仿真过程中加入了域随机化技术，以增加策略的鲁棒性。

我们设计了多个真实世界的跑酷课程，其中包括：

高台跨越：机器人需要越过不同高度的台阶，并在每次跳跃后保持稳定。
斜坡攀爬：机器人需要在不同倾斜角度的斜坡上攀爬，并避免滑倒。
缝隙跳跃：机器人需要跨越不同宽度的缝隙，确保在每次跳跃后能够安全着陆。
不规则地形：机器人需要在崎岖不平的地形上行走，并调整步态以适应地形的变化。

实验结果表明，我们的策略能够成功完成所有任务，并表现出良好的适应性。在某些极端情况下（如非常高的台阶或非常宽的缝隙），虽然机器人表现出了一定的困难，但总体来说，策略能够有效应对这些挑战。

4.3 性能评估 (Performance Evaluation)

为了定量评估我们的方法，我们记录了每个任务中的成功率、完成时间以及机器人在任务过程中消耗的能量。结果显示：

成功率：在所有测试场景中，机器人平均成功率超过90%，尤其是在标准跑酷场景中，成功率接近100%。
完成时间：机器人能够以接近人类跑酷者的速度完成任务，这表明策略不仅有效，而且效率很高。
能量消耗：虽然跑酷任务本身消耗的能量较高，但我们的策略通过优化动作序列，最大限度地减少了不必要的动作，从而降低了总体能量消耗。

此外，我们还评估了策略在应对不同地形和障碍物时的稳定性和鲁棒性。实验结果表明，策略能够在多种复杂环境中保持稳定，并迅速适应环境变化。

5. 讨论 (Discussion)

5.1 方法的优势 (Advantages of the Method)

我们的研究表明，通过采用基于行为多样性和双重蒸馏的方法，四足机器人能够在极具挑战性的跑酷任务中表现出显著的适应能力。相比传统方法，我们的策略具有以下几个显著优势：

自适应能力：通过引入自我调整机制，机器人能够根据不同的障碍物类型自动调整其运动方向。这使得机器人能够在部署时应对从未见过的地形和挑战，而无需重新训练。
通用性强：我们设计的基于内积的奖励函数使得单一神经网络能够学习到多样化的运动行为。这种通用性使得机器人能够在多个不同的任务中表现良好，而无需为每个任务单独设计控制策略。
鲁棒性：通过在训练过程中引入域随机化，策略能够适应现实环境中的噪声和不确定性。这一特性在实际部署中尤为重要，因为现实环境中往往充满了各种不可预测的扰动。

5.2 局限性与挑战 (Limitations and Challenges)

尽管我们的策略在多个实验中表现出色，但仍存在一些局限性和挑战，需要在未来的研究中进一步探索：

极端条件下的稳定性：在非常高或宽的障碍物前，策略的表现会有所下降。这表明在极端条件下，机器人可能无法始终保持最佳的平衡和稳定性。
高能耗问题：尽管策略通过优化动作序列来减少不必要的动作，但跑酷任务本身仍然是高能耗的。在实际应用中，如何进一步降低能耗是一个重要的研究方向。
传感器依赖性：策略在很大程度上依赖于准确的视觉输入。在低光照或传感器性能不佳的情况下，策略的表现可能会受到影响。因此，在未来的研究中，探索如何在有限的感知条件下保持策略的鲁棒性，将是一个值得关注的方向。