【论文笔记】Meta-Learning for Fast Adaptive Locomotion with Uncertainties in Environments and Robot-CSDN博客

本文链接：https://blog.csdn.net/m0_48948682/article/details/128588440

【论文笔记】 Meta-Learning for Fast Adaptive Locomotion with Uncertainties in Environments and Robot Dynamics

Abstract

This work developed meta-learning control policies to achieve fast online adaptation to different changing conditions, which generate diverse and robust locomotion.

该工作开发了元学习控制策略，以实现对不同变化条件的快速在线适应，从而产生多样化和鲁棒的运动。

The proposed method updates the interaction model constantly, samples feasible sequences of actions of estimated state-action trajectories, and then applies the optimal actions to maximize the reward.

该方法不断更新交互模型，对估计状态-动作轨迹的可行动作序列进行采样，然后应用最优动作来最大化奖励。

To achieve online model adaptation, our proposed method learns different latent vectors of each training condition, which is selected online based on newly collected data from the past 10 samples within 0.2s.

为了实现模型的在线自适应，提出的方法在 $0.2 s$ 内在线学习每个训练条件的不同潜向量，这些潜向量是基于过去10个样本的新收集数据在线选择的。

Our work designs appropriate state space and reward functions, and optimizes feasible actions in an MPC fashion which are sampled directly in the joint space with constraints, hence requiring no prior design or training of specific gaits.

本文设计了适当的状态空间和奖励函数，并以 MPC 方式优化了可行的动作，这些动作直接在有约束的关节空间中采样，不需要事先设计或训练特定的步态。

We further demonstrated the robot’s capability of detecting unexpected changes during the interaction and adapting the control policy in less than $0.2 s$ . The extensive validation on the SpotMicro robot in a physics simulation shows adaptive and robust locomotion skills under changing ground friction, external pushes, and different robot dynamics including motor failures and the whole leg amputation.

进一步展示了机器人在交互过程中检测意外变化的能力，并在 $0.2 s$ 内自适应控制策略。在物理仿真中对 SpotMicro 机器人进行了广泛的验证，显示了在变化的地面摩擦、外部推力和不同的机器人动力学(包括电机故障和全腿截肢)下自适应和鲁棒的运动技能。

I. INTRODUCTION

传统的方法需要专家知识和精确的动力学特性，需要知道机器人和环境之间的交互限制，这些都会受到不可见因素的影响。

Moreover, even using data-efficient learning techniques such as Bayesian optimization to tune decision variables and control parameters, it can only achieve adaptation on a trial-by-trial basis and also require extensive computation which is not able to respond to changes on the fly.

此外，即使使用贝叶斯优化等数据高效学习技术来调整决策变量和控制参数，它也只能在不断试验的基础上实现适应，还需要大量的计算，不能在动态地响应变化。

Model-free RL can perform global search of control parameters and obtain globally optimal gaits while combined with walking pattern generation.

无模型RL可以在结合行走模式生成的同时，对控制参数进行全局搜索，获得全局最优步态。另外就是基于RL的方法可以搞模仿学习，模仿人类的行走（捕捉人类动作的数据）。

By using a multi-expert learning, an hierarchical RL architecture can learn to fuse multiple motor skills and generate multi-modal locomotion coherently on a real quadruped.

通过使用多专家学习，层次RL结构可以学习融合多种运动技能，并在一个真实的四足动物上产生多模态运动。

For example, it took a model-free RL algorithm 83 hours to achieve human performance on the Atari game suite, compared to 15 minutes for a human. Similarly, Alpha Star used 200 years of equivalent real-time to reach expert human performance playing Star craft II.

另一方面，基于模型的方法可以实现相对较高的性能，同时更具有几个数量级的样本效率，比无模型的运动任务方法收敛得更快。

要在现实世界中部署机器人，需要在线适应环境的变化，因为并不是所有的条件都可以通过预先训练过的策略来考虑，比如环境的剧烈变化或截肢后的机器人。因此，元学习，或在学习中学习，是解决这种通用适应的一种新颖和有前途的方法。

基于模型的元RL已经在现实世界中使用，使六腿微型机器人的控制适应不同的地板条件。一种基于模型的元RL算法，FAMLE，在现实世界中使用了一个微型龙四足动物，其中一个潜在的黑盒上下文向量编码了不同的环境条件。

Our proposed method has made new improvements that require no prior knowledge of specific gaits.

本文提出的方法是，不需要知道事先的步态。

FAMLE依赖于正弦步态，因此需要通过在 $0.5 Hz$ 的低频条件下的模型预测控制来优化正弦模式的振幅和相位。

In our work, we also use random sampling as model predictive control using the learned forward model of the dynamics to estimate the samples rewards.

在我们的工作中，我们还使用随机抽样作为模型预测控制，使用学习的正向动态前馈模型来估计样本奖励。

与他们的工作相比，我们直接在关节空间中以更高的频率进行采样，并通过指定所需关节轨迹的速度、加速度和抖动的约束来进一步改进采样过程。

我们的研究广泛地验证了在地板摩擦、外力或对接头的意外损伤发生较大变化的模拟测试场景中的适应能力。

基于交互模型，我们的方法允许在线改变奖励功能，因此能够修改机器人的行为。例如，学习到的控制器可以跟踪一个可变的前进速度，即使它已经在一个固定的期望速度上进行了训练。

利用条件潜在向量的似然估计允许元模型适应已经看到的条件。元训练应该允许“动态”优化，以更好地适应当前的未知条件。

该算法能够从头开始学习，并且不需要对步态类型的先验知识，如腿部运动的周期性阶段。
我们的方法在搜索过程中对采样动作引入并应用了速度、加速度和颠簸的硬约束。
在线适应机器人和环境变化的能力和鲁棒性，如外力干扰、变化的摩擦、故障电机和腿部截肢。

II. BACKGROUND

A. Reinforcement Learning

Model-free RL focuses in directly learning such a policy, whereas model-based RL focuses on learning a model of the transition function – the transition of states given the current state and actions – which can be used to train the policy with fictive transitions or with model predictive control.

无模型RL侧重于直接学习这样的策略，而基于模型的RL侧重于学习转换函数的模型——给定当前状态和行动的状态转换——它可以用虚构的转换或模型预测控制来训练策略。

B. Model Predictive Control

Given the current state st and a horizon $H,$ Model Predictive Control (MPC) uses a forward model of dynamics to select an action sequence $a_{t:t+H}$ which maximizes the predicted cumulative reward $R (t)$ .

给定当前状态 $s_{t}$ 和视界 $H$ ，模型预测控制（MPC）使用动力学前馈模型选择 $t : t + H$ 的一个动作序列，使预测的累积奖励 $R (t)$ 最大化。

The agent performs the first action $a_{t}$ from the action sequence and collects the resulting state $s_{t+1}$ .

智能体执行当前时刻的动作，并收集接下来序列的状态 $s_{t+1}$ 。

The MPC then repeats such optimization and allows the agent to alleviate the possible error in the model prediction. Compared to model-free RL, we can change the reward online to control the agent’s behavior
using model-based RL in an MPC fashion.

然后，MPC重复这种优化，并允许智能体减轻模型预测中可能的错误。与无模型强化学习相比，我们可以在线改变奖励，以MPC方式使用基于模型的强化学习来控制智能体的行为。

C. Meta-Learning

For the neural network model, the initial set of weights $θ^{∗}$ must be found, such that only a small number of gradient descent steps with little collected data in a unknown environment can produce effective adaptations.

对于神经网络模型，必须找到初始的权值集 $θ^{∗}$ ，这样在未知的环境中，只有少量的梯度下降步骤和很少收集的数据才能产生有效的适应。

II. RELATED WORK

A. Model-Free Deep Reinforcement Learning

首先采用近端策略优化方法对无模型控制器进行仿真训练，然后将其应用于实际系统中机器人行走步态。SAC 有
也被用于在2个小时内训练真正的迷你机器人。

B. Model-Based Deep Reinforcement Learning

基于模型的RL有三种类型：学习从起始状态分布中预测预期回报，例如使用贝叶斯优化；学习从给定的起始状态和给定的策略预测结果；以及学习使用前馈动态模型建模状态转移函数。在这里，我们使用第三种类型的模型。

动力学的前馈模型是确定性的或概率性的，其中确定性模型可以是线性模型或神经网络，概率模型估计随机环境建模的不确定性或估计长期预测的不确定性。高斯过程或贝叶斯神经网络可用于扩展高斯过程模型对高维环境的能力。

对于运动任务，具有前馈模型的基于模型的RL可以具有与无模型方法相同的性能，同时需要至少少一个数量级的样本。（也就是说：前馈动力学 + 有模型 RL $\sim$ 无模型 RL）利用前馈神经网络集成，用不确定性估计建模环境的前馈动态。MPC使用这种不确定性估计来制定一个更稳健的控制，以减轻基于模型的RL的早期过拟合。同样的方法也用于元学习，将六腿真实微型机器人的控制调整到不同的水平。

C. MPC and Meta-Learning

基于模型的RL采用了几种优化方法，如模型预测路径积分、随机射击或交叉熵方法。我们使用随机射击对简单的、容易并行和性能验证的真实机器人。

主要有两种方法：元学习者模型输出学习者的初始权值 $θ^{∗}$ 集；或者 $θ^{∗}$ 使用元损失进行优化。例如，通过梯度下降。高斯过程已用于，但仅适用于低维环境。对于基于模型的RL，基于梯度的元学习被证明更具有数据效率，从而产生更好、更快的适应。因此，我们使用基于梯度的元学习。

IV. METHODOLOGY

A. Model-Based Reinforcement-Learning algorithm

基于模型的RL算法在 $50 Hz$ 下运行，向运行在 $250 Hz$ 下的PD控制器发送所需的动作，以生成用于物理模拟的力矩。由于计算效率，基于顶级模型的RL以较低的频率运行，并且因为我们的经验发现，较短的时间步长会降低MPC效率。该算法主要由前馈动力学模型和MPC两部分组成。

The Forward Model of Dynamics

我们使用一个完全连接的前馈神经网络，使用一个256个单元和 ReLU 激活函数。它将当前状态和动作 $s_t,a_t)$ 的连接作为输入，并学习预测结果状态的差异： $s_t=s_{t+1}−s_t$ ，这是获得预测 $s_{t+1} = s_{t} +∆s_{t}$ 的标准方法。该状态由角关节位置和速度、基方向角和角速率以及线性基速度组成。该动作对应于所需的角度关节位置。

作者的意思应该是把 $\Delta s_{t}$ 看作动作 $a_{t}$ ，输入当前状态和动作输出预测的动作。

模型参数 $θ$ 是各单元之间连接的权值集。在三态 $D \in S \times a \times S$ 数据集上使用基于梯度的优化器Adam进行优化。

奖励函数：设计的都是负指数下降
$r(s, a) =e^{−|v_x−v_{x_{desired}}|} + e^{−|v_y|} + e^{−|v_z|} + e^{−|roll|}+ e^{−|pitch|} + e^{−|yaw|}$
与无模型模型相比，基于模型的RL的一个有趣特征是，在测试时，我们可以改变奖励函数来控制代理的行为。例如，我们可以在一个事件中改变所需的 $v_x$ 值来改变代理的跟踪速度，从而导致前进速度的实际变化。

真正的执行器在速度、加速度和挺举方面都有固有的限制。使用连续性约束不是在限制范围内均匀采样期望的关节角度，而是连续性约束，其中每个期望的关节状态采样使用以前的关节位置，以确保速度、加速度和抖动是平滑的，并降低它们各自的极限。

改进之前的工作，我们在抽样的行动进行物理约束： $q_{min}≤q_q≤q_{max}$ ， $A|≤A_{max}$ ， $V|≤V_{max}$ 和 $J|≤J_{max}$ ， $q$ ， $V$ ， $A$ 和 $J$ 分别是期望的关节角，速度，加速度和抽搐。速度、加速度和挺振的限制是动作平滑性和连续性的软约束。出于安全考虑，对于关节位置极限，我们进一步对 $q$ 施加了采样动作的严格约束，以避免达到关节运动的物理极限。

B. Meta-learning algorithm

Before meta-training, an expert is trained for each training condition using the proposed model-based RL algorithm to collect its training data. To adapt the model to each condition $i$ , a specific latent vector $C_{i}$ is optimized during meta-learning using the regression loss on the data of the corresponding condition.

在元训练之前，使用所提出的基于模型的RL算法对每个训练条件训练一个专家来收集其训练数据。为了使模型适应每个条件 $i$ ，在元学习过程中利用相应条件数据的回归损失优化特定的潜在向量 $C_{i}$ 。

我们使用了一个被称为 Reptile 的一阶元学习，它由两个阶段组成：元训练和元适应。

1) Meta-training

对初始权值集 $θ^{∗}$ 和每个条件潜在向量 $C_{i}$ 进行优化以适应。元训练被分成两个嵌套的循环。在内环中，选择一个训练数据集 $D_{i}$ 及其对应的条件潜在向量 $C_{i}$ 。模型权值 $θ$ 被初始化为 $θ^{∗}$ ，Adam对两者进行优化，以应对当前数据集 $D_{i}$ 的回归损失。在外环中， $θ^{∗}$ 通过采取一个小步骤，以线性递减计划，向优化内环的权值。这允许 $θ^{∗}$ 收敛到一个附近的点（在欧几里得意义上）到每个训练条件的最优权值集。

2) Meta-adaptation

在每个时间步长中，我们使用前面的 $K$ 个时间步长，每个条件潜在向量和权值集 $θ^{∗}$ 来选择最有可能的训练条件。然后，我们从 $θ^{∗}$ 开始优化相应的潜在向量和模型权重集，从 $θ^{∗}$ 开始，使用与内环相同的优化过程，但使用过去的 $K$ 步。对当前条件的权值集和条件潜在向量进行优化后，利用MPC选择最优动作，然后收集新的状态信息，进行整个元自适应迭代。在本研究中，仅使用过去10个样本，即 $K = 10$ 对应 $0.2 s$ ，代理可以检测到条件下的任何变化，并在不到 $0.2 s$ 的时间内相应地适应。

C. Limitations

除了经典的调整PD增益和关节限制的机器人控制外，该方法还需要对奖励函数、模型架构、元学习超参数和自适应进行微调。使用MPC代替神经网络策略可以在实时计算和性能之间进行权衡，即MPC在自适应方面表现更好，但需要从采样过程中进行更多的计算。

V. RESULTS

我们在 PyBullet 模拟中使用了一个客制化版本的机器人模型（改编自开源的微机器人）来验证我们的方法。

A. Overview

我们用默认的摩擦条件 $µ = 0.8$ 训练专家模型，这导致行走的默认控制器对扰动是鲁棒的，可以承受几次 $10 N$ 的推动 $0.2$ 秒。在给定的条件下，经过300次的训练数据，四足动物能够在光滑的地面上行走（摩擦系数 $µ = 0.2$ ），对抗外力，使用一个固定的关节（模拟损坏的马达）或缺失/截肢的腿。