足式机器人全身 MPPI: 利用 MPPI 对足式机器人进行实时全身控制

系列文章目录


前言

        我们首次在真实世界的四足机器人上成功部署了基于全身采样的 MPC 系统。我们的方法使用从模型预测路径积分(MPPI)控制中得出的单一控制策略,实现了实时、接触丰富的运动和操作。演示包括推箱子、爬箱子和在崎岖地形上稳健行走。


一、什么是 MPPI?

        模型预测路径积分(MPPI)控制是一种无梯度、基于采样的算法,广泛应用于复杂系统的实时控制。MPPI 从多元高斯分布 u_t\sim\mathcal{N}(\mu_t,\Sigma_t) 中采样 N 个控制轨迹,其中 \mu_{t}t 时刻的平均控制输入,\sum_{t} 是协方差矩阵。

        对于每个采样轨迹,都要对系统进行前向模拟,以计算出相应的状态序列,并计算出每个轨迹的累积成本 \mathcal{L}_{n}。每条轨迹的权重根据其最小-最大归一化成本计算:

\omega_n=\frac{\exp\left(-\frac{\mathcal{L}_n-\mathcal{L}_{\min}}{\lambda\left(\mathcal{L}_{\max}-\mathcal{L}_{\min}\right)}\right)}{\sum_{n=1}^N\exp\left(-\frac{\mathcal{L}_n-\mathcal{L}_{\min}}{\lambda\left(\mathcal{L}_{\max}-\mathcal{L}_{\min}\right)}\right)}

        然后,以样本的加权平均值计算更新后的控制输入:

\mu_t=\sum_{n=1}^N\omega_nu_{n,t}

        其中,\mathcal{L}_{n} 是第 n 个轨迹的成本,\omega_{n} 是相应的权重,\lambda 是一个温度参数,用于控制权重对成本差异的敏感度。\lambda 越小,控制器对低成本轨迹的选择性越强,而 \lambda 越大,所有样本的贡献越平滑。

        这一过程是以 MPC 的方式进行的,因此 MPPI 适用于具有接触动力学或高维状态空间的系统的实时应用。

二、概述

        本文介绍了一种为真实世界中的有腿机器人实时合成全身运动和操作策略的系统。受机器人仿真领域最新进展的推动,我们利用 MuJoCo 仿真器的高效并行化功能,实现了对机器人状态和动作轨迹的快速采样。我们的研究结果表明,只需采用非常简单的控制策略,就能在真实世界中实现令人惊讶的有效运动和操作能力。我们在几个硬件和模拟实验中演示了我们的方法:在平坦和不平坦地形上的稳健运动、爬过高度与机器人相当的箱子,以及将箱子推到目标位置。据我们所知,这是基于全身采样的 MPC 首次成功应用于真实世界的足式机器人硬件。

2.1 硬件实验

四足机器人在自定义高度的箱子里爬上爬下

在 Unitree Go1 机器人上部署 MPPI 策略的系统图。关节目标控制(u)在均匀分布的结点(黑点)上采样,并在规划范围内以三次样条线表示。根据用户指定的目标(黄球)和成本函数,对每个样本的成本进行评估。总成本最低的控制序列中的第一个控制(不透明橙色线)将应用于机器人,并以后退视距的方式重复进行。机器人的状态是使用 EKF 根据运动捕捉的位置和方向、机器人机载 IMU 和关节编码器测量值估算出来的。
从俯视图中可以看到真实世界中箱子的运动轨迹(洋红色和灰色线条),这些轨迹来自 Go1 机器人将箱子(黑色方块)推入目标区域(虚线圆圈)的 10 次试验,目标区域位于箱子原始位置的前方(左侧)和右前方(右侧)。更透明的方框代表轨迹中更早的位置。洋红色线条代表盒子成功到达目标区域的运行轨迹,灰色线条表示其他情况。

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值