斯坦福吴佳俊团队最新成果:全身协同控制新范式 TWIST,教机器人像人一样动起来!

斯坦福吴佳俊团队最新成果:全身协同控制新范式 TWIST,教机器人像人一样动起来!

原创 深蓝学院-具身君 深蓝具身智能 2025年05月09日 10:56 北京

在日常生活中,我们会做很多看起来“下意识”的动作:双手抱着东西时用脚开门,蹲下去捡起地上的物品,单腿站立踢球……这些看似简单的动作,其实都依赖于高度协调的全身控制能力。

©️【深蓝具身智能】

一个最自然的思路是:让机器人模仿人类动作。但问题是——机器人和人类的身体结构完全不同,直接照搬人类的动作往往行不通;而且,现实中的动作是连续的、复杂的,靠事先录好的“动作片段”也难以应对不断变化的环境。

因此,我们真正需要的,是一种能够实时接收人类动作输入、即时控制机器人完成模仿的系统。

图片

“大脚打门”——TWIST加持的机器人展示势大力沉的射门动作

这正是斯坦福大学 & SFU的最新成果——TWIST(Teleoperated Whole-Body Imitation System) 想要解决的问题。TWIST 是一个基于运动捕捉设备的远程控制系统,它可以实时将人的全身动作转换为类人机器人的运动指令,并由一个统一的神经网络控制器执行,从而让机器人完成各种复杂协调的动作,比如下蹲、搬箱子、侧身行走甚至跳舞。

本文将针对这篇成果从方法原理、训练和部署等方面进行解读。


图片

方法实现

TWIST的核心技术由两个问题驱动:

(1)如何获得高质量的实时的人类全身参考动作

(2)如何训练出一个稳健、统一的控制策略,能够准确追踪上述动作,同时解决“实时模仿”过程中可能出现的卡顿、不准或者失衡问题。

为此该研究设计了一个非常巧妙的训练机制(图1所示):

图片

图1|TWIST系统总览

  • 首先,把大量人类动作数据“重定向”为机器人可以理解的格式,构建了一个高质量训练集;

  • 然后,采用“老师带学生”的训练方法,老师模型可以预见未来的动作趋势,帮助学生模型学得更稳更准;

  • 此外,为了更贴近真实场景,还加入了现场录制的人体动作数据,并专门设计机制让控制器学会在需要发力时如何保持平衡,比如搬起一个箱子时不会晃倒。

  • 最终,TWIST 展示出了能力,可以让一个类人机器人,用“整套身体”去完成过去很多,只能靠“手动控制”或者“静态程序”执行的任务。而且,这一切只需要一个统一的控制器,无需为每个动作单独设计模块。

 构建人类数据集

为了训练控制器能学会“人类式动作”,构建了一个大规模训练数据集,来源如下:

离线数据(主力):

  • 使用 AMASS 和 OMOMO 两个公开 MoCap 数据集;

  • 共包含 15000段片段(42小时);

  • 筛除不适合机器人执行的动作(如爬楼梯);

在线数据(关键):

  • 自建系统采集了 150段远程控制场景下的MoCap数据(0.5小时);

图片

图2|机器人模仿人类搬运箱子;对比人类和机器人的动作,能够看出来人类的动作更“丝滑”机器人的动作则更“顿挫”,机器人由于其机械结构的限制,无法100%复制人类的动作,因此通过处理,将人类丝滑的动作变得顿挫,有利于机器人的模仿和学习©️【深蓝具身智能】编译

这里的在线数据是十分关键的,虽然数量不多,但这类数据包含了真实环境下的噪声与不确定性。

众所周知,模拟数据总是过于“高质量”和“干净”了,没有任何误差,动作流畅。但是实际环境中,动作是不可避免的存在各种抖动,误差的,因此加入真实数据,可以弥补训练数据与实际部署之间的分布差异,显著提升了控制策略在现实任务中的泛化能力。

动作重定向:

  • 对离线数据采用高质量的离线重定向器(基于 PHC),优化身体关键点和时序平滑性;

  • 对在线数据采用实时重定向器(基于 IK),速度快但略缺平滑性;

在动作重定向环节,TWIST 对在线重定向器进行了改进,将优化目标从单纯的关节方向扩展为三维位置与方向的联合优化。这一策略显著提升了参考动作的连续性和自然性,从源头上提升了模仿跟踪的稳定性,为后续控制打下更高质量的输入基础。

 控制器训练

这部分的目标是训练一个统一的控制器,可以追踪任意重定向后的类人动作。训练流程包括两个阶段。

阶段一:教师策略

  • 教师策略可观察“未来2秒的参考动作序列”;

  • 能提前规划、产生更平滑的动作;

  • 以机器人本体坐标系下的关节位置和根速度为跟踪目标,降低误差累积;

  • 使用 PPO 优化,奖励包括跟踪精度、惩罚抖动与打滑等。

阶段二:学生策略

  • 部署时无法获得未来信息,仅靠即时参考帧 + 自身感知;

  • 作者采用 强化学习 + 行为克隆(RL+BC) 的联合训练方法;

  • 优化目标为:

第一项是 RL 的损失;第二项是学生向教师模仿的 KL 散度;λ 是动态衰减的权重。

图片

图3|不同控制器的模仿效果展示:通过左侧的能力图及右侧的机器人行为可视化,能够看到TWIST采用的RL+BC策略堪称“六边形战士”,在每项指标中都取得了出色的效果©️【深蓝具身智能】编译

两阶段的训练策略,也是本文的核心技术创新之一:

在实时控制中,策略每一时刻只能看到“当前帧”的参考动作;如果训练时也只用当前帧,会导致控制器“谨慎且犹豫”,产生不流畅、反应迟钝的动作;更糟的是,这种“机器人动作滞后”会反过来影响人类操作者的控制行为,形成反馈误差。

图片

图4|RL+BC联合训练方法动态演示:绿色点即为模仿目标,经过RL+BC的训练,机器人可以很丝滑的贴合模仿对象的动作,实现对特定动作的学习©️【深蓝具身智能】编译

而在TWIST中,教师策略在训练阶段可以观察未来动作序列,因此能生成更平滑、更自然的控制行为;

而部署时的学生策略则只能看到当前帧,因此通过模仿教师策略进行训练,实现了兼顾实时性和控制质量的平衡。这一结构有效缓解了实时系统中因感知延迟导致的控制不稳定问题。

 系统部署

通过人类数据集的构建,控制器的训练之后,TWIST可以零样本的直接部署在机器人上,TWIST的实时部署的细节:

  • 动作捕捉速率: 使用 OptiTrack 以 120Hz 采集人类动作;

  • 动作重定向速率: 在线重定向器以 50Hz 转化为机器人目标动作;

  • 控制频率: 控制器在 NVIDIA RTX 4090 上以 50Hz 输出目标关节位姿,输入 PD 控制器(1000Hz);

  • 部署平台: Unitree G1 类人机器人(29自由度);

这个部署流程可完美实现Zero-Shot,即无需再调参即可直接从模拟迁移至真实世界,完成丰富的操控与运动任务。

,时长00:14

视频1|部署效果演示:部署TWIST后,机器人能够流畅的配合人类进行重物的搬运工作

图片

实验

经过上述诸多技术创新,TWIST取得了非常SOTA的效果。并且有几个关键发现,如下:

图片

图5|(左图)为机器人在现实场景中搬箱子时的执行轨迹曲线;(右图)为在 MuJoCo 模拟环境中,不同控制器在跟踪 MoCap 数据时的执行轨迹曲线©️【深蓝具身智能】编译

  • 内部MoCap数据很重要。即使添加少量内部 MoCap 序列(在线重定位以模拟真实的远程操作),也能显著减少未见运动的追踪误差。

这种提升源于两个因素:(1) 内部捕捉本质上噪声较大且稳定性较差,容易受到校准漂移和遮挡的影响;(2) 与离线版本相比,在线重定位器产生的参考运动不够平滑。

图片

图6|(左图)为w/o MoCap Data;(右图)为w/ MoCap Data©️【深蓝具身智能】编译

  • 学习运用力量。在没有末端扰动的情况下进行的训练政策会导致静止姿势期间的漂移和不稳定(图5左图)。在训练中引入扰动可以显著提高稳定性,对于接触丰富的任务尤其重要。由于控制器的学习目标仅仅是运动跟踪,因此需要施加力(例如,举起箱子)而非到达目标位置的任务代表着分布不均匀的场景,导致控制器偶尔产生抖动行为。

图片

图7|(左图)为带EEF扰动;(右图)为不带EEF扰动©️【深蓝具身智能】编译

  • 通过同时优化3D位置和方向来改进我们的在线再定位器,可以产生更平滑的人形参考运动。如图8所示,这种更平滑的运动有助于训练有MoCap数据的控制器和没有MoCap数据的控制器减少整体跟踪误差。

图片

图8|(左图)显示了不同在线重定向器在跟踪误差指标上的总和;(右图)展示了不同身体部位的跟踪误差。其中,足部的误差最大,说明相比其他部位,下肢动作的精确跟踪更具挑战性©️【深蓝具身智能】编译

此外,为证明TWIST 是一个适用于多种实施方案的通用框架,在 Booster T1 上对其进行了进一步评估。

图片

图9|模拟到模拟的评估结果。该控制器成功追踪了多种动作,包括协调全身关节的手臂摆动、深度蹲伏和行走。

图片

总结

TWIST 是一个让类人机器人“模仿人”的全新系统,它能够实时接收人体动作,并将这些动作平稳地映射到机器人身上,实现用脚开门、双手搬运、下蹲穿障、跳舞等充满人性化特征的行为。它不再依赖繁琐的动作编程,而是通过模仿学习和统一的控制策略,达成了“看得懂、学得快、做得出”的目标。在真实世界的测试中,TWIST 展现出良好的控制精度和极强的任务适应能力,标志着类人机器人朝向自然协作迈出了坚实一步。

不过,有了 TWIST,机器人就能“像人一样自如活动”了吗?

还不是。TWIST 仍会在剧烈动作(如急转身、快速迈步)中出现失衡,面对高精度的足部控制任务时容易“踩偏”,对未见过的罕见姿态也可能反应迟钝、甚至崩溃。

这些失败案例提醒我们:真正稳定、通用的全身控制系统仍任重道远,而 TWIST 所做的,是在这条路上迈出了一步非常关键且实用的前进步伐。

编译|阿豹

审编|具身君

论文题目:TWIST: Teleoperated Whole-Body Imitation System

论文作者:Yanjie Ze, Zixuan Chen, Joao Pedro Araujo, Zi-ang Cao, Xue Bin Peng, Jiajun Wu, C. Karen Liu

项目主页:https://yanjieze.com/TWIST/

论文链接:https://www.arxiv.org/pdf/2505.02833

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值