人形loco-mani:Ψ0/TWIST2/PhysHSI等
文章平均质量分 95
HOMIE——遥操类似ALOHA主从臂的外骨骼驾驶舱收集数据:通过上肢模仿学习和全身控制RL训练自主策略
v_JULY_v
七月在线创始人,结构之法算法之道blog之博主
展开
专栏收录文章
- 默认排序
- 最新发布
- 最早发布
- 最多阅读
- 最少阅读
-
HTD——基于触觉预测的人形行走-操作框架:融合视觉、本体感知、力反馈、触觉,同时预测动作、未来手部关节受力、由EMA目标编码器监督的未来触觉潜变量
本文提出了一种具身触觉梦境的人形Transformer(HTD)系统,用于解决仿人机器人行走-操作一体化任务中的关键挑战。HTD整合了基于强化学习的全身控制器、VR遥操作和多模态Transformer策略,实现了稳定的全身控制与灵巧手部操作的协同。创新性地采用"触觉梦境"机制,通过预测未来手部受力和触觉潜变量来增强接触感知能力,避免了传统方法中繁琐的多阶段训练。系统通过教师-学生框架训练下肢控制器,并利用VR采集高质量示范数据。实验表明,这种单阶段训练方法能有效学习接触感知的潜在动力学,原创 2026-04-23 18:29:30 · 783 阅读 · 0 评论 -
Ψ0——人形全身VLA:先用800h人类自视角视频数据和30h的真实机器人交互数据预训练VLM,再后训练MM-DiT,最后用AMO做下肢RL跟踪
摘要:本文提出Ψ0模型,一种面向人形机器人全身操控的视觉语言动作基础模型。该模型采用多阶段训练范式:首先在大规模人类第一视角视频(800小时)上预训练视觉语言模型,学习通用运动先验;随后在真实机器人数据(30小时)上训练基于流模型的动作专家,实现精确关节控制。模型采用三重架构:视觉语言骨干网络(System-2)提取特征,多模态扩散Transformer(System-1)预测动作,结合现成的RL控制器(System-0)实现43自由度全身控制。实验表明,该方法相比联合训练范式能更高效地从人类视频中迁移知识原创 2026-03-21 19:15:57 · 2380 阅读 · 0 评论 -
OmniRetarget——可与场景交互的人形全身行走-操控系统:实现26年春晚宇树攀爬、跳跃、翻滚、蹬墙翻转及箱体搬运
本文提出OmniRetarget系统,用于解决人形机器人全身控制中的数据瓶颈问题。该系统通过交互网格建模技术,将人类示范动作重定向到机器人形态,同时保持与场景的关键交互关系。相比现有方法,OmniRetarget采用约束优化确保物理可行性,避免了运动伪影,并能自动生成多样化训练样本。实验表明,基于该系统数据训练的策略在多种交互任务中表现优异,且能实现零样本仿真到真实的迁移。该系统为人形机器人自然行为学习提供了高质量的数据生成方案。原创 2026-03-01 22:56:41 · 3237 阅读 · 0 评论 -
MetaWorld——分层世界模型:融合 VLM 的语义推理能力、预测的未来动态环境、模仿学习的先验,及基于模型RL的对动态环境的在线自适应
本文提出MetaWorld框架,通过分层世界模型解决人形机器人语义控制与物理执行的鸿沟问题。框架包含:1)语义规划层,利用VLM将任务描述映射为专家策略权重;2)物理执行层,采用TD-MPC2算法进行在线优化。创新性地引入动态专家选择机制,在保持物理可行性的同时实现环境自适应。实验表明,该框架有效弥合了高层语义推理与低层控制之间的差距,显著提升复杂任务的执行能力。原创 2026-02-07 18:14:29 · 3572 阅读 · 0 评论 -
StageACT——基于CVAE的多阶段ACT:把开门任务分为五个阶段,且做好分段标注以引导低层策略逐一执行
本文提出StageACT框架,通过阶段条件化模仿学习解决人形机器人开门任务中的长时程、部分可观测挑战。作者发现将任务分解为五个自然阶段(寻找把手、接近把手等)并显式标注阶段标签,能有效消除视觉歧义并实现失败恢复。该方法基于ACT架构,采用CVAE结构生成动作序列,并通过阶段条件向量为策略提供时间上下文。实验表明,该框架仅需135次人类示范即可实现完全自主的行走-开门操作,无需外部感知或门的先验信息,显著优于标准行为克隆方法。研究首次展示了人形机器人自主开门能力,为富接触任务提供了新思路。原创 2026-01-13 00:47:03 · 3422 阅读 · 0 评论 -
DoorMan——先仿真中“教师-学生两阶段训练”后Sim2Real,最后仅靠视觉打开会议室的门,给客户递杯水(可额外探索教师策略未演示的行为)
本文要介绍的DoorMan的目标是构建一条具有良好泛化能力的、基于视觉的人形机器人行走—操作一体化学习流程,并以开门这一具有挑战性的真实场景任务作为代表性案例原创 2026-01-12 00:10:25 · 3552 阅读 · 0 评论 -
HEAD——视觉驱动下的自主配送(本质是VLN):高层规划器发出手部和眼部的目标位置与朝向指令,低层全身控制策略则执行导航与触达,暂无法抓取
斯坦福研究者提出HEAD系统,实现人形机器人自主导航与触达功能。该系统采用模块化设计,高层策略负责视觉导航和手眼协调,低层控制器基于模仿学习实现全身运动控制。创新性地结合大规模人类数据与少量机器人数据训练,通过GAN强化学习方法解决动作模仿挑战,并采用域随机化增强系统鲁棒性。该工作首次实现人形机器人基于自我中心视觉的端到端导航与触达能力,为类人机器人应用提供了新思路。原创 2025-12-26 00:31:05 · 3790 阅读 · 0 评论 -
WholeBodyVLA——全身行走-操作控制的统一潜在VLA:基于从无标注视频中学习行走/操作的LAM,和专门面向loco–mani的RL策略LMO,让智元灵犀X2稳定搬箱子
《WholeBodyVLA:面向人形机器人的行走-操作统一框架》摘要 本文提出WholeBodyVLA框架,解决人形机器人行走-操作任务中的关键挑战。通过统一潜在学习(unified latent learning)方法,分别训练行走和操作的潜在动作模型(LAM),从人类视频中获取先验知识,并联合监督视觉语言动作(VLA)模型。针对底层控制问题,设计了面向行走-操作的强化学习策略(LMO),采用离散指令接口替代传统速度跟踪,通过两阶段训练提升运动精度和稳定性。实验表明,该框架能实现大空间环境中的端到端行走-原创 2025-12-24 17:53:19 · 3562 阅读 · 0 评论 -
SONIC——面向人形全身控制的通用追踪器:统一的通用token空间下支持多种运动输入接口,且可集成VLA来驱动行走-操作(VLA做大脑,SONIC负责执行)
摘要:SONIC是一个通用的人形机器人运动控制框架,通过统一控制策略实现多样化运动指令追踪。其核心创新在于采用共享潜在表示,支持机器人运动、人类运动及混合运动的无缝处理。系统支持多模态输入(视频、文本、音乐、VR)和多种控制方式(全身遥操作、三点式遥操作、VLA自主控制),在"苹果到盘子"任务中达到95%成功率。基于700小时人体运动数据训练,采用PPO算法和域随机化增强鲁棒性。通过编码器-解码器架构实现跨形体学习,为VLA驱动的移动操作任务提供了可行方案。原创 2025-12-22 21:32:46 · 4027 阅读 · 0 评论 -
CHIP——基于事后扰动的「人形自适应柔顺力控制」:不动reward或参考轨迹,把“受力后的位姿偏移”解释成policy本来就该跟的目标,以兼顾追踪模仿和受力后的柔顺性
本文提出CHIP方法,通过事后扰动(Hindsight Perturbation)实现人形机器人的自适应柔顺控制。该方法在不修改参考轨迹和奖励函数的前提下,仅通过调整输入观测值来训练策略,使机器人既能保持运动敏捷性,又能对外力作出柔顺响应。相比传统方法需要大量合成数据或离线运动编辑,CHIP可直接集成到现有运动跟踪框架中。实验证明该方法能同时完成擦拭、推车等需要力控制的任务,以及舞蹈、跑步等敏捷运动,并支持多机器人协同操作。原创 2025-12-20 22:37:03 · 3922 阅读 · 0 评论 -
VIRAL——仿真中训练但现实中视觉驱动(解决loco-mani所需训练数据大的难题):先Sim中训练教师策略,后蒸馏出基于视觉的学生策略
摘要:本文介绍了CMU LeCAR-Lab提出的视觉驱动仿人机器人系统VIRAL,该系统通过教师-学生框架实现行走-操作一体化任务。教师策略利用特权状态信息训练RL模型,输出WBC控制指令;学生策略则通过大规模视觉蒸馏,仅基于RGB图像和本体感知模仿教师行为。关键技术包括:增量动作空间设计、WBC作为API层、参考状态初始化,以及仿真环境的高度随机化。实验表明,该系统无需微调即可零样本迁移到Unitree G1人形机器人,成功完成抓取、搬运等复杂任务。该工作为降低机器人系统部署门槛提供了新思路,使纯视觉驱动原创 2025-11-30 12:44:44 · 3532 阅读 · 0 评论 -
TWIST2——全身VR遥操控制:采集人形全身数据后,可训练视觉base的自主策略(基于视觉观测预测全身关节位置)
TWIST2是一套创新的人形机器人遥操作与数据采集系统,结合了全身控制的强大功能和便携性优势。该系统使用VR设备(PICO4U)和低成本动作追踪器实现全身动作捕捉,无需昂贵设备。创新性地设计了可拆卸颈部模块,集成立体视觉,支持第一人称操作。系统包含人体姿态重定向流程和基于强化学习的鲁棒动作追踪控制器,能完成长时序灵巧任务(如折叠毛巾)和高效数据采集(20分钟100次演示)。此外,提出的分层控制框架(底层运动跟踪+高层扩散策略)首次实现了基于视觉的全身自主控制。相比现有方案,TWIST2在保持全身控制能力的同原创 2025-11-17 11:49:33 · 6108 阅读 · 5 评论 -
TrajBooster——通过“轨迹中心学习”提升人形全身操作能力的VLA:把智元轮式数据迁移到宇树G1上,先二次预训练后微调(免去动捕)
摘要:TrajBooster提出了一种跨形态框架,通过将末端执行器轨迹从轮式机器人迁移到双足人形机器人,解决双足VLA微调数据稀缺问题。该框架包含真实轨迹提取、仿真重定向和真实微调三个步骤,利用AgibotG1的大规模数据提升UnitreeG1的VLA训练效果。实验表明,仅需10分钟真实遥操作数据即可实现广泛全身操作任务,展现了在多样化工作空间中的操作能力。原创 2025-10-20 19:11:35 · 5230 阅读 · 3 评论 -
PhysHSI——搬运箱子,不在话下:仿真中AMP训练,现实中结合内置的LiDAR和头部的外置相机做视觉感知、定位
本文解读了PhysHSI系统,这是一个面向真实世界的通用人形机器人-场景交互系统。该系统通过仿真训练和现实部署两大模块实现:在仿真阶段,利用重定向MoCap数据结合AMP强化学习训练出具有自然动作和泛化能力的策略;在现实部署中,通过激光雷达与相机结合的定位模块解决物体定位难题。PhysHSI能稳定完成搬箱子等交互任务,相比传统方法在泛化性和动作自然度上具有优势。其创新点包括混合参考状态初始化、非对称Actor-Critic框架等,为具身智能发展提供了新思路。原创 2025-10-15 16:23:35 · 4938 阅读 · 0 评论 -
ResMimic——类似预训练-微调模式的人形行走-操作:先预训练一个通用运动跟踪策略,后针对特定任务做修正(非盲态部署时依赖动捕)
摘要:ResMimic提出了一种基于残差学习的人形机器人全身行走-操作框架,通过解耦通用运动跟踪(GMT)策略与任务特定修正,实现高效精确的控制。GMT策略在大规模人类动作数据上预训练,提供运动先验;残差策略则针对物体交互进行轻量级调整。相比现有方法依赖任务特定设计或有限全身交互,ResMimic在统一框架下支持多样化接触与动态操作,减少数据需求与奖励工程。相关研究背景涵盖人形控制、模仿学习及残差学习在机器人领域的应用,凸显该工作对推动通用全身操作的意义。原创 2025-10-12 11:13:00 · 5811 阅读 · 0 评论 -
DreamControl——结合扩散模型和RL的全身人形控制:利用在人体运动数据上训练得到的扩散先验,随后在仿真中引导RL策略完成特定任务
摘要 DreamControl提出了一种结合扩散模型与强化学习的全身类人机器人控制方法。该方法通过人类动作扩散先验引导强化学习策略,解决了传统方法在全身运动操作任务中面临的挑战。系统分为两阶段:首先利用人类动作数据训练扩散先验模型生成运动规划;然后在仿真环境中训练RL策略跟随这些规划完成特定任务。该方法仅需人类数据而非遥操作数据,显著降低数据收集成本,同时生成更自然的运动轨迹,有助于缩小仿真与现实的差距。实验表明,该方法能发现传统RL无法获得的解决方案,并实现真实机器人部署。原创 2025-10-04 00:01:40 · 4948 阅读 · 0 评论 -
VisualMimic——基于视觉的人形行走-操作控制:低层策略负责平衡控制且跟踪高层下发的指令、高层策略则基于自我中心视觉输入以生成任务跟踪指令
VisualMimic提出了一种基于视觉的人形机器人仿真到现实强化学习框架,通过分层策略设计实现复杂物体交互。低层任务无关策略学习人体运动先验,高层任务相关策略基于自中心视觉生成指令。采用教师-学生蒸馏方法解决动作简化带来的性能损失问题,并引入数据增强提升鲁棒性。实验证明该方法能实现零样本迁移到真实机器人,完成推箱、踢球等多样任务,在户外环境也表现稳定。相比现有方法,该框架在任务多样性和现实适应性方面取得突破,为人形机器人自主操作提供了新思路。原创 2025-09-28 22:32:19 · 4919 阅读 · 0 评论 -
HDMI——人形交互式全身控制:宏观上从人类RGB视频中学习全身交互控制,微观上暂依赖动捕数据,且暂一项技能一套策略(已开源)
摘要:HDMI(人形交互模仿)是一种从人类视频中学习全身控制的新框架。该研究解决了人形机器人-物体交互(HOI)中的两大挑战:数据稀缺和强化学习训练难题。方法分为三个阶段:从RGB视频提取运动轨迹、使用强化学习训练协同跟踪策略、直接部署执行。关键技术包括:统一物体表示、残差动作空间和交互奖励机制。相比传统方法,HDMI无需任务特定奖励设计,能处理不同物体类型和交互场景,实现更自然的搬运等复杂任务。该框架为人形机器人运动-操作一体化提供了通用解决方案。原创 2025-09-25 00:50:26 · 5771 阅读 · 1 评论 -
SoFTA——如何让人形在餐厅给顾客上一杯啤酒:快-慢双智能体框架,上半身高频执行精细操作,下半身低频稳步行走
SoFTA论文提出慢-快双智能体框架解决人形机器人行走时末端执行器稳定控制难题。该框架将上半身(100Hz)和下半身(50Hz)控制解耦,分别针对精细操作和步态鲁棒性设计独立奖励机制。实验显示该方法能将末端执行器加速度降低50-80%,达到接近人类水平的2m/s²以下,使端水杯等精细任务成为可能。这种差异化控制策略有效解决了行走与操作在时间尺度和控制要求上的根本性矛盾。原创 2025-09-21 21:07:59 · 4760 阅读 · 0 评论 -
FALCON——力自适应RL框架:上下双智能体(上肢操作策略、下肢行走策略)共享本体感觉和命令,然后联合训练
《FALCON:力自适应人形机器人行走操作的双智能体强化学习框架》 摘要:本文提出FALCON框架,针对人形机器人在高强度行走操作任务中的力适应问题,采用双智能体强化学习架构。通过将上下半身控制策略解耦训练,并共享全身感知信息,FALCON实现了在三维末端执行器力作用下的协调控制。创新性地设计了考虑关节扭矩限制的三维力课程,使策略能逐步学习力适应能力。实验表明,相比传统方法,FALCON在训练效率、运动稳定性和操作精度方面表现更优,并在Unitree G1和Booster T1平台上验证了其跨平台泛化能力,原创 2025-09-04 17:51:01 · 4223 阅读 · 0 评论 -
LBM——大型行为模型助力波士顿人形Atlas完成多任务灵巧操作:CLIP编码图像与语义,之后DiT去噪扩散生成动作
摘要:大型行为模型(LBM)正成为机器人操控领域的研究热点,受到大语言模型成功的启发。本文解析了LBM的关键技术:采用扩散模型(DDIM)构建视觉运动控制策略,通过Transformer架构处理多模态输入。研究指出,相比单任务模型,LBM在任务泛化、样本效率和抗干扰性方面表现更优。文章还探讨了机器人数据集获取的挑战,包括远程操作、仿真协同训练等方法。尽管LBM展现出潜力,但仍面临仿真-现实鸿沟、多模态融合等难题。波士顿动力Atlas的出色表现印证了LBM在实际应用中的价值。原创 2025-08-29 21:36:25 · 3381 阅读 · 0 评论 -
LeVERB——潜在视觉-语言指令驱动的人形全身控制:快慢双系统下VLM感知环境和指令,VLA执行动作(完全基于合成数据进行训练)
LeVERB是首个基于视觉-语言潜在动作的人形机器人全身控制系统,由加州伯克利等机构联合研发。该系统采用分层架构:高级视觉-语言策略(系统2)解析多模态输入并生成潜在动作计划;低级反应式控制器(系统1)以50Hz频率执行全身动作。创新点包括:1)通过合成数据流程生成17.1小时真实感运动数据;2)残差条件变分自编码器实现语义对齐;3)判别器消除模态差异。实验表明LeVERB能完成"走到桌子旁"等复杂指令,填补了视觉语言驱动人形控制的空白。项目网站已开源相关代码和数据集。原创 2025-08-26 21:35:21 · 3341 阅读 · 0 评论 -
HITTER——让双足人形打乒乓球(且可根据球的走向移动脚步):高层模型规划器做轨迹预测和击球规划,低层RL控制器完成击球
摘要:UC伯克利团队开发的人形乒乓球机器人HITTER突破了传统机器人动作模仿的局限,实现了在动态环境中的高速交互。该系统采用分层架构,结合基于模型的轨迹预测和强化学习控制器,使机器人能在亚秒级反应时间内完成击球动作。相比静态操作,该研究展示了人形机器人在实时动态任务中的突破,为具身智能发展提供了新方向。这标志着人形机器人从表演性动作向实用化迈进的"MobileAloha时刻",预示着未来在运动陪练等场景的应用潜力。原创 2025-08-29 16:48:18 · 4374 阅读 · 1 评论 -
TWIST——基于动捕的全身遥操模仿学习:教师策略RL训练,学生策略结合RL和BC联合优化(可训练搬箱子)
6月团队密集开展具身智能开发,连续实现机械臂(piper)、人形机器人(宇树G1)的VR遥操与自主任务训练。重点突破TWIST系统,该创新方案将全身遥操建模为实时动作重定向问题,通过MoCap数据采集与两阶段RL训练策略,解决了人机异构体差异带来的控制瓶颈。系统整合15,000段离线动作与150段实时数据,在29自由度的UnitreeG1上实现多样化类人技能。相比传统模块化控制器或局部动作捕捉方案,TWIST通过末端执行器扰动训练和联合优化关原创 2025-06-25 17:30:24 · 5490 阅读 · 0 评论 -
从R2S2到OpenWBT——提高人形的到达能力:模仿教师策略下RL探索新行为,最终实现技能之间的协调与切换
本文解读了R2S2和OpenWBT工作,提出Real-world-Ready Skill Space(R2S2)框架来解决类人机器人在真实环境中的运动控制问题。该框架通过构建包含行走、姿态调整和手部操作等原始技能库,并通过模仿学习和强化学习将技能集成编码为潜在空间,从而实现了技能间的协调与切换。研究在IsaacGym仿真环境中训练,采用PPO算法和域随机化技术,最终形成具有仿真到现实迁移能力的结构化技能先验,为高层任务规划提供了统一表达。该工作突破了传统方法在系统建模和环境扰动上的局限,为类人机器人的全身控原创 2025-06-24 22:12:37 · 4539 阅读 · 0 评论 -
Being-0——集操作、导航、运动为一体的机器人Agent框架:GPT4o高层感知并推理规划、中层VLM导航适配,最终低层执行技能库
为了实现让类人机器人自主执行类似人类任务的最终目标当前的研究主要集中在改进单项技能上,包括运动能力locomotion(Radosavovic等,2024;Zhuang等,2024)、双手操作manipulation(Ze等,2024a;Li等,2024a;Zhou等,2024)以及全身控制whole-bodycontrol(He等,2024a;Fu等,2024a)最近的研究(Firoozi等,2023;原创 2025-04-30 14:09:32 · 6736 阅读 · 2 评论 -
CLONE——面向长时任务的闭环VR全身遥操:其MoE架构可实现“蹲着走”,且LiDAR里程计解决位置偏差,更增强AMASS数据集
为了历练新同事们,我给所有的新同事们分为了三个项目组(长沙及各地原有的老同事们 则继续之前的客户订单项目)第一组 通过RL(uc伯克利hil-serl) 实现电源插拔第二组 通过lerobot act/pi0,和VLA openpi 实现USB插拔第三组 在弄人形,这两天搞的过程中 发现缺一些设备,所以下周到位后 正式开搞G1 edu版以上的前两个组偏机械臂,大伙每天都在全力加速前进,而人形测 我则继续做更多的技术探索、积累、铺垫如此,过程中,关注到了CLONE这个工作,故本文来解读之原创 2025-06-13 16:42:15 · 4730 阅读 · 0 评论 -
AMO——下层RL与上层模仿相结合的自适应运动优化:让loco-manipulation兼顾可行性和动力学约束(含Mobile-TeleVision的详解)
自去年起,我司专注于具身智能的场景落地与定制开发,导致需求激增,工作节奏加快。在此背景下,我关注了CMU、UCSD、斯坦福等高校的最新研究,特别是UCSD王小龙团队的AMO工作。AMO提出了一种自适应运动优化框架,通过混合运动合成和可泛化策略训练,解决了人形机器人在动态全身控制中的挑战。该框架结合了动作捕捉数据和概率采样,生成满足动力学约束的全身参考动作,并通过AMO网络实现连续映射,提升了机器人在复杂环境中的适应性和实时响应能力。这一创新为人形机器人的灵巧操作提供了新的解决方案。原创 2025-05-20 22:55:34 · 7576 阅读 · 0 评论 -
HOMIE——遥操类似ALOHA主从臂的外骨骼驾驶舱收集数据:通过上肢模仿学习和全身控制RL训练自主策略
本文一开始是属于此文《人形loco-manipulation专题——涵盖Mobile-TeleVision、外骨骼驾驶舱HOMIE、下肢RL-上肢模仿的AMO、上下双智能体联合训练的FALCON》的第二部分的但考虑到在这4个针对loco-manipulation的模型中,我想先尝试一下其中的这个HOMIE加之,HOMIE相对开源的更彻底,更想把其介绍的更详尽细致些考虑到为了避免对上文篇幅过长的担忧,而使得很多细节 没法尽情展开,故把HOMIE独立出来,成此文原创 2025-05-28 23:50:39 · 7649 阅读 · 0 评论
分享