
人形的运动控制开发:HumanPlus/H2O/ASAP
文章平均质量分 96
包括且不限于humanplus、Exbody、omniH2O、ASAP等等
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
AMO——下层RL与上层模仿相结合的自适应运动优化:让人形行走操作(loco-manipulation)兼顾可行性和动力学约束
自去年起,我司专注于具身智能的场景落地与定制开发,导致需求激增,工作节奏加快。在此背景下,我关注了CMU、UCSD、斯坦福等高校的最新研究,特别是UCSD王小龙团队的AMO工作。AMO提出了一种自适应运动优化框架,通过混合运动合成和可泛化策略训练,解决了人形机器人在动态全身控制中的挑战。该框架结合了动作捕捉数据和概率采样,生成满足动力学约束的全身参考动作,并通过AMO网络实现连续映射,提升了机器人在复杂环境中的适应性和实时响应能力。这一创新为人形机器人的灵巧操作提供了新的解决方案。原创 2025-05-20 22:55:34 · 934 阅读 · 0 评论 -
ASAP——让宇树G1后仰跳投且跳舞:仿真中重现现实轨迹,然后通过增量动作模型预测仿真与现实的差距,最终缩小差距以对齐
作者在2025年2月首次看到CMU的ASAP项目,当时对机器人后仰跳投功能不以为然。一个月后,西湖机器人公司发布的宇树G1跳舞视频也未改变其看法。直到一个娱乐集团提出通过二次开发使机器人跳舞以促进消费,作者才意识到该技术的实际应用价值。作者反思了自己对技术潜在价值的忽视,并在与同事讨论后,决定深入研究CMU的ASAP工作。本文由此展开,探讨机器人跳舞技术的行业应用原创 2025-05-12 12:09:41 · 1938 阅读 · 0 评论 -
一次性总结数十个具身模型(2024-2025):从训练数据、动作预测、训练方法到Robotics VLM、VLA(如π0等)
本文一开始是属于此文的前言的,但考虑到其重要性,加之那么大一张表格 看下来 阅读体验较差,故抽出取来独立成文且拆分之具身的论文解读过很多之后,便会发现整个今24年的具身模型/策略大概如下所示——目前全网独一份「(建议按照从下至上的顺序看,且,我后续也会不断完善之——毕竟还有很多并未囊括于下表中,如转载请于文章开头标明作者July及本文链接。原创 2025-02-01 15:20:33 · 11318 阅读 · 2 评论 -
Being-0——集操作、导航、运动为一体的机器人Agent框架:GPT4o高层感知并推理规划、低层VLM导航适配,最终执行技能库
为了实现让类人机器人自主执行类似人类任务的最终目标当前的研究主要集中在改进单项技能上,包括运动能力locomotion(Radosavovic等,2024;Zhuang等,2024)、双手操作manipulation(Ze等,2024a;Li等,2024a;Zhou等,2024)以及全身控制whole-bodycontrol(He等,2024a;Fu等,2024a)最近的研究(Firoozi等,2023;原创 2025-04-30 14:09:32 · 2646 阅读 · 0 评论 -
NaVILA——可语音交互的用于四足和人形导航与避障的VLA模型:在VLM的导航规划下,执行基于视觉的运动策略(含NaVILA和rsl_rl的源码解析)
如此前的博客所说,我司「七月在线」正在并行开发多个订单,目前正在全力做好每一个订单,因为保密协议的原因,暂时没法拿出太多细节出来分享但可以持续解读我们所创新改造或的对象,即解读paper和开源库「当然 有些paper/库还没开始用,但也可以提前解读,作为关注了解而其中有一个订单涉及到行走之外的导航、避障,项目组在确定解决方案的过程中,看到了NaVILA这个工作,故本文来解读下。原创 2025-04-15 17:49:10 · 3193 阅读 · 0 评论 -
从视频中学习的最新进展:从Humanoid-X(自动打字幕)、首个人形VLA Humanoid-VLA到一看视频就学会的VideoMimic
随着图形学领域中人类数据的日益丰富,近期的人形机器人控制越来越多地采用从人类数据中学习的方法。具体来说,给定来自物理遥操作(例如动作捕捉系统)的目标身体姿态以及人形机器人的本体感觉,全身控制器生成关节扭矩以控制人形机器人从形式上讲,这可以表示为其中表示目标身体姿态人形机器人的本体感受在时间t ∈N+ 时的关节力矩然而,开发一个通用机器人需要有目的的学习,这涉及从人类数据中提取有意义的意图,并将先前的经验适应于新的任务或环境目前的数据获取方法主要集中在人体关节姿态上,缺乏与第一人称视觉的整合。原创 2025-04-27 17:03:16 · 2198 阅读 · 0 评论 -
ViLLA——继AgiBot World之后,智元发布GO1及其背后基于潜在动作的VLA架构ViLLA:利用海量的无标注视频做训练(含LAPA、Moto的详解)
AgiBot World Colosseo,这是一个全栈式大规模机器人学习平台,旨在推动可扩展和智能化的体感系统中的双手操作研究。他们建造了一个总面积达4000平方米的设施,涵盖五个主要领域——家庭、零售、工业、餐厅和办公室环境——专用于在真实的日常场景中进行高保真数据收集AgiBot World从100个真实机器人收集了超过100万条轨迹,提供了前所未有的多样性和复杂性。它涵盖了超过100个现实场景,解决了诸如细粒度操作、工具使用和多机器人协同合作等具有挑战性的任务。原创 2025-03-11 17:32:14 · 6111 阅读 · 0 评论 -
英伟达HOVER——用于人形机器人的多功能全身控制器:整合不同的控制模式且实现彼此之间的无缝切换
人形机器人是一种多功能的形态,支持多种机器人任务和应用,包括双手操作[1–3]、双足行走[4–7]和灵活的全身控制[8–14]。尽管这些努力展示了令人印象深刻的成果,每个项目都根据其特定任务和场景使用了不同的全身控制公式。原创 2024-11-06 19:54:35 · 6010 阅读 · 0 评论 -
基于人类视频的模仿学习与VLM推理规划:从DexMV、MimicPlay、SeeDo到人形OKAMI、Harmon(含R3M的详解)
在此文《》的1.1节开头有提到机器人收集训练数据一般有多种方式,比如Dexmv物理本体,有的翻译为embodiment38-Dexmv即embodiment-agnostic keypoint,49考虑到「从人类视频中学习」早已成为机器人的主流训练方法之一,故打算系统阐述以下这个课题,不然很多朋友可能只是理解其字面意思,但到底具体怎么个模仿学习,则不一定知其里,而通过本文系统的阐述,可以让大家更深刻的理解模仿学习背后更深的细节。原创 2024-10-20 22:57:24 · 6657 阅读 · 0 评论 -
可跳简单舞蹈的Exbody 2——从MDM、RobotMDM到的Exbody:人体运动扩散模型赋能机器人的训练
22年9月,来自TAU的研究者们通过此篇论文《》提出了运动扩散模型MDM,在该文中,作者通过在无分类器的方式下对CLIP进行条件化来实现文本到动作的转换,类似于文本到图像如下图所示「运动扩散模型(MDM)通过在给定文本提示的情况下生成多样化的动作,反映了文本到动作映射的多对多特性,其中,较深的颜色表示序列中的较晚帧,即最后生成的帧。原创 2024-10-11 23:25:20 · 5019 阅读 · 2 评论 -
H2O与OmniH2O——通过RGB摄像头全身实时遥控:仿真RL中训练,然后再sim2real(含师生学习与策略蒸馏详解)
由于我司一直在针对各个工厂、公司、客户特定的业务场景,做解决方案或定制开发,所以针对每一个场景,我们都会反复考虑用什么样的机器人做定制开发于此,便不可避免的追踪国内外最前沿的机器人技术进展,本来准备在上一篇博客《VLM驱动机器狗——从UMI on Legs到Helpful DoggyBot:分别把机械臂装到机器狗背上、夹爪装到机器狗嘴里》之后,解读今天上午看到的字节刚发的机器人大模型GR2。原创 2024-10-09 23:02:56 · 8270 阅读 · 2 评论 -
人体姿态估计WHAM与手势估计HaMeR:人形机器人重定向的关键技术(含AMASS和SMPL-X的详解)
根据arXiv的记录,此篇论文的提交记录为[Submitted on 12 Dec 2023 (v1), last revised 18 Apr 2024 (this version, v2)]如下图所示,WHAM的输入是由可能具有未知运动的相机捕获的原始视频数据,接下来的目标是预测对应的SMPL模型参数序列,以及在世界坐标系中表达的根方向和平移,具体做法是。原创 2024-06-22 17:39:48 · 5973 阅读 · 1 评论 -
HumanPlus(斯坦福人形机器人)的代码解读与复现关键:从HST到HIT、HardWare
本文一开始是属于此文的第四部分,但为避免原文篇幅过长,故把该部分抽取出来独立成文过程中解读斯坦福人形机器人humanplus的代码时,还是充满乐趣的,比如又遇到了熟悉的ppo,想到也算是可谓三者合一、步步为赢了大模型时代,技术更迭速度超过以往任何,而个人认为机器人(具身智能)将是未来几年最大的趋势,包括我司机器人线下营曾一天连报5人(开营后,将邀请一波人加入我司机器人开发队伍),愿与有缘人共同开发机器人。原创 2024-06-19 10:40:58 · 8489 阅读 · 19 评论 -
HumanPlus——斯坦福ALOHA团队开源的像人类影子一样的人形机器人:仿真中训小脑HST、真实中训大脑HIT
今天只是一个平常的日子,不过看到了两篇文章一篇是《半年冒出近百家新公司,「具身智能」也有春天》我看完之后转发到朋友圈,并评论道:让机器人翻一万个后空翻,不如让机器人打好一个螺钉,毕竟在目前阶段 炫酷没有意义,所以我们近期全力为工厂去赋能,解决一个个工业场景期待我司与更多工厂合作,从前期的验证、评估开始另外一篇文章便是之前斯坦福Moblie aloha团队竟然开源推出了他们的人形机器人,虽然我司下半年暂不涉足人形机器人(更多还是解决工厂实际业务场景 怎么把活干好、干漂亮则怎么来,是否人形不重要)原创 2024-06-16 12:25:12 · 18250 阅读 · 15 评论