
HumanPlus/H2O/Helix为代表的人形发展史
文章平均质量分 96
包括且不限于humanplus、television、omniH2O等等
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
Being-0——集操作、导航、运动为一体的机器人Agent框架:GPT4o高层感知并推理规划、低层VLM导航适配,最终执行技能库
为了实现让类人机器人自主执行类似人类任务的最终目标当前的研究主要集中在改进单项技能上,包括运动能力locomotion(Radosavovic等,2024;Zhuang等,2024)、双手操作manipulation(Ze等,2024a;Li等,2024a;Zhou等,2024)以及全身控制whole-bodycontrol(He等,2024a;Fu等,2024a)最近的研究(Firoozi等,2023;原创 2025-04-30 14:09:32 · 694 阅读 · 0 评论 -
NaVILA——可语音交互的用于四足和人形导航与避障的VLA模型:在VLM的导航规划下,执行基于视觉的运动策略(含NaVILA和rsl_rl的源码解析)
如此前的博客所说,我司「七月在线」正在并行开发多个订单,目前正在全力做好每一个订单,因为保密协议的原因,暂时没法拿出太多细节出来分享但可以持续解读我们所创新改造或的对象,即解读paper和开源库「当然 有些paper/库还没开始用,但也可以提前解读,作为关注了解而其中有一个订单涉及到行走之外的导航、避障,项目组在确定解决方案的过程中,看到了NaVILA这个工作,故本文来解读下。原创 2025-04-15 17:49:10 · 1929 阅读 · 0 评论 -
从视频中学习:从Humanoid-X、UH-1的自动打字幕,到首个人形VLA Humanoid-VLA(自监督数据增强且整合第一人称视角)
随着图形学领域中人类数据的日益丰富,近期的人形机器人控制越来越多地采用从人类数据中学习的方法。具体来说,给定来自物理遥操作(例如动作捕捉系统)的目标身体姿态以及人形机器人的本体感觉,全身控制器生成关节扭矩以控制人形机器人从形式上讲,这可以表示为其中表示目标身体姿态人形机器人的本体感受在时间t ∈N+ 时的关节力矩然而,开发一个通用机器人需要有目的的学习,这涉及从人类数据中提取有意义的意图,并将先前的经验适应于新的任务或环境目前的数据获取方法主要集中在人体关节姿态上,缺乏与第一人称视觉的整合。原创 2025-04-27 17:03:16 · 1130 阅读 · 0 评论 -
ViLLA——继AgiBot World之后,智元发布GO1及其背后基于潜在动作的VLA架构ViLLA:利用海量的无标注视频做训练(含LAPA、Moto的详解)
AgiBot World Colosseo,这是一个全栈式大规模机器人学习平台,旨在推动可扩展和智能化的体感系统中的双手操作研究。他们建造了一个总面积达4000平方米的设施,涵盖五个主要领域——家庭、零售、工业、餐厅和办公室环境——专用于在真实的日常场景中进行高保真数据收集AgiBot World从100个真实机器人收集了超过100万条轨迹,提供了前所未有的多样性和复杂性。它涵盖了超过100个现实场景,解决了诸如细粒度操作、工具使用和多机器人协同合作等具有挑战性的任务。原创 2025-03-11 17:32:14 · 4883 阅读 · 0 评论 -
GR00T N1——英伟达开源的通用人形VLA:类似Helix的快与慢双系统,且可类似ViLLA利用海量的无标注视频做训练(含源码解析)
就在今天3.19日的凌晨,英伟达发布的GR00T N1还是很有含金量的(上午已有好几个朋友私我了),由此可以看到很多相关工作的影子,比如helix π0 LAPA,具体而言,其具有双系统架构至于昨晚计划的fourier-lerobot对idp3的封装解读,则作为这两天的第二篇顺便说个事,随着我司「七月在线」接的B端大客户具身订单越来越多了,非常缺人。原创 2025-03-20 00:28:26 · 4776 阅读 · 7 评论 -
英伟达HOVER——用于人形机器人的多功能全身控制器:整合不同的控制模式且实现彼此之间的无缝切换
人形机器人是一种多功能的形态,支持多种机器人任务和应用,包括双手操作[1–3]、双足行走[4–7]和灵活的全身控制[8–14]。尽管这些努力展示了令人印象深刻的成果,每个项目都根据其特定任务和场景使用了不同的全身控制公式。原创 2024-11-06 19:54:35 · 5871 阅读 · 0 评论 -
Helix——Figure 02发布的通用人形机器人控制VLA:不用微调即可做多个任务的快与慢双系统,让两个机器人协作干活(含清华HiRT详解)
过去一周,我花了很大的心思、力气,把deepseek的GRPO、MLA算法的代码解析通透,比如GRPO与PPO的详细对比,再比如MLA中,图片 公式 代码的一一对应2.20日晚,无意中刷到figure 02发布Helix的一个演示视频,再次大为震撼当时在朋友圈感叹到,我司在具身落地中,基本围绕:模仿学习 RL vla三条线,下面这个figure 02分门别类收纳进冰箱,应该vla的贡献程度最大(后来看了下技术报告,确实如此)原创 2025-02-21 14:22:48 · 6647 阅读 · 0 评论 -
基于人类视频的模仿学习与VLM推理规划:从DexMV、MimicPlay、SeeDo到人形OKAMI、Harmon(含R3M的详解)
在此文《》的1.1节开头有提到机器人收集训练数据一般有多种方式,比如Dexmv物理本体,有的翻译为embodiment38-Dexmv即embodiment-agnostic keypoint,49考虑到「从人类视频中学习」早已成为机器人的主流训练方法之一,故打算系统阐述以下这个课题,不然很多朋友可能只是理解其字面意思,但到底具体怎么个模仿学习,则不一定知其里,而通过本文系统的阐述,可以让大家更深刻的理解模仿学习背后更深的细节。原创 2024-10-20 22:57:24 · 6364 阅读 · 0 评论 -
Exbody 2——从MDM、RobotMDM到UC San Diego的Exbody:人体运动扩散模型赋能机器人的训练
22年9月,来自TAU的研究者们通过此篇论文《》提出了运动扩散模型MDM,在该文中,作者通过在无分类器的方式下对CLIP进行条件化来实现文本到动作的转换,类似于文本到图像如下图所示「运动扩散模型(MDM)通过在给定文本提示的情况下生成多样化的动作,反映了文本到动作映射的多对多特性,其中,较深的颜色表示序列中的较晚帧,即最后生成的帧。原创 2024-10-11 23:25:20 · 4862 阅读 · 2 评论 -
H2O与OmniH2O——全身远程操作且RL训练的人形机器人(含师生学习与策略蒸馏详解)
由于我司一直在针对各个工厂、公司、客户特定的业务场景,做解决方案或定制开发,所以针对每一个场景,我们都会反复考虑用什么样的机器人做定制开发于此,便不可避免的追踪国内外最前沿的机器人技术进展,本来准备在上一篇博客《VLM驱动机器狗——从UMI on Legs到Helpful DoggyBot:分别把机械臂装到机器狗背上、夹爪装到机器狗嘴里》之后,解读今天上午看到的字节刚发的机器人大模型GR2。原创 2024-10-09 23:02:56 · 7804 阅读 · 0 评论 -
人体姿态估计WHAM与手势估计HaMeR:人形机器人重定向的关键技术(含AMASS和SMPL-X的详解)
根据arXiv的记录,此篇论文的提交记录为[Submitted on 12 Dec 2023 (v1), last revised 18 Apr 2024 (this version, v2)]如下图所示,WHAM的输入是由可能具有未知运动的相机捕获的原始视频数据,接下来的目标是预测对应的SMPL模型参数序列,以及在世界坐标系中表达的根方向和平移,具体做法是。原创 2024-06-22 17:39:48 · 5816 阅读 · 1 评论 -
HumanPlus(斯坦福人形机器人)的代码解读与复现关键:从HST到HIT、HardWare
本文一开始是属于此文的第四部分,但为避免原文篇幅过长,故把该部分抽取出来独立成文过程中解读斯坦福人形机器人humanplus的代码时,还是充满乐趣的,比如又遇到了熟悉的ppo,想到也算是可谓三者合一、步步为赢了大模型时代,技术更迭速度超过以往任何,而个人认为机器人(具身智能)将是未来几年最大的趋势,包括我司机器人线下营曾一天连报5人(开营后,将邀请一波人加入我司机器人开发队伍),愿与有缘人共同开发机器人。原创 2024-06-19 10:40:58 · 8263 阅读 · 19 评论 -
HumanPlus——斯坦福ALOHA团队开源的像人类影子一样的人形机器人:仿真中训小脑HST、真实中训大脑HIT
今天只是一个平常的日子,不过看到了两篇文章一篇是《半年冒出近百家新公司,「具身智能」也有春天》我看完之后转发到朋友圈,并评论道:让机器人翻一万个后空翻,不如让机器人打好一个螺钉,毕竟在目前阶段 炫酷没有意义,所以我们近期全力为工厂去赋能,解决一个个工业场景期待我司与更多工厂合作,从前期的验证、评估开始另外一篇文章便是之前斯坦福Moblie aloha团队竟然开源推出了他们的人形机器人,虽然我司下半年暂不涉足人形机器人(更多还是解决工厂实际业务场景 怎么把活干好、干漂亮则怎么来,是否人形不重要)原创 2024-06-16 12:25:12 · 17736 阅读 · 15 评论