
通用机械臂之路: π0等VLA sota模型
文章平均质量分 95
做了专门预训练的机器人大模型
v_JULY_v
七月在线创始人兼CEO,结构之法算法之道blog之博主
展开
-
π0.5——让VLA走出实验室,泛化在开放世界中的π0推理加强版:同一个模型中先高层拆解出子任务,后低层执行子任务
今天一早,朋友圈刷到π0出0.5版本了,之后,我组建的「七月具身:π0复现微调交流群」群中,也在讨论这事,并说:七月老师要更新博客了这不就来了现在具身模型的发展 还不如大语言模型那样成熟π0 发新版了,意味着和Google的RT(大概率是不更了),以及figure(没开源过)等等——还有别的一些模型 没列举全,进入了少数迭代型的具身模型的行列。原创 2025-04-24 00:19:38 · 1592 阅读 · 1 评论 -
Hi Robot——大脑加强版的π0:基于「VLM的高层次推理+ VLA低层次任务执行」的复杂指令跟随及交互式反馈
自从ChatGPT火爆之后,大语言模型对具身智能的赋能、推动便一日千里,然大语言模型和人类对话上的交互是限定在一个文字世界里的,不需要考虑实体与其所处环境的物理交互毕竟在虚拟世界中,大语言模型给的答案没有实体或现实世界的限制,但到了现实世界中,人让实体的机器人干活时,则一切大不一样了机器人需要考虑现实世界中 各种限制,比如各种行为在现实中是否可执行如Hi Robot原论文所说的当你对机器人说,“如果你有火腿或烤牛肉,能不能为我的朋友做一个包含其中一种的单独三明治?原创 2025-04-09 17:06:38 · 1988 阅读 · 0 评论 -
对通用VLA π0的微调——如何基于各种开源数据集、以及私有数据集微调π0(含我司七月的微调实践及在机械臂上的部署)
25年2.4日,几个月前推出π0的公司Physical Intelligence (π)宣布正式开源π0及π0-FAST,如之前所介绍的,他们对用超过 10,000 小时的机器人数据进行了预训练该GitHub代码仓库包括4个方面:简言之,就是π0本身的代码和权重、特定平台上特定任务的微调checkpoint、推理代码、微调代码。原创 2025-03-09 00:14:26 · 6002 阅读 · 15 评论 -
π0源码剖析——从π0模型架构的实现(如何基于PaLI-Gemma和扩散策略去噪生成动作),到基于C/S架构下的模型训练与部署
ChatGPT出来后的两年多,也是疯狂写博的两年多,年初deepseek更引爆了下从曾经15年创业后每年2-6篇的,干到23年30篇、24年65篇,25年前两月18篇,成了我在大模型和具身的原始技术积累如今一转眼已到25年3月初,纪念这两年多,然近期和团队接了好几个大客户订单,使得3月起 不得不全力加速落地,自己也得每天抠paper、搞代码,今年可能没法像去年那样干65篇,不过,我还是争取保持月月更新。原创 2025-03-06 18:27:01 · 6359 阅读 · 21 评论 -
自回归版π0-FAST——打造高效Tokenizer:比扩散π0的训练速度快5倍但效果相当(含π0-FAST源码剖析)
最近,多项研究开发了通用机器人策略[这些策略是在越来越大的机器人学习数据集,比如52-Open-X上进行训练的训练通用策略的一种有前途的方法是视觉-语言-动作模型VLAs,包括且不限于10Rt-239-Openvla7-π063-Tinyvla11-GR-2这些模型是在互联网上规模庞大的图像和文本数据上预训练的,用于机器人控制使用具有数十亿参数的大型视觉-语言模型骨干,为拟合大型机器人数据集提供了必要的表达能力。原创 2025-02-06 21:25:22 · 10046 阅读 · 5 评论 -
π0——用于通用机器人控制的VLA模型:一套框架控制7种机械臂(基于PaliGemma和流匹配的3B模型)
在此文之前,我花了一天半,详细解读了清华这个机器人扩散大模型RDT,包括其每一个附录,并在上文中预告说:下一篇是一个3B的机器人大模型打通7种不同品牌的机械臂,这几个工作宣告机器人真正进入大模型时代故,本文来了。原创 2024-11-04 00:11:59 · 19942 阅读 · 16 评论 -
RDT——清华开源的双臂机器人“扩散动作大模型”(基于DiT改造而成):先预训练后微调,支持语言、图像、动作多种输入
此外,在实践中,我们倾向于一次性预测一系列动作,即一个动作块,以促进时间一致性(Chi等,2023),并通过减少任务中的决策次数来缓解错误累积(Zhao等,2023)这可能导致分布外的动作,例如多个模式的算术平均值,这可能完全不可行(Pearce等,2023),相反,作者选择建模连续条件分布。幸运的是,对于作者的设置来说,这一缺点很小,因为。此外,值得强调的是,他们的目标是利用多机器人数据来增强模型在双手操作中的普适性,而不是开发用于各种机器人的跨实体模型。的维度比图像低得多,只需要最小的采样开销。原创 2024-11-02 00:31:03 · 12717 阅读 · 0 评论 -
字节GR2——在大规模视频数据集上预训练且机器人数据上微调,随后预测动作轨迹和视频(含GR1详解)
上个月的24年10.9日,我在朋友圈看到字节发了个机器人大模型GR2,立马去看了下其论文(当然了,本质是个技术报告)这次也是我头一次看paper,不看正文,而是直奔其References,看有没有我预想中的文献,说明咱看paper的能力相比去年强很多了那天之后,我就一直想解读这个GR2来着然,意外来了,如此文开头所说。原创 2024-11-01 19:20:34 · 5652 阅读 · 0 评论