估值超170亿元,头部具身智能大模型创企发布最新VLA模型!家庭服务机器人,要来了!

估值超170亿元,头部具身智能大模型创企发布最新VLA模型!家庭服务机器人,要来了!

原创 搬砖小猎 Robot猎场备忘录 2025年05月03日 15:01 山东

温馨提示点击下方图片,查看运营团队2025年最新原创报告(共210页)

图片

——

正文:

首个具备开放世界家庭任务通用机器人泛化VLA模型,来了!

2025年4月22日,估值超170亿、拥有全球具身智能领域“最强创始团队的具身智能大模型初创公司[Physical Intelligence](简称 PI或 π )在其早期大模型π0基础上,发布公司最新视觉-语言-动作(VLA)大模型π0.5,搭载该模型的机器人,能够在陌生环境完成长时段、复杂家务任务,比如清洁厨房、整理卧室等,展示了领先的开放世界泛化能力。

进度条,百分之38

视频中,研究团队展示了搭载π0.5大脑的机器人在多个陌生且不同的家庭场景中,执行任务现状,展示了其超强泛化性。

π0.5的目标并不是追求新技能或极高的灵活性,而是强调在训练数据未覆盖的场景中实现功能迁移,比如在不同家庭的厨房或卧室中依然游刃有余;这种能力不仅依赖于物理操作技巧,还需要对环境的“常识”理解,涵盖从物体识别到语义推理的多层次认知;该模型首次证明,端到端学习型机器人系统可以在全新的家庭中执行长程灵巧操作技能,标志着机器人技术从实验室走向现实世界的突破。

图片

论文地址:https://www.pi.website/download/pi05.pdf

π0.5主要原理是异构数据的共同训练:通过在各种不同的数据源上训练VLA模型,不仅可以教它如何物理地执行不同的技能,还可以教它如何理解每项技能的语义背景,推断任务的高级结构,甚至从其他机器人转移物理行为;最终,π0.5不仅学会了如何抓取物体、移动手臂,还能理解任务的语义背景(比如清理厨房时该拿什么、放哪儿),分解任务步骤(整理床铺时先拿枕头再铺床单),甚至从其他机器人的经验中“偷师”,比如借鉴单臂机器人或固定底座机器人在简单环境中的动作模式。

图片

图|π0.5 的协同训练任务示意图,其中包括来自多种不同机器人类型的各种机器人数据源,以及包括高级子任务指令、指示和网络数据在内的多模态数据。

数据训练是机器人实现泛化能力的关键,协同训练的基本原理并非新事物,它难在这些数据的组合;PI团队为它量身打造了一套“定制课程”,包括多模态任务、机器人操作数据和人类语言指导,以便在所有必要的抽象层次上实现泛化;并为了搞清楚每种数据的作用,团队又设计了消融实验(ablation studies),通过去掉部分数据,训练不同版本的π0.5,这些版本排除了完整训练混合的不同部分,只留下使用在实验中使用的相同机器人收集的移动操作数据(约 400 小时)。

该模型在架构上同样采用了高层决策,底层执行的双系统(分层)架构;基于前代π0模型,π0.5通过协同训练既能“思考”又能“行动”,用同一个模型完成高层次决策和低层次操作。

图片

图|π0.5 使用的高层/低层推理程序。该模型首先生成一个用语言表达的高级动作,基本上是“告诉自己”应该采取什么步骤来完成任务,然后利用其流程匹配动作专家来选择运动指令。

这一流程延续了他们此前的 Hi Robot 系统思路,不同之处在于 π0.5 将高级决策与低级控制统一由同一模型完成,类似于“思维链”模式。

2025年2月26日,公司推出“分层交互式机器人”系统(全称:Hierarchical Interactive Robot ,简称Hi Robot),它允许整合VLA模型,例如π0,进入两级推理过程,使机器人能够理解和执行复杂的开放式指令,并在任务执行过程中动态接收用户反馈和纠正。

,时长00:44

Hi Robot系统的核心就是一个分层的视觉-语言模型(VLM)架构,分为高级和低级两个层次,既高层推理(VLM)和低层执行(VLA);其中,高层次策略和低层次的 π0 模型都是基于相同的 VLM。

最终研究结果上看,目前π0.5还不够完美,常在高级语义推理和动作执行指令方面出现错误,但通过让机器人从多样化的知识来源中学习,其训练方法让我们离“灵活的物理智能”更近了一步。

2025年以来,采用双系统架构的VLA模型已成为具身智能领域模型主流,国内外的头部具身智能机器人公司都推出双系统架构的VLA模型。

国外知名人形机器人独角兽公司[Figure AI]于2025年2月20日推出自研通用型视觉语言动作(VLA)模型—Helix,并开创性采用双系统架构,开启双系统架构VLA模型先河;[英伟达]于2025年3月18日推出全球首个开源、可定制的通用人形推理和技能基础模型GR00T N1,同样采用双系统架构

值的注意的是,国内最早提出并系统性研发端到端VLA的具身智能机器人公司[智平方]于2025年4月17日发布全栈自研的全域全身VLA大模型Alpha Brain,该模型同样采用双系统架构,由空间交互基础模型、慢系统和快系统三部分组成;被业界称为拥有国内“最强、科学家密度最高”具身智能创始团队的初创公司[灵初智能]于2025年4月27日发布了分层端到端VLA+强化学习算法模型Psi-R1。

那么到底什么是VLA模型,双系统架构技术路径优势是什么?

VLA是一种整合视觉(Vision)语言(Language)动作(Action)的多模态模型,但存在数据采集难度大和长期规划与状态跟踪能力欠缺等问题,为了解决这类问题,行业公司则创新性提出双系统架构技术路径,将原本的长链条端到端模型VLA模型拆开,分成VLM和动作执行两个模型;具体而言,分层模型利用大语言模型的强大规划与推理能力,构造出类似人类“快慢脑,其中快脑为系统1,专注于操作,负责实时执行和调整行动;慢脑为系统2,专注慢推理规划,负责制定战略;通过将VLA拆分成VLM和动作执行两个模型后,VLM模型能学习的数据类型得以大幅扩展,它不再像VLA那样只能通过“遥操作”来进行模仿学习,而是也能从大量的互联网视频中学习人类的操作技巧。

在这种技术路径下,机器人得以应对更加复杂多样、长时间跨度的场景和任务,从而真正走向通用智能时代的落地。

[Physical Intelligence](简称 PI或 π )拥有全球具身智能领域“最强创始团队,由UC Berkley、斯坦福大学教授团队和谷歌科学家等科研和技术大牛于2024年3月成立,公司致力于创建可以为各种机器人和机器增添高级智能的软件,最终目标是创建一种作为通用机器人系统的AI模型(机器人通用大脑)。

公司成立仅一个月时,官网还没有建(至今也没有建)就获得来自于Thrive Capital 、Open AI、红杉资本、Greenoaks Capital Parners、Lux Captital和Khosla Ventures7000 万美元融资,投后估值4亿美金;2024年11月5日,完成4亿美元新一轮融资,本轮投资由亚马逊创始人杰夫·贝索斯、风险投资公司Thrive Capital和Lux Capital领投,OpenAI、Redpoint Ventures和Bond等参投,投后估值约为24亿美元,成为估值最高具身智能大模型赛道初创企业。

2024年10月31发布成立以来首个机器人通用的机器人基础模型π0( pi-zero);于11月15日,国内“腾讯系”知名人形机器人初创企业【星尘智能】发布搭载π0( pi-zero)的旗下轮式仿生人形机器人Astribot S1最新视频;于2025年4月2日,国内头部人形机器人公司[智元机器人]宣布与PI在具身智能领域的深度技术合作,尤其是围绕动态环境下的长周期复杂任务;并由原伯克利人工智能研究实验室(BAIR)博士后研究员、智元首席科学家罗剑岚负责推进双方合作事宜。

小编往期文章有详细梳理具身智能技术领域,全球Top50华人(有详细介绍各顶尖院校派系情况):全球AI+Robotics领域,国人、华人图谱(含具身智能赛道“师徒关系图”)

智元机器人

,赞571

Pi可称为最强创始团队,没有素人,全是行业大牛

图片

图片

图片

左到右,依次是Sergey Levine、Chelsea Finn、Karol Hausman

  • 联合创始人Chelsea Finn:现任斯坦福计算机科学与电气工程系助理教授(ALOHA家务机器人项目导师),重点研究通过学习和交互来发展机器人等智能体的广泛智能行为,谷歌学术论文引用数超4.7万;曾在谷歌大脑担任过5年研究科学家,开发机器人深度预测模型;MIT 大学毕业后在伯克利取得博士学位,博士导师则是Sergey Levine

  • 联合创始人兼CEO Karol Hausman:之前担任谷歌大脑的高级研究科学家,同时也是斯坦福大学的兼职教授;因 “对可扩展的机器人学习算法做出重大贡献”,获得过 2023 IEEE 奖项;

  • 联合创始人Sergey Levine:现任UC Berkley电气工程与计算机科学系助理教授,专注于研究让自主智能体通过学习获得复杂行为的通用算法,集中在机器学习决策和控制领域;并开发端到端深度神经网络训练策略,曾带领团队与谷歌联合开发 RT-X 机器人项目,被认为是强化学习领域的领军人物之一。

  • 联合创始人:Brian Ichter:先后在谷歌大脑和谷歌DeepMind的机器人团队任职;

  • 联合创始人Lachy Groom :支付公司 Stripe 前高管、著名科技投资人

  • Suraj Nair:丰田研究院ML研究团队的研究科学家,从事ML、机器人和CV交叉领域的工作;

人工智能、大模型技术突破性进展催生了本身具身智能浪潮,但同时大模型发展瓶颈也同样是人形机器人商业化核心壁垒;相较于上游机器人核心零部件基本成熟,软件算法进步将是推动人形机器人功能提升和应用场景拓展的关键。大模型的通识理解能力、多级推理能力赋予人形机器人具身智能的核心;嵌入在大模型中的庞大先验知识库&强大的通识理解能力让机器人更好理解泛化任务,且基于思维链的多级推理能力,让人形机器人实现了具身智能。小编往期文章:人形机器人发展路线之争:“大脑”优先,还是“运动”优先?有提到大多数人形本体初创公司在AI层面投入极少,仅依靠科技大厂大模型赋能,远不能在万亿人形机器人市场中占有一席之地,强大的AI能力将是必需项,人形机器人企业自研机器人大模型,构建自己的技术闭环,真正掌握核心技术的主动权,才能在大厂林立的人形机器人赛道掌握主动权

2025年以来,谷歌、OpenAI、Meta等国外科技大厂率先从大模型赋能、投资形式转变为躬身入局本体制造,国内大厂随后跟进,如华为、蚂蚁集团、京东集团等;同时,资本层面也有纠偏,越发关注具身智能大模型创企或者具备强大AI能力的人形本体的初创公司,如自变量机器人、穹彻智能、智平方、星海图、千寻智能等。

详细解读,查看往期文章【原创】多家顶尖科技大厂,进军人形机器人整机制造

当然,具身智能机器人是一个复杂的AI+机器人+自动驾驶的系统性学术+工程问题,远期AGI的物理世界载体,受算力、软件算法、数据、硬件、工程化等多面因素影响;小编往期文章:【原创】人形机器人商业化卡点(人形机器人创企九死一生)有从算力、软件算法、数据、硬件、工程化等多层面,详细梳理人形机器人商业化卡点。

... ... ...

本文仅展示极少部分,接下来,小编将详细盘点具身智能大模型领域,全球初创公司(PI、Skild AI、Covariant、穹彻智能、若愚科技、X Square等)介绍及产品进展、全球科技巨头/大厂(谷歌、英伟达、微软、OpenAI、华为、阿里、腾讯、字节等)现阶段产品进展、人形机机器人本体厂家与科技巨头/大厂合作现状以及科技巨头入局人形机器人本体赛道现

... ... ...

本文内容仅展示一部分,更多详细解读,点击查看完整版文章[原创]具身智能大模型赛道:科技巨头技术进展、初创公司盘点,第一款“机器人通用大脑”花落谁家(文字6W+)加入知识星球“机器人头条”与900+位行业从业者一起,深度探讨“具身智能&人形机器人”赛道;

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值