国内“最强”具身智能创始团队，发布最强分层端到端VLA模型！

最新推荐文章于 2025-05-08 10:04:30 发布

强化学习曾小健

最新推荐文章于 2025-05-08 10:04:30 发布

阅读量917

点赞数 19

文章标签：人工智能

本文链接：https://blog.csdn.net/sinat_37574187/article/details/147674563

版权

国内“最强”具身智能创始团队，发布最强分层端到端VLA模型！

原创搬砖小猎猎场备忘录

2025年04月28日 13:05 山东

温馨提示：点击下方图片，查看运营团队2025年最新原创报告（共210页）

——

正文：

真正VLA模型来了！

2025年4月27日，拥有国内“最强、科学家密度最高”具身智能创始团队的初创公司【灵初智能】发布了分层端到端VLA+强化学习算法模型Psi-R1，率先攻克了开放场景下的长程复杂任务挑战，开启具身智能新时代。

灵初智能

，赞1521

R1能够让机器人基于Chain of Action Thought（CoAT）框架的自主推理系统，以麻将为场景，在视频中，R1让机器人具备了翻牌、碰杠、算牌、协作等核心能力，展现了机器人在开放环境中的长程灵巧操作能力，达成了30分钟+持续CoAT超长任务时长，同时验证了三重复合交互能力（人-机交互、机-机交互、机-环境交互），体现出VLA的超强推理能力和RL超越人类上限的思考、操作能力。

Psi R1模型同样采取了“快慢脑”的分层架构,其中快脑S1专注操作，慢脑S2专注推理规划；2025年以来，采用双系统架构的VLA模型已成为具身智能领域模型主流，国内外的头部具身智能机器人公司都推出双系统架构的VLA模型。

2025年2月20日，国外知名人形机器人独角兽公司【Figure AI】推出自研通用型视觉语言动作(VLA)模型—Helix，并开创性采用双系统架构（负责“慢思考”，处理高层语义和目标规划S2和负责“快反应”，实时执行和调整动作S1 ），开启双系统架构VLA模型先河，专为高频率、灵巧控制整个人形机器人上半身而设计。

2025年2月26日，作为国外最早提出视觉语言动作(VLA)模型，拥有全球具身智能领域“最强创始团队的具身智能大模型初创公司[Physical Intelligence]（简称 PI或 π ）基于其公司端到端大模型π0（ pi-zero）推出“分层交互式机器人”系统（全称：Hierarchical Interactive Robot ，简称Hi Robot）。

2025年3月18日，GTC2025大会上，英伟达推出全球首个开源、可定制的通用人形推理和技能基础模型GR00T N1，同样采用双系统架构，有快速反应、快思考的“系统1“和深度推理、慢思考的“系统2“。

据[灵初智能]官方介绍，Psi R1不同于Pi，Figure AI等「动作单向决策」机制的VLA模型（仅能完成视觉-语言层面的CoT），R1模型的慢脑输入包括行动Token（Action Tokenizer），通过将Action作为VLA的核心输入端，灵初智能突破了传统具身智能系统“单向决策”的局限性，构建了全球首个支持“动作感知-环境反馈-动态决策”全闭环的VLA模型，实现机器人操作的视觉-语言-动作多模态协同的的CoAT思维链，且已首度成功验证VLA Test-Time Scaling。

Psi R1模型架构

除了Psi R1模型，灵初智能此次同步发布的，还有拥有16个主动自由度、业内唯一自带深度耦合操作算法的灵巧手PsiBot H1和双臂轮式机器人PsiBot V1。

[灵初智能]是国内具身智能大模型领域初创公司典型代表；2024年12月30日，公司发布首个基于强化学习（RL）的端到端具身模型Psi R0，突破Pick&Place，实现长程任务泛化；2025年3月，发布了升级版的具身模型Psi R0.5，进一步优化了数据训练效率，仅需两小时数据即可实现物品和场景的全面泛化。

【灵初智能】（公司全称：北京灵初智能科技有限公司）于2024年9月北京成立，致力于打造业界领先的通用灵巧操作智能体，被业界称为拥有国内“最强、科学家密度最高”具身智能创始团队的初创公司；技术路线类似刚完成4亿美元融资，投后估值约24亿美元的具身大模型初创公司【Physical Intelligence】（PI）。

创始团队（兼具产业派和学术派，新晋国内具身智能领域最强创始团队）：

（创始人兼CEO）王启斌博士：在手机（黑莓手机）、智能音箱（Sonos）、机器人领域（云迹科技、京东等）有近20年的成功操盘经验，多次实现产品从定义、开发、到上市、再到全球化0-1-N的产业闭环，是一名深谙机器人商业化落地的“老兵”；
（联合创始人）柴晓杰博士：在机器人及无人驾驶领域从业15年，擅长算法、仿真、工程、全栈技术，有L4产品落地的数据闭环经验，是量产经验丰富的研发专家；
（联合创始人）陈源培：00后，作为Stanford访问学者，师从Karen Liu和李飞飞教授，曾在全球首次实现利用强化学习在真实世界同时控制双臂、双手多技能操作；
（核心初创）温颖副教授：上海交大人工智能学院副教授，研究领域为强化学习，多智能体系统，于2020年在伦敦大学学院获得博士学位；其课题组曾推出多模态决策大模型DB1，实现了对DeepMind通才决策Gato模型的超越，并引入了与现实世界相关的百余个场景任务，为实际业务需求提供了有力工具。

公司与还北京大学成立北大-灵初智能具身灵巧操作联合实验室，由人工智能研究院杨耀东博士担任首席科学家开展横向课题合作；同时，实验室将和梁一韬博士就具身智能体长程任务规划开展课题合作。

由产品老兵带队，携手密度最高的科学家团队，灵初智能组成了7890六边形战队——团队跨越了70、80、90、00的年龄梯度，是一支有技术、懂产品、能落地的全能团队。

融资轮次：

2024年11月13日，公司宣布完成天使轮融资，本轮融资由高瓴创投（GL Ventures）和蓝驰创投（Lanchi Ventures）领投；2024年10月14日，公司完成首次工商变更，新增股东为国内知名人形机器人创企【上海智元新创技术有限公司】。

核心技术：

公司早期一直深耕基于强化学习的全栈能力，从灵巧操作入手在具身智能领域积累技术壁垒，后将扩展至通用泛化操作，其开发的分层端到端模型领先业界，包含Psi-P0规划模型（陈源培与斯坦福大学共同提出）和Psi-C0 控制模型（梁一韬博士）；以及首个基于强化学习的端到端具身模型PsiR0。

Psi - P0模型

Psi - C0模型

Psi R0模型

公司联合创始人陈源培向媒体解释，灵初智能采用强化学习的复合路线，是实现接近或者是超越人类灵巧操作的必经之路，也是攻克“不可达三角”（高泛化性、高鲁棒性和高泛化性）的关键。“

值的注意的是，[灵初智能]是国内最先吃到DeepSeek开源红利的公司，详细解读查看往期文章DeepSeek正重构人形机器人和具身大模型赛道！

未来规划：

目前，灵初智能已初步构建起一套较为完整的产品体系：在硬件维度，打造双手双臂轮式机器人，部分核心硬件系自主研发成果；在软件层面，持续迭代机器人的技能级（指通过机器人能做多少种任务、完成任务的复杂程度和完成任务的质量来划分的一种技能等级），使其具备对上千种物体进行泛化长程操作的能力，能广泛适配于柔性生产等多元场景。

小编视角：公司创始团队兼具产业派和学术派大佬，技术功底雄厚，又懂产业懂场景，还兼备强大的工程化能力以及深厚的商业化实战经验，绝对是具身智能领域一批黑马。

延伸：

小编往期文章：人形机器人发展路线之争：“大脑”优先，还是“运动”优先？有提到随着众多科技大厂入局人形机器人本体赛道，人形机器人初创公司若不具备基础大模型自研能力，结局只能是被收购或者倒闭；因此对于人形机器人初创而言，强大的AI能力将是必需项，自研是唯一出路；因此，资本层面也开始纠偏，具备强大AI能力且同时涉及本体的初创公司已成为资本市场香饽饽，而[灵初智能]就是典型代表企业之一，其他还有[它石智航]、[星海图]、[跨维智能]、[千寻智能]、[智平方]等，此类公司在取得商业化突破的同时也在2025年接连完成大额融资。

具身智能机器人是一个复杂的AI+机器人+自动驾驶的系统性学术+工程问题，小编往期文章：【原创】人形机器人商业化卡点（人形机器人创企九死一生）有从算力、软件算法、数据、硬件、工程化等多层面，详细梳理人形机器人商业化卡点；并提到，大模型的通识理解能力、多级推理能力赋予人形机器人具身智能的核心；嵌入在大模型中的庞大先验知识库&强大的通识理解能力让机器人更好理解泛化任务，且基于思维链的多级推理能力，让人形机器人实现了具身智能；因此，相较于上游机器人核心零部件基本成熟，软件算法进步将是推动人形机器人功能提升和应用场景拓展的关键。