国内“最强”具身智能创始团队,发布最强分层端到端VLA模型!

国内“最强”具身智能创始团队,发布最强分层端到端VLA模型!

原创 搬砖小猎 猎场备忘录
 2025年04月28日 13:05 山东

温馨提示点击下方图片,查看运营团队2025年最新原创报告(共210页)

图片

——

正文:

真正VLA模型来了!

2025年4月27日,拥有国内“最强、科学家密度最高”具身智能创始团队的初创公司【灵初智能发布了分层端到端VLA+强化学习算法模型Psi-R1,率先攻克了开放场景下的长程复杂任务挑战,开启具身智能新时代。

灵初智能
,赞1521

R1能够让机器人基于Chain of Action Thought(CoAT)框架的自主推理系统,以麻将为场景,在视频中,R1让机器人具备了翻牌、碰杠、算牌、协作等核心能力,展现了机器人在开放环境中的长程灵巧操作能力,达成了30分钟+持续CoAT超长任务时长,同时验证了三重复合交互能力(人-机交互、机-机交互、机-环境交互),体现出VLA的超强推理能力和RL超越人类上限的思考、操作能力。

图片

图片

Psi R1模型同样采取了“快慢脑”的分层架构,其中快脑S1专注操作,慢脑S2专注推理规划;2025年以来,双系统架构的VLA模型已成为具身智能领域模型主流,国内外的头部具身智能机器人公司都推出双系统架构的VLA模型。

2025年2月20日,国外知名人形机器人独角兽公司【Figure AI】推出自研通用型视觉语言动作(VLA)模型—Helix,并开创性采用双系统架构( 负责“慢思考”,处理高层语义和目标规划S2和负责“快反应”,实时执行和调整动作S1 ),开启双系统架构VLA模型先河,专为高频率、灵巧控制整个人形机器人上半身而设计。

图片

2025年2月26日,作为国外最早提出视觉语言动作(VLA)模型,拥有全球具身智能领域“最强创始团队的具身智能大模型初创公司[Physical Intelligence](简称 PI或 π )基于其公司端到端大模型π0( pi-zero)推出“分层交互式机器人”系统(全称:Hierarchical Interactive Robot ,简称Hi Robot)。

2025年3月18日,GTC2025大会上,英伟达推出全球首个开源、可定制的通用人形推理和技能基础模型GR00T N1,同样采用双系统架构,有快速反应、快思考的“系统1“和深度推理、慢思考的“系统2“。

图片

据[灵初智能]官方介绍,Psi R1不同于Pi,Figure AI等「动作单向决策」机制的VLA模型(仅能完成视觉-语言层面的CoT),R1模型的慢脑输入包括行动Token(Action Tokenizer),通过将Action作为VLA的核心输入端,灵初智能突破了传统具身智能系统“单向决策”的局限性,构建了全球首个支持“动作感知-环境反馈-动态决策”全闭环的VLA模型,实现机器人操作的视觉-语言-动作多模态协同的的CoAT思维链,已首度成功验证VLA Test-Time Scaling。

图片

Psi R1模型架构

除了Psi R1模型,灵初智能此次同步发布的,还有拥有16个主动自由度、业内唯一自带深度耦合操作算法的灵巧手PsiBot H1和双臂轮式机器人PsiBot V1。

图片

[灵初智能]是国内具身智能大模型领域初创公司典型代表;2024年12月30日,公司发布首个基于强化学习(RL)的端到端具身模型Psi R0,突破Pick&Place,实现长程任务泛化;2025年3月,发布了升级版的具身模型Psi R0.5,进一步优化了数据训练效率,仅需两小时数据即可实现物品和场景的全面泛化。

灵初智能(公司全称:北京灵初智能科技有限公司)于2024年9月北京成立,致力于打造业界领先的通用灵巧操作智能体,被业界称为拥有国内“最强、科学家密度最高”具身智能创始团队的初创公司;技术路线类似刚完成4亿美元融资,投后估值约24亿美元的具身大模型初创公司【Physical Intelligence】(PI)。

创始团队(兼具产业派和学术派,新晋国内具身智能领域最强创始团队):

  • (创始人兼CEO)王启斌博士:在手机(黑莓手机)、智能音箱(Sonos)、机器人领域(云迹科技、京东等)有近20年的成功操盘经验,多次实现产品从定义、开发、到上市、再到全球化0-1-N的产业闭环,是一名深谙机器人商业化落地的“老兵”;

  • (联合创始人)柴晓杰博士:在机器人及无人驾驶领域从业15年,擅长算法、仿真、工程、全栈技术,有L4产品落地的数据闭环经验,是量产经验丰富的研发专家;

  • (联合创始人)陈源培:00后,作为Stanford访问学者,师从Karen Liu和李飞飞教授,曾在全球首次实现利用强化学习在真实世界同时控制双臂、双手多技能操作;

  • (核心初创)温颖副教授:上海交大人工智能学院副教授,研究领域为强化学习,多智能体系统,于2020年在伦敦大学学院获得博士学位;其课题组曾推出多模态决策大模型DB1,实现了对DeepMind通才决策Gato模型的超越,并引入了与现实世界相关的百余个场景任务,为实际业务需求提供了有力工具。

公司与还北京大学成立北大-灵初智能具身灵巧操作联合实验室,由人工智能研究院杨耀东博士担任首席科学家开展横向课题合作;同时,实验室将和梁一韬博士就具身智能体长程任务规划开展课题合作。

由产品老兵带队,携手密度最高的科学家团队,灵初智能组成了7890六边形战队——团队跨越了70、80、90、00的年龄梯度,是一支有技术、懂产品、能落地的全能团队。

融资轮次:

图片

2024年11月13日,公司宣布完成天使轮融资,本轮融资由高瓴创投(GL Ventures)和蓝驰创投(Lanchi Ventures)领投;2024年10月14日,公司完成首次工商变更,新增股东为国内知名人形机器人创企【上海智元新创技术有限公司】。

核心技术

公司早期一直深耕基于强化学习的全栈能力,从灵巧操作入手在具身智能领域积累技术壁垒,后将扩展至通用泛化操作,其开发的分层端到端模型领先业界,包含Psi-P0规划模型(陈源培与斯坦福大学共同提出)和Psi-C0 控制模型(梁一韬博士);以及首个基于强化学习的端到端具身模型PsiR0。

Psi - P0模型

Psi - C0模型

Psi R0模型

图片

图片

图片

公司联合创始人陈源培向媒体解释,灵初智能采用强化学习的复合路线是实现接近或者是超越人类灵巧操作的必经之路,也是攻克“不可达三角”(高泛化性、高鲁棒性和高泛化性)的关键。

值的注意的是,[灵初智能]是国内最先吃到DeepSeek开源红利的公司,详细解读查看往期文章DeepSeek正重构人形机器人和具身大模型赛道!

未来规划

目前,灵初智能已初步构建起一套较为完整的产品体系:在硬件维度,打造双手双臂轮式机器人,部分核心硬件系自主研发成果;在软件层面,持续迭代机器人的技能级(指通过机器人能做多少种任务、完成任务的复杂程度和完成任务的质量来划分的一种技能等级),使其具备对上千种物体进行泛化长程操作的能力,能广泛适配于柔性生产等多元场景。

小编视角:公司创始团队兼具产业派和学术派大佬,技术功底雄厚,又懂产业懂场景,还兼备强大的工程化能力以及深厚的商业化实战经验,绝对是具身智能领域一批黑马。

延伸:

小编往期文章人形机器人发展路线之争:“大脑”优先,还是“运动”优先?有提到随着众多科技大厂入局人形机器人本体赛道,人形机器人初创公司若不具备基础大模型自研能力,结局只能是被收购或者倒闭;因此对于人形机器人初创而言,强大的AI能力将是必需项,自研是唯一出路;因此,资本层面也开始纠偏,具备强大AI能力且同时涉及本体的初创公司已成为资本市场香饽饽,而[灵初智能]就是典型代表企业之一,其他还有[它石智航]、[星海图]、[跨维智能]、[千寻智能]、[智平方]等,此类公司在取得商业化突破的同时也在2025年接连完成大额融资。

具身智能机器人是一个复杂的AI+机器人+自动驾驶的系统性学术+工程问题,小编往期文章【原创】人形机器人商业化卡点(人形机器人创企九死一生)算力、软件算法、数据、硬件、工程化等多层面,详细梳理人形机器人商业化卡点;并提到,大模型的通识理解能力、多级推理能力赋予人形机器人具身智能的核心;嵌入在大模型中的庞大先验知识库&强大的通识理解能力让机器人更好理解泛化任务,且基于思维链的多级推理能力,让人形机器人实现了具身智能;因此,相较于上游机器人核心零部件基本成熟,软件算法进步将是推动人形机器人功能提升和应用场景拓展的关键。

... ... ...

本文仅展示极少部分,接下来,小编将详细盘点具身智能大模型领域,全球初创公司(PI、Skild AI、Covariant、穹彻智能、若愚科技、X Square等)

### VLA模型概述 视觉-语言对齐(Vision-Language Alignment, VLA模型旨在弥合图像和其他视觉形式与文本之间的差距。这类模型能够理解并关联来自不同模态的信息,从而实现跨模态的任务处理能力[^1]。 #### 特征描述 VLA 模型通常具备多模态融合的能力,可以接受图片作为输入,并生成相应的文字说明;反之亦然——给定一段描述性的语句,能识别出匹配的场景或对象。这种双向映射机制使得机器不仅限于单一感知渠道的工作模式,而是能够在更广泛的范围内理解和表达信息[^2]。 #### 控制策略区分 需要注意,“目标-状态指导”的控制方法虽然也涉及到了视觉和语言两个方面,但由于其主要侧重于通过非言语的方式引导行为调整,因此并不完全属于典型的VLA范畴内。 ### 应用实例分析 在实际应用场景中,VLA技术已经被广泛应用于多个领域: - **智能助理**:利用VLA特性开发出来的虚拟助手可以帮助用户解释复杂的图表、照片等内容; - **无障碍辅助工具**:对于视障人士而言,基于VLA的应用程序可以通过语音播报来帮助他们获取周围环境的信息; - **教育软件**:教师可借助此类平台创建互动式的教学材料,使学生更容易掌握抽象概念。 此外,在研究项目LIBERO里展示了一种创新的做法,即直接采用预训练好的OpenVLA-SFT版本而无需额外的数据采集或是参数优化过程,大大降低了部署难度的同时保持了良好的性能表现[^3]。 ```python # 示例代码片段用于加载预训练VLA模型 from transformers import AutoModelForVision2Seq, AutoProcessor model_name = "openvlab/openvla-sft" processor = AutoProcessor.from_pretrained(model_name) model = AutoModelForVision2Seq.from_pretrained(model_name) image_path = "./example_image.jpg" text_query = "What is this picture about?" inputs = processor(image=image_path, text=text_query, return_tensors="pt") outputs = model.generate(**inputs) generated_text = processor.decode(outputs[0], skip_special_tokens=True) print(f"The generated description: {generated_text}") ```
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值