RFM EP04:Pi0 vs Helix vs GO-1三类VLA模型框架对比解析

RFM EP04:Pi0 vs Helix vs GO-1三类VLA模型框架对比解析

原创 渣大米 石麻笔记
 2025年03月24日 22:52 福建

2025年刚进入3月,机器人领域好不热闹,除了人形机器人跳舞、翻跟头、鲤鱼打挺等各种酷炫的Demo,具身智能公司也动作频频,Pi发布HI Robot,Figure发布Helix,Google发布Gemini Robotics,智元发布GO-1,英伟达GTC发布Groot N1。随之而来的是各种搞不清楚的概念这些所谓的“VLA”模型到底是什么?各种VLA模型之间的区别是什么?VLA和模仿学习有什么关系?真机数据的重要性体现在哪里?

在Robot Foundation Model断更几个月后(RFM EP01:Pi和π0具身基础模型RFM EP02:OctoRFM EP03:清华RDT及具身大模型框架对比),终于在公众号后台粉丝的催更下,隆重推出机器人基座模型第四期。

我整理了目前几个主要VLA模型的模型结构,以及对一些概念的理解。这篇文章的成文,在我自己对几个VLA模型结构的梳理基础上,在模型结构理解和概念确认方面采访了智元启元大模型(Genie Operator-1,简称GO-1)的共一刘迟明。希望这篇文章可以成为中文互联网上最容易理解的VLA科普文章。

刘迟明目前就职于智元机器人负责基座大模型架构和研发,是AgiBot World Colosseo文章共一,主导研发GO-1基座模型。他曾就职于阿里巴巴和腾讯担任技术专家岗位,负责大规模互联网系统机器学习和深度学习技术研发;曾开发和训练千亿参数LLM,相关工作发表于顶会和头部期刊;参与过很多开源社区项目建设,贡献代码给如huggingface/transformers等头部项目。

以下为本文目录

👇

1.什么是VLA

2.Pi0 VLA模型结构理解

3.Figure Helix VLA模型结构理解

4.智元GO-1 VLA模型结构理解

5.通用操作的一些想法

 

1. 什么是VLA

VLA 是一种整合视觉(Vision)语言(Language) 和 动作(Action) 的多模态模型,用于推动机器人更自然地理解和执行任务。它的目标是让机器人像人一样,通过“看图 + 听指令”来“做事情”

在传统控制系统中,视觉、语言和动作模块往往是独立处理的,而 VLA 模型尝试构建一个统一的架构,让模型从感知(图像)、理解(语言)到执行(动作)之间具备连贯性和一致性。VLA 模型通常包括以下几个部分:

第一部分:视觉编码器(Vision Encoder):输入图像、视频等视觉信号,将其编码为特征向量。通常使用 ViT(Vision Transformer)、ResNet 或更高级的图像模型。

第二部分:语言编码器(Language Encoder):输入自然语言指令,将其转换为语言嵌入(text embedding)。使用如 BERT、T5、GPT、CLIP Text Encoder 等。

第三方部分:多模态融合模块(Cross-modal Fusion):将图像和文本信息进行对齐,学习视觉和语言之间的关系。可以是 cross-attention 机制、多模态 transformer 或 CLIP-style 对比学习。

第四部分:动作生成器(Action Decoder / Policy Head):根据融合后的视觉和语言特征,生成动作指令(可以是连续控制向量,也可以是离散 token)。动作可能通

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

强化学习曾小健

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值