RFM EP04:Pi0 vs Helix vs GO-1三类VLA模型框架对比解析
2025年刚进入3月,机器人领域好不热闹,除了人形机器人跳舞、翻跟头、鲤鱼打挺等各种酷炫的Demo,具身智能公司也动作频频,Pi发布HI Robot,Figure发布Helix,Google发布Gemini Robotics,智元发布GO-1,英伟达GTC发布Groot N1。随之而来的是各种搞不清楚的概念。这些所谓的“VLA”模型到底是什么?各种VLA模型之间的区别是什么?VLA和模仿学习有什么关系?真机数据的重要性体现在哪里?
在Robot Foundation Model断更几个月后(RFM EP01:Pi和π0具身基础模型,RFM EP02:Octo,RFM EP03:清华RDT及具身大模型框架对比),终于在公众号后台粉丝的催更下,隆重推出机器人基座模型第四期。
我整理了目前几个主要VLA模型的模型结构,以及对一些概念的理解。这篇文章的成文,在我自己对几个VLA模型结构的梳理基础上,在模型结构理解和概念确认方面采访了智元启元大模型(Genie Operator-1,简称GO-1)的共一刘迟明。希望这篇文章可以成为中文互联网上最容易理解的VLA科普文章。
刘迟明目前就职于智元机器人负责基座大模型架构和研发,是AgiBot World Colosseo文章共一,主导研发GO-1基座模型。他曾就职于阿里巴巴和腾讯担任技术专家岗位,负责大规模互联网系统机器学习和深度学习技术研发;曾开发和训练千亿参数LLM,相关工作发表于顶会和头部期刊;参与过很多开源社区项目建设,贡献代码给如huggingface/transformers等头部项目。
以下为本文目录
👇1.什么是VLA
2.Pi0 VLA模型结构理解
3.Figure Helix VLA模型结构理解
4.智元GO-1 VLA模型结构理解
5.通用操作的一些想法
1. 什么是VLA
VLA 是一种整合视觉(Vision)、语言(Language) 和 动作(Action) 的多模态模型,用于推动机器人更自然地理解和执行任务。它的目标是让机器人像人一样,通过“看图 + 听指令”来“做事情”。
在传统控制系统中,视觉、语言和动作模块往往是独立处理的,而 VLA 模型尝试构建一个统一的架构,让模型从感知(图像)、理解(语言)到执行(动作)之间具备连贯性和一致性。VLA 模型通常包括以下几个部分:
第一部分:视觉编码器(Vision Encoder):输入图像、视频等视觉信号,将其编码为特征向量。通常使用 ViT(Vision Transformer)、ResNet 或更高级的图像模型。
第二部分:语言编码器(Language Encoder):输入自然语言指令,将其转换为语言嵌入(text embedding)。使用如 BERT、T5、GPT、CLIP Text Encoder 等。
第三方部分:多模态融合模块(Cross-modal Fusion):将图像和文本信息进行对齐,学习视觉和语言之间的关系。可以是 cross-attention 机制、多模态 transformer 或 CLIP-style 对比学习。
第四部分:动作生成器(Action Decoder / Policy Head):根据融合后的视觉和语言特征,生成动作指令(可以是连续控制向量,也可以是离散 token)。动作可能通