RFM EP04：Pi0 vs Helix vs GO-1三类VLA模型框架对比解析

本文链接：https://blog.csdn.net/sinat_37574187/article/details/146490730

RFM EP04：Pi0 vs Helix vs GO-1三类VLA模型框架对比解析

原创渣大米石麻笔记

2025年03月24日 22:52 福建

2025年刚进入3月，机器人领域好不热闹，除了人形机器人跳舞、翻跟头、鲤鱼打挺等各种酷炫的Demo，具身智能公司也动作频频，Pi发布HI Robot，Figure发布Helix，Google发布Gemini Robotics，智元发布GO-1，英伟达GTC发布Groot N1。随之而来的是各种搞不清楚的概念。这些所谓的“VLA”模型到底是什么？各种VLA模型之间的区别是什么？VLA和模仿学习有什么关系？真机数据的重要性体现在哪里？

在Robot Foundation Model断更几个月后（RFM EP01：Pi和π0具身基础模型，RFM EP02：Octo，RFM EP03：清华RDT及具身大模型框架对比），终于在公众号后台粉丝的催更下，隆重推出机器人基座模型第四期。

我整理了目前几个主要VLA模型的模型结构，以及对一些概念的理解。这篇文章的成文，在我自己对几个VLA模型结构的梳理基础上，在模型结构理解和概念确认方面采访了智元启元大模型（Genie Operator-1，简称GO-1）的共一刘迟明。希望这篇文章可以成为中文互联网上最容易理解的VLA科普文章。

刘迟明目前就职于智元机器人负责基座大模型架构和研发，是AgiBot World Colosseo文章共一，主导研发GO-1基座模型。他曾就职于阿里巴巴和腾讯担任技术专家岗位，负责大规模互联网系统机器学习和深度学习技术研发；曾开发和训练千亿参数LLM，相关工作发表于顶会和头部期刊；参与过很多开源社区项目建设，贡献代码给如huggingface/transformers等头部项目。

以下为本文目录

👇

1.什么是VLA

2.Pi0 VLA模型结构理解

3.Figure Helix VLA模型结构理解

4.智元GO-1 VLA模型结构理解

5.通用操作的一些想法

1. 什么是VLA

VLA 是一种整合视觉（Vision）、语言（Language） 和 动作（Action） 的多模态模型，用于推动机器人更自然地理解和执行任务。它的目标是让机器人像人一样，通过“看图 + 听指令”来“做事情”。

在传统控制系统中，视觉、语言和动作模块往往是独立处理的，而 VLA 模型尝试构建一个统一的架构，让模型从感知（图像）、理解（语言）到执行（动作）之间具备连贯性和一致性。VLA 模型通常包括以下几个部分：

第一部分：视觉编码器（Vision Encoder）：输入图像、视频等视觉信号，将其编码为特征向量。通常使用 ViT（Vision Transformer）、ResNet 或更高级的图像模型。

第二部分：语言编码器（Language Encoder）：输入自然语言指令，将其转换为语言嵌入（text embedding）。使用如 BERT、T5、GPT、CLIP Text Encoder 等。