全球首个!智元发布首个通用具身基座大模型GO-1

作者 | 智元机器人

点击下方卡片,关注“具身智能之心”公众号

本文只做学术分享,如有侵权,联系删文

>>点击进入→具身智能之心技术交流群

更多干货,欢迎加入国内首个具身智能全栈学习社区具身智能之心知识星球(戳我)这里包含所有你想要的。

导 言 

智元发布首个通用具身基座模型——智元启元大模型(Genie Operator-1),它开创性地提出了Vision-Language-Latent-Action (ViLLA) 架构,该架构由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作视频数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力,三者环环相扣,实现了可以利用人类视频学习,完成小样本快速泛化,降低了具身智能门槛,并成功部署到智元多款机器人本体,持续进化,将具身智能推上了一个新台阶。

研究论文:

https://agibot-world.com/blog/agibot_go1.pdf

2024年底,智元推出了 AgiBot World,包含超过100万条轨迹、涵盖217个任务、涉及五大场景的大规模高质量真机数据集。基于AgiBot World,智元今天正式发布智元通用具身基座大模型 Genie Operator-1(GO-1)。

01

 GO-1:VLA进化到ViLLA

69a8091d34070fb8cbd730d20929703c.png

为了有效利用高质量的AgiBot World数据集以及互联网大规模异构视频数据,增强策略的泛化能力,智元提出了 Vision-Language-Latent-Action (ViLLA) 这一创新性架构。GO-1作为首个通用具身基座大模型,基于ViLLA构建。与Vision-Language-Action (VLA) 架构相比,ViLLA 通过预测Latent Action Tokens(隐式动作标记),弥合图像-文本输入与机器人执行动作之间的鸿沟。在真实世界的灵巧操作和长时任务方面表现卓越,远远超过了已有的开源SOTA模型。

ViLLA架构是由VLM(多模态大模型) + MoE(混合专家)组成,其中VLM借助海量互联网图文数据获得通用场景感知和语言理解能力,MoE中的Latent Planner(隐式规划器)借助大量跨本体和人类操作数据获得通用的动作理解能力,MoE中的Action Expert(动作专家)借助百万真机数据获得精细的动作执行能力。在推理时,VLM、Latent PlannerAction Expert三者协同工作:

  1. VLM 采用InternVL-2B,接收多视角视觉图片、力觉信号、语言输入等多模态信息,进行通用的场景感知和指令理解;

  2. Latent Planner是MoE中的一组专家,基于VLM的中间层输出预测Latent Action Tokens作为CoP(Chain of Planning,规划链),进行通用的动作理解和规划;

  3. Action Expert是MoE中的另外一组专家,基于VLM的中间层输出以及Latent Action Tokens,生成最终的精细动作序列;

下面展开介绍下MoE里2个关键的组成Latent Planner和Action Expert:

9ea72ad4871a14975b3e879f7190620b.png

ac362bc4d3f32622ea52f7d149577cfb.gif

混合专家一:

Latent Planner(隐式规划器)

尽管AgiBot World 数据集已经是全球最大的机器人真机示教数据集,但这样高质量带动作标签的真机数据量仍然有限,远少于互联网规模的数据集。为此,我们采用Latent Actions(隐式动作)来建模当前帧和历史帧之间的隐式变化,然后通过Latent Planner预测这些Latent Actions,从而将异构数据源中真实世界的动作知识转移到通用操作任务中。

  • Latent Action Model(LAM,隐式动作模型)主要用于获取当前帧和历史帧之间Latent Actions的Groundtruth(真值),它由编码器和解码器组成。其中:

  • 编码器采用Spatial-temporal Transformer,并使用Causal Temporal Masks(时序因果掩码)。

  • 解码器采用Spatial Transformer,以初始帧和离散化的Latent Action Tokens作为输入。

  • Latent Action Tokens通过VQ-VAE的方式进行量化处理。

  • Latent Planner负责预测这些离散的Latent Action Tokens,它与VLM 主干网络共享相同的 Transformer 结构,但使用了两套独立的FFN(前馈神经网络)和Q/K/V/O(查询、键、值、输出)投影矩阵。Latent Planner这组专家会逐层结合 VLM 输出的中间信息,通过Cross Entropy Loss(交叉熵损失)进行监督训练。

a9f5022cdd92ec681fbd584bb8c6462d.gif

混合专家二:

Action Expert(动作专家)

为了实现 High-frequency(高频率)且 Dexterous(灵活)的操控,我们引入Action Expert,其采用Diffusion Model作为目标函数来建模低层级动作的连续分布。

  • Action Expert结构设计上与Latent Planner类似,也是与 VLM 主干网络共享相同的 Transformer 结构,但使用两套独立的FFN和Q/K/V/O投影矩阵,它通过Denoising Process(去噪过程)逐步回归动作序列。

  • Action Expert与VLM、Latent Planner分层结合,确保信息流的一致性与协同优化。

81788dfb70ccfd3f5d56b353dfe18786.gif

实验效果

bbe7c4f24dd659537f86586d3f725df1.png

通过Vision-Language-Latent-Action (ViLLA) 创新性架构,我们在五种不同复杂度任务上测试 GO-1,相比已有的最优模型,GO-1成功率大幅领先,平均成功率提高了32%(46%->78%)。其中 “Pour Water”(倒水)、“Table Bussing”(清理桌面) 和 “Restock Beverage”(补充饮料) 任务表现尤为突出。此外我们还单独验证了ViLLA 架构中Latent Planner的作用,可以看到增加Latent Planner可以提升12%的成功率(66%->78%)。

02

GO-1:具身智能的全面创新

GO-1大模型借助人类和多种机器人数据,让机器人获得了革命性的学习能力,可泛化应用到各类的环境和物品中,快速适应新任务、学习新技能。同时,它还支持部署到不同的机器人本体,高效地完成落地,并在实际的使用中持续不断地快速进化。

这一系列的特点可以归纳为4个方面:

  • 人类视频学习:GO-1大模型可以结合互联网视频和真实人类示范进行学习,增强模型对人类行为的理解,更好地为人类服务。

  • 小样本快速泛化:GO-1大模型具有强大的泛化能力,能够在极少数据甚至零样本下泛化到新场景、新任务,降低了具身模型的使用门槛,使得后训练成本非常低。

  • 一脑多形:GO-1大模型是通用机器人策略模型,能够在不同机器人形态之间迁移,快速适配到不同本体,群体升智。

  • 持续进化:GO-1大模型搭配智元一整套数据回流系统,可以从实际执行遇到的问题数据中持续进化学习,越用越聪明。

智元通用具身基座大模型GO-1的推出,标志着具身智能向通用化、开放化、智能化方向快速迈进:

  • 从单一任务到多种任务:机器人能够在不同场景中执行多种任务,而不需要针对每个新任务重新训练。

  • 从封闭环境到开放世界:机器人不再局限于实验室,而是可以适应多变的真实世界环境。

  • 从预设程序到指令泛化:机器人能够理解自然语言指令,并根据语义进行组合推理,而不再局限于预设程序。

GO-1大模型将加速具身智能的普及,机器人将从依赖特定任务的工具,向着具备通用智能的自主体发展,在商业、工业、家庭等多领域发挥更大的作用,通向更加通用全能的智能未来。

96939ad680dea0ae85ac299134a6bf32.jpeg

【具身智能之心】技术交流群

具身智能之心是国内首个面向具身智能领域的开发者社区,聚焦大模型、视觉语言导航、VLA、机械臂抓取、双足机器人、四足机器人、感知融合、强化学习、模仿学习、规控与端到端、机器人仿真、产品开发、自动标注等多个方向,目前近60+技术交流群,欢迎加入!扫码添加小助理微信邀请入群,备注:学校/公司+方向+昵称(快速入群方式)

3301da0fabae9e3d24c429d663fcfadc.jpeg

【具身智能之心】知识星球

具身智能之心知识星球是国内首个具身智能开发者社区,也是最专业最大的交流平台,近1000人。主要关注具身智能相关的数据集、开源项目、具身仿真平台、大模型、视觉语言模型、强化学习、具身智能感知定位、机器臂抓取、姿态估计、策略学习、轮式+机械臂、双足机器人、四足机器人、大模型部署、端到端、规划控制等方向。星球内部为大家汇总了近40+开源项目近60+具身智能相关数据集行业主流具身仿真平台、强化学习全栈学习路线、具身智能感知学习路线、具身智能交互学习路线、视觉语言导航学习路线、触觉感知学习路线、多模态大模型学理解学习路线、多模态大模型学生成学习路线、大模型与机器人应用、机械臂抓取位姿估计学习路线、机械臂的策略学习路线、双足与四足机器人开源方案、具身智能与大模型部署等方向,涉及当前具身所有主流方向。

扫码加入星球,享受以下专有服务:

1. 第一时间掌握具身智能相关的学术进展、工业落地应用;
2. 和行业大佬一起交流工作与求职相关的问题;
3. 优良的学习交流环境,能结识更多同行业的伙伴;
4. 具身智能相关工作岗位推荐,第一时间对接企业;
5. 行业机会挖掘,投资与项目对接;

65e330bd25d4d3badf5bb2f990b89513.png

<think>好的,用户想了解基座大模型的定义和原理,我需要根据提供的引用资料来组织答案。首先,根据引用[2],基座模型是通过分解大模型为子模型,每个处理特定任务,再结合结果。引用[1]提到大模型的参数多,而基座可能属于其中的大型或极大型。引用[3]的分类帮助说明基座模型的规模,可能属于10亿参数以上。引用[4]讲评测,但原理部分可能涉及训练和优化。需要将这些整合,用中文清晰解释定义和原理,并生成相关问题。确保使用正确的LaTeX格式,行内公式用$,独立公式用$$,比如参数数量$W$矩阵。检查引用标注是否正确,比如基座模型的定义来自引用[2],参数分类来自引用[3]。然后生成相关问题,比如基座模型的应用、与微调的关系等。注意避免使用Markdown,保持口语化但结构清晰。</think>基座大模型的定义及原理如下: ### 一、定义 基座大模型(Base Model)是一种大规模参数化的机器学习模型,其核心特征是将复杂的任务拆解为多个子任务,通过分层或分模块的方式构建模型结构。根据参数规模分类,基座大模型通常属于**极大型模型**(参数≥10亿)[^3]。例如,训练参数$W$构成的矩阵规模可达到千亿甚至万亿级别[^1]。 ### 二、原理 1. **模型分解** 基座模型通过将整体任务分解为多个子任务(如文本生成、语义理解等),每个子模块专注于特定功能,最终通过集成方法(如加权融合或注意力机制)输出结果[^2]。数学表示为: $$ P(y|x) = \sum_{i=1}^n \alpha_i P_i(y|x) $$ 其中$P_i$为子模型预测概率,$\alpha_i$为权重系数。 2. **参数规模与能力** 大参数量的优势在于: - 覆盖更广泛的数据分布(如多语言、多领域文本)[^1] - 通过海量数据训练增强泛化能力,例如模型损失函数$L(\theta)=-\mathbb{E}_{(x,y)\sim D}[\log P(y|x;\theta)]$的优化过程[^4] 3. **训练与评测** 基座模型的训练需结合分布式计算与优化算法(如AdamW),评测则通过多任务指标(如BLEU、ROUGE)指导参数调整[^4]。 ### 三、典型应用 1. 自然语言处理(对话生成、文本摘要) 2. 多模态任务(图文理解) 3. 作为下游任务的预训练基础
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值