论文阅读笔记——RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete

RoboBrain 论文
将任务规划、Affordance 感知(人手与物体接触的区域)、轨迹预测整合进 MLLM,实现指令->具体动作的端到端能力,结合 RoboOS 实现多机器人任务分配。

ShareRobot

  • 细粒度:与 Open X-Embodiment 不同,ShareRobot 为每个数据点都包含于各个帧相关联的详细低级规划指令;
  • 多维度:对任务规划、物体可操作性(affordances)以及末端执行器轨迹进行了标注;
  • 采用 QA 问答形式标注。(个人理解:QA 标注相比于直接低级规划指令标注让模型更关注任务到动作的映射)
  • 末端执行器
  • 丰富多样性:ShareRobot 具有 102 个场景,涵盖 12 个实施例和 107 种原子任务。这种多样性使 MLLM 能够从不同的现实世界环境中学习,从而增强复杂、多步骤规划的稳健性。
    在这里插入图片描述

RoboBrain

在这里插入图片描述采用 SigLIP 作为视觉编码器,然后通过两层 MLP 将其投影到语义空间,采用 Qwen2.5-7B-Instruct 作为 LLM。
采用 bounding box 来表示 affordance region: O i = { A i 0 , A i 1 , … … , A i N } O_i=\{A_i^0,A_i^1,……,A_i^N\} Oi={Ai0,Ai1,……,AiN} N 为 affordance region 的数量,边界框采用矩形四角标注。轨迹则是一系列 2D 坐标 { x , y } \{x,y\} {x,y}

目标是使多模态大语言模型 (MLLM) 能够理解抽象指令并明确输出目标affordance区域和潜操作轨迹,从而促进从抽象到具体的过渡。采用多阶段训练策略:第一阶段专注于通用 OneVision (OV) 训练,以开发具有强大理解和指令遵循能力的基础 MLLM。第二阶段,即机器人训练阶段,旨在增强 RoboBrain 的核心能力,使其从抽象到具体。
训练流程:

  • 阶段 1:利用 LCS558K dataset 训练 Projector,对齐视觉-语义特征;
  • 阶段 1.5:采用 4M 高质量图像-文本数据,训练整个模型,提高通用理解;
  • 阶段 2:利用 LLaVAOneVision-Data 中的 3.2M 图像数据和 1.2M 图像视频数据,提高高分辨率图像理解;
  • 阶段 3:RoboVQA800K, ScanView-318K(MMScan-224K, 3RScan-43K, ScanQA-25K, SQA3d26K 和 ShareRobot-200K 一个子集)以及阶段 1 中 1.7M 图像-文本对来缓解灾难性遗忘。
  • 阶段 4:LoRA 微调。
    跨本体机器人协作能力:云端的 RoboBrain 将任务规划分解,发给各个机器人,机器人执行过程中通过 RoboOS 实时反馈。

实验结果

在整个训练阶段,采用 Zero3 分布式训练策略,所有实验都在一个服务器集群上进行,每个服务器配备 8×A800 GPU。
在这里插入图片描述
config 配置
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值