论文阅读笔记——RoboBrain: A Unified Brain Model for Robotic Manipulation from Abstract to Concrete-CSDN博客

本文链接：https://blog.csdn.net/Multiple_x/article/details/147303284

RoboBrain 论文
将任务规划、Affordance 感知（人手与物体接触的区域）、轨迹预测整合进 MLLM，实现指令->具体动作的端到端能力，结合 RoboOS 实现多机器人任务分配。

ShareRobot

细粒度：与 Open X-Embodiment 不同，ShareRobot 为每个数据点都包含于各个帧相关联的详细低级规划指令；
多维度：对任务规划、物体可操作性（affordances）以及末端执行器轨迹进行了标注；
采用 QA 问答形式标注。（个人理解：QA 标注相比于直接低级规划指令标注让模型更关注任务到动作的映射）
末端执行器
丰富多样性：ShareRobot 具有 102 个场景，涵盖 12 个实施例和 107 种原子任务。这种多样性使 MLLM 能够从不同的现实世界环境中学习，从而增强复杂、多步骤规划的稳健性。

RoboBrain

在这里插入图片描述采用 SigLIP 作为视觉编码器，然后通过两层 MLP 将其投影到语义空间，采用 Qwen2.5-7B-Instruct 作为 LLM。
采用 bounding box 来表示 affordance region： $O_i=\{A_i^0,A_i^1,……,A_i^N\}$ N 为 affordance region 的数量，边界框采用矩形四角标注。轨迹则是一系列 2D 坐标 ${x,y\}$ 。

目标是使多模态大语言模型 (MLLM) 能够理解抽象指令并明确输出目标affordance区域和潜操作轨迹，从而促进从抽象到具体的过渡。采用多阶段训练策略：第一阶段专注于通用 OneVision (OV) 训练，以开发具有强大理解和指令遵循能力的基础 MLLM。第二阶段，即机器人训练阶段，旨在增强 RoboBrain 的核心能力，使其从抽象到具体。
训练流程：

阶段 1：利用 LCS558K dataset 训练 Projector，对齐视觉-语义特征；
阶段 1.5：采用 4M 高质量图像-文本数据，训练整个模型，提高通用理解；
阶段 2：利用 LLaVAOneVision-Data 中的 3.2M 图像数据和 1.2M 图像视频数据，提高高分辨率图像理解；
阶段 3：RoboVQA800K, ScanView-318K（MMScan-224K, 3RScan-43K, ScanQA-25K, SQA3d26K 和 ShareRobot-200K 一个子集）以及阶段 1 中 1.7M 图像-文本对来缓解灾难性遗忘。
阶段 4：LoRA 微调。
跨本体机器人协作能力：云端的 RoboBrain 将任务规划分解，发给各个机器人，机器人执行过程中通过 RoboOS 实时反馈。