本文的主要目的是,对目前博主所了解到的一些与具身智能机器人训练有关的数据集进行简单的总结和对比,以便于在选择数据集时能够做出合适的选择。
在具身智能领域,高质量、多样化的机器人数据集至关重要。一个好的机器人数据集能够帮助研究人员构建更智能、更灵活、更鲁棒的机器人系统,从而推动具身智能技术的快速发展。
本文将对5个具身智能有关的机器人数据库进行介绍和对比。重点聚焦在数据规模、机器人类型、任务类型、数据模态上,并会对其进行对比。
1.DROID: A Large-Scale In-the-Wild Robot Manipulation Dataset
2.Open X-Embodiment: Robotic Learning Datasets and RT-X Models
3.BridgeData V2: A Dataset for Robot Learning at Scale
4.RoboMIND: Benchmark on Multi-embodiment Intelligence Normative Data for Robot Manipulation
1. DROID
数据集概览:
-
DROID 数据集的发布: DROID,这是一个新的、开源的机器人操作数据集,旨在推动更强大和通用的机器人操作策略的研究。
-
解决的问题: 当前机器人操作策略的泛化能力有限,主要是因为缺乏大规模、多样化、高质量的训练数据。收集真实世界、多样化环境下的机器人操作数据非常困难,成本高昂,且存在安全和后勤挑战。现有的数据集场景和任务多样性不足。
数据规模:包含76,000个操作轨迹(约350小时),覆盖564个场景和86种任务类型。
机器人类型:标准化单臂机器人(Franka Panda机械臂+Robotiq夹持器),配备移动式支架和三台立体视觉相机。
任务类型:抓取、放置、开关等86种基础动作,强调跨场景泛化能力,如适应不同光照、物体和位置。
数据模态:多模态数据包括视觉(RGB与深度)、力觉、触觉传感器信息,以及自然语言指令标注和完整机器人状态记录。
2. Open X-Embodiment
数据集概览:
这项工作非常地有名,可以具体去了解,在项目主页有非常多的信息。
数据规模:整合全球34个实验室的60个数据集,包含超100万条轨迹,覆盖22种机器人形态和527种技能。
机器人类型:多样化平台,包括单臂(Franka、Google Robot)、双臂(AgileX)、四足机器人等。
任务类型:抓取、搬运、装配等家庭与工业任务,支持跨机器人策略迁移学习。
数据模态:标准化RLDS格式,含视觉(多视角RGB)、本体感知状态、语言指令标注,部分轨迹含深度数据。
一些具体的信息大家可以参考这篇博客:Open X-Embodiment 超大规模开源真实机器人数据集分享_open x embodiment-CSDN博客
3. BridgeData V2
数据集概览:
数据规模:60,096条轨迹,覆盖24个环境(如厨房、仓库),包含50,365条专家演示和9,731条自主生成数据。
机器人类型:低成本单臂机器人(WidowX 250),配备多视角RGB-D相机和VR遥操作设备。
任务类型:拾取、放置、推动、清扫等13种基础技能,支持目标图像和自然语言任务调节。
数据模态:多视角RGB-D图像、机器人关节状态、语言标签,兼容离线强化学习与模仿学习。
4. RoboMIND
数据集概览:
数据规模:55,000条真实演示轨迹,涵盖279个任务和61类目标,涉及4种机器人形态。
机器人类型:多平台兼容,包括单臂(Franka、UR5e)、双臂(AgileX)及人形机器人(Tien Kung)。
任务类型:认知密集型任务,如路径规划、目标识别及多步骤决策(如折叠衣物、开门)。
数据模态:多视角RGB-D图像、本体感受状态、末端执行器细节、语言任务描述。
核心贡献
1.首个统一标准的多形态机器人数据集:
- 包含4种机器人形态(单臂机器人、双臂协作机器人、人形机器人、灵巧手),覆盖107k轨迹、479个任务、96种物体。
- 数据通过人类遥操作收集,确保自然动作模式,并采用统一的数据采集平台和协议,减少噪声和偏差。
2.高质量与多样性:
- 包含多视角RGB-D数据、本体感知状态、语言任务描述,以及5k真实失败案例(标注失败原因)。
- 任务类型涵盖基础操作、协调操作、精密操作、场景理解等6大类,场景覆盖家庭、工业、厨房、办公室等5类环境。
3.数字孪生支持:
- 在Nvidia Isaac Sim中构建真实任务的虚拟环境,支持低成本数据扩展和高效评估。
4.验证与基准测试:
- 通过单任务模仿学习(如ACT、Diffusion Policy)和多任务视觉-语言-动作(VLA)大模型(如OpenVLA、RDT-1B)验证数据有效性,VLA模型在RoboMIND上表现出高成功率和强泛化能力。
RoboMIND通过统一标准、多形态支持和大规模高质量数据,为机器人学习提供了重要的基准平台。其核心价值在于促进跨形态策略泛化、支持复杂长程任务学习,并通过失败案例和数字孪生推动算法鲁棒性提升。
一些具体的信息可以通过阅读论文获取。
5. Agibot World
数据集概览:
这项工作是智元机器人开源的数据,主要的数据分布在复杂任务上。
数据规模:超100万条轨迹,覆盖家居(40%)、工业(20%)等五大场景,含3000+物品和80+技能,长程任务占比80%。
机器人类型:移动式双臂机器人(智元Genie-1),配备六自由度灵巧手、六维力传感器和8个环绕摄像头。
任务类型:复杂长程任务(如插花、熨烫)及多机协作任务(如搬运重物),兼具工业级精度与生活场景适应性。
数据模态:多模态融合数据,包括360°视觉、触觉、关节状态、语言指令,支持域随机化增强。
对比总结
数据集 | 数据规模 | 机器人类型 | 任务类型 | 数据模态特点 |
---|---|---|---|---|
DROID | 7.6万轨迹 | 单臂标准化 | 基础动作泛化 | 多传感器+语言标注 |
Open X-Embodiment | 100万+轨迹 | 多形态(22种) | 跨平台技能迁移 | 标准化格式+多视角视觉 |
BridgeData V2 | 6万轨迹 | 低成本单臂 | 基础技能与自主生成 | RGB-D+语言标签 |
RoboMIND | 5.5万轨迹 | 多平台(4种) | 认知与决策任务 | 多视角RGB-D+语言描述 |
Agibot World | 100万+轨迹 | 双臂灵巧机器人 | 复杂长程与多机协作 | 全模态融合+工业级精度 |
核心差异与适用场景
-
研究通用性:Open X-Embodiment和Agibot World因规模与多样性更适用于跨平台策略预训练;DROID和BridgeData V2适合单臂操作泛化研究;RoboMIND侧重认知任务。
-
工业适配性:Agibot World和DROID提供工业级标准化数据,而BridgeData V2侧重低成本实验室应用。
-
数据模态扩展:Agibot World和Open X-Embodiment支持全模态数据,而其他数据集更侧重基础感知。
通过上述对比,可根据具体需求选择数据集,例如开发通用策略可选Open X-Embodiment或Agibot World,而低成本实验场景适合BridgeData V2。
同时可以参考一些工作,将数据集按照权重扩大数据混合,甚至包括更多的数据集,这些操作可能会进一步提高策略性能。