具身智能训练数据集哪里找?几大开源数据集帮你汇总好了!

点击下方卡片,关注“具身智能之心”公众号


具身智能训练要求智能体通过与环境的物理交互来学习智能行为,数据集对于具身智能的训练效果有着至关重要的影响,提高训练效果的根源在于使用丰富多样的数据集,让具身智能体接触到各种不同的情况,从而学习到更广泛的技能和应对策略。然而,数据集的数据采集过程复杂且成本高昂,数据标注工作往往需要专业知识和大量的人工劳动。

大家总在吐槽具身智能训练数据集太贵,本期具身智能之心就为大家汇总了一些具身智能训练数据集,方便大家选取适合的开展研究!

内容出自国内首个具身智能全栈学习社区:具身智能之心知识星球这里包含所有你想要的。

ARIO数据集 - 机器人控制

数据集链接:https://openi.pcl.ac.cn/ARIO/ARIO_Dataset

项目链接:https://imaei.github.io/project_pages/ario/

论文链接:https://arxiv.org/pdf/2408.10899

ARIO(All Robots In One)是鹏城实验室建立的大规模统一数据集,旨在解决现有数据集在开发多功能通用实体智能体方面的不足。ARIO支持 5 种感官模态,基于时间戳对齐多模态数据,采用统一数据架构,有统一配置,增强数据多样性,涵盖多种数据来源:(1)从真实场景收集:使用 Cobot Magic 平台(双手机器人移动操作平台)、Cloud Ginger XR - 1 平台(5G 轮式人形云机器人)。(2)从模拟平台生成,包括Habitat 的对象导航任务、MuJoCo 的操作任务、SeaWave 的操作任务。(3)从开源数据集转换,基于 Open X - Embodiment 数据集、基于 RH20T 数据集、基于 ManiWAV 数据集。

ARIO 数据集可用于训练具身智能体,以提高它们在各种任务和环境中的性能和适应性。ARIO拥有多模态特性,包含 2D 和 3D 视觉数据、触觉、声音和文本形式的数据,使得开发者可以在多种任务上进行模型训练;解决了多个现有数据集之间数据结构不一致的问题,显著减少前期数据清洗和预处理的时间。

aef40743d3f11df6559b5118f95c9903.png

G1数据集 - 人形机器人操作

开源数据采集的链接:https://github.com/unitreerobotics/avp_teleoperate

开源学习算法的链接:https://github.com/unitreerobotics/unitree_IL_lerobot

开源数据集和模型的链接:https://huggingface.co/UnitreeRobotics

宇树科技公布了开源 G1 人形机器人操作数据集,用以训练人形机器人,适配多种开源方案。宇树 G1 人形机器人操作数据集具有以下特点:(1)多样化的操作能力展示:通过演示视频可以看到,G1 人形机器人能够完成拧瓶盖倒水、叠三色积木、将摄像头放入包装盒、收集物品并存储、双臂抓取红色木块并将其放入黑色长方形容器中等复杂操作,显示出高度的灵活性和实用性。(2)数据采集方式创新:使用苹果的 Vision Pro 对 G1 进行遥操作控制。(3)丰富的数据维度:数据集中的图像分辨率为 640×480,每个手臂和灵巧手的状态及动作维度为 7。目前包含拧瓶盖倒水、叠三色积木、包装摄像头、存储物品、双臂抓取和放置等五大类操作的数据集。

5a666c116175ac14dcb65d479eb91e68.png

RT-1数据集 - 机器人操作

论文链接:https://robotics-transformer.github.io/assets/rt1.pdf

开源链接:https://github.com/google-research/robotics_transformer

项目主页:https://robotics-transformer2.github.io/

RT-1 数据集是用于训练和评估机器人学习模型 RT-1 的数据集,旨在构建一个能够处理多种任务、对新任务和环境具有良好泛化能力的机器人系统。数据收集使用 13 个来自 Everyday Robots 的移动机械臂,在三个厨房环境(两个真实办公室厨房和一个训练环境)中收集数据。数据由人类提供演示,并为每个情节标注执行任务的文本描述,指令通常包含动词和描述目标对象的名词。

RT-1 能够执行超过 700 个语言指令,根据指令中的动词将其分组为不同技能,如拾取、放置、打开和关闭抽屉、取放抽屉中的物品、直立放置细长物品、推倒物品、拉餐巾和打开罐子等。涵盖多种行为和对象,通过增加 “pick” 技能的对象多样性来提升技能的泛化能力,并在实验中扩展了技能,包括一些现实的长指令任务,如在办公室厨房场景中的复杂操作。

RT-1 包含超过 130k 个机器人演示,这些演示构成了 744 个不同的任务指令,涉及多种技能和大量不同的对象。数据集中的技能和指令涵盖了多个领域,如物体操作、环境交互等,以支持机器人在不同场景下的任务执行和学习。

94d7363648271260fcfa71978d422b3b.jpeg

QT-Opt - 抓取

论文链接:https://arxiv.org/pdf/1806.10293

开源链接:https://github.com/quantumiracle/QT_Opt

QT-Opt 数据集是为训练机器人的视觉抓取策略而收集的大规模数据集,通过 7 个机器人在四个月内收集了超过 580k 次真实世界的抓取尝试,旨在让机器人学习通用的抓取技能,能够在未见过的物体上实现高成功率的抓取。

在收集数据集时,使用 7 个 KUKA LBR IIWA 机械臂,每个机械臂配备一个两指夹爪和一个位于肩部上方的 RGB 相机来收集数据。数据收集过程中,为了使模型能够学习到通用的抓取策略,使用了多样化的物体,这些物体在训练过程中定期更换,每 4 小时更换一次(在工作时间内),夜间和周末则保持不变。收集的数据包括机器人的相机观察(RGB 图像,分辨率为 472x472)、夹爪状态(开或关的二进制指示)以及夹爪相对于地面的垂直位置等信息。数据收集总共耗时约 800 机器人小时,数据量达到 4TB,足以训练出具有高成功率的抓取策略模型。

63c38f9de205c195a1247165cb0ea2e0.jpeg

BridgeData - 机器人学习与泛化

论文链接:https://arxiv.org/pdf/2308.12952

项目主页:https://rail-berkeley.github.io/bridgedata/

BridgeData V2 是一个用于大规模机器人学习研究的数据集,旨在促进机器人学习方法的发展,包含丰富的机械臂操作行为数据,以支持多种任务和环境下的技能学习与泛化研究。数据集包含 60,096 条轨迹,其中 50,365 条专家演示轨迹和 9,731 条脚本策略收集的轨迹。涵盖 13 种技能,包括基础操作如拾取和放置、推动、重新定向物体,以及更复杂的操作如开门、关门、抽屉操作、擦拭表面、折叠布料、堆叠积木、扭转旋钮、翻转开关、转动水龙头、拉链操作和使用工具清扫颗粒状介质等。这些技能适用于多种环境和物体,确保学习到的技能具有通用性。包含 24 种环境,如厨房、水槽、桌面等,以及 100 多种物体。环境和任务的多样性使数据集能够支持多种学习方法的评估和研究,有助于机器人学习在不同场景下的任务执行和技能泛化。

b64ca99656bdc2b914bf6684b39ab92a.jpeg

TACO - RL - 长时域操作

论文链接:http://tacorl.cs.uni-freiburg.de/paper/taco-rl.pdf

项目链接:http://tacorl.cs.uni-freiburg.de/

数据集链接:https://www.kaggle.com/datasets/oiermees/taco-robot

TACO - RL 使用的数据集是通过在模拟和真实环境中对机器人进行远程操作收集的,包含机器人与环境交互的状态 - 动作序列,用于训练分层策略以解决长时域机器人控制任务,支持机器人从无结构的游戏数据中学习通用技能并实现复杂任务的执行。

收集的数据为无结构的游戏数据,未针对特定任务进行标记,包含多种机器人操作行为,如推动、抓取、放置物体,操作抽屉、滑动门和与 LED 按钮交互等,具有丰富的多样性和复杂性。数据集用于训练低层级策略,通过对无结构数据进行自动编码,学习从潜在计划到动作的映射,提取一系列基本行为原语。高层级策略通过离线强化学习(RL)利用后见之明重标记技术进行训练。

76b603ba66c92ed2f493e29a50331784.jpeg

CLVR - 遥控

数据集链接:https://github.com/clvrai/clvr_jaco_play_dataset

CLVR Jaco Play Dataset 是一个专注于遥控机器人领域的数据集,共 14.87 GB,由南加州大学和 KAIST 的研究团队发布,它提供了 1,085 个遥控机器人 Jaco2的片段,并配有相应的语言注释。

ae4c9b18bf0bcf2a966898981161352a.jpeg

FurnitureBench - 长时域操作

论文链接:https://arxiv.org/pdf/2305.12821

项目链接:https://clvrai.github.io/furniture-bench/

数据集链接:https://clvrai.github.io/furniture-bench/docs/tutorials/dataset.html

FurnitureBench是一个用于测试真实机器人复杂长时域操作任务的数据集。数据集聚焦于家具组装这一复杂长时域操作任务,其任务层次结构长,涉及家具部件的选择、抓取、移动、对齐和连接等步骤,平均任务时长在 60 - 230 秒(600 - 2300 低层级步骤)。任务要求机器人具备多种复杂技能,如精确抓取(不同家具部件抓取姿态各异)、部件重定向(通过拾取放置或推动实现)、路径规划(避免碰撞已组装部件)、插入和拧紧(精确对齐并重复操作)等。

通过使用 Oculus Quest 2 控制器和键盘对机器人进行远程操作来收集数据,历时 219 小时,涵盖八个家具模型。针对不同家具模型和初始化水平(低、中、高)收集了不同数量的演示数据。每个演示的时间步长因任务长时域性质而在 300 - 3000 步左右。数据收集过程中,通过使用不同颜色温度的单光面板并改变其位置和方向,以及每集随机化前视图相机姿势来增加数据多样性。

29ae0d7d1273126b6488c3f01c9b0670.jpeg

Cable Routing - 多阶段电缆布线

论文链接:https://arxiv.org/abs/2307.08927

项目链接:https://sites.google.com/view/cablerouting/home

数据集链接:https://sites.google.com/view/cablerouting/data

该数据集是为训练机器人的电缆布线策略而收集的,用于支持分层模仿学习系统,使机器人能够学习执行多阶段电缆布线任务,应对复杂的电缆操作挑战。数据集中包含了多种电缆形状、夹取位置和方向的变化,以及不同数量夹子(一夹、两夹、三夹)的布线任务数据,有助于训练出具有泛化能力的策略。

针对单夹电缆布线任务,通过人类专家远程操作机器人在不同位置和夹取方向上执行任务来收集数据。共收集 1442 条夹取轨迹,每条轨迹时长约 3 - 5 秒,包含约 20 个时间步,每个时间步包含机器人相机图像(四个)、机器人配置状态向量和人类远程操作员的指令动作。在训练单夹布线策略和其他原语后,通过人类专家按顺序触发原语以执行完整的多阶段电缆布线任务来收集数据。在一夹、两夹或三夹的场景下,电缆初始状态为平放在桌子上的任意形状,专家输入原语,机器人执行,同时记录整个轨迹的感官信息。

bc74d419748c9b2724ee1309c2bed4d2.jpeg 2fcf8799bbeb9b08d66973a937c1c04a.png

RoboTurk - 模仿学习

论文链接:https://arxiv.org/abs/1811.02790

项目链接:https://github.com/RoboTurk-Platform/roboturk_real_dataset

数据集链接:https://roboturk.stanford.edu/dataset_real.html

ROBOTURK 数据集是通过众包平台收集的用于机器人学习任务的大规模数据集,旨在解决机器人模仿学习中数据收集困难的问题,使机器人能够从大量的人类演示中学习操作技能,应对复杂的操作任务。数据涵盖了不同用户在多种任务和操作条件下的演示,包括不同物体的操作(如 lifting 任务中的立方体、picking 任务中的各种物品、assembly 任务中的螺母等)以及不同的操作场景,有助于训练出具有泛化能力的机器人策略。

ec1ab0776c31c4382a88c318e02bbb65.png

本期推送暂且汇总十个数据集,未完待续!


“具身智能之心”公众号持续推送具身智能领域热点

  往期 · 推荐  


(1)具身多模态基础模型

边缘端大模型是怎么部署的?重点关注哪些?

NVIDIA最新!NVLM:开放级别的多模态大语言模型(视觉语言任务SOTA)

全面梳理视觉语言模型对齐方法:对比学习、自回归、注意力机制、强化学习等

BLIP家族再添成员!模型架构、训练集多维升级!

告别“木桶原理”,CLIP系列模型如何补短板再升级?

CLIP视觉感知还能怎么卷?模型架构改造与识别机制再升级

CLIP怎么“魔改”?盘点CLIP系列模型泛化能力提升方面的研究

具身智能有哪些细分研究方向?综述总结!

揭秘CNN与Transformer决策机制:设计原则是关键?

VILA:视觉推理能力如何up up?多模态预训练设计有妙招

(2)3D场景理解、分割与交互

具身智能离不开的室内导航!室内导航算法的优化框架汇总

PoliFormer: 使用Transformer扩展On-Policy强化学习,卓越的导航器

SPLANNING:实时预测碰撞风险,实现轨迹规划!

设计一个通用的框架!3D场景理解最新研究进展

大模型继续发力!SAM2Point联合SAM2,首次实现任意3D场景,任意Prompt的分割

具身万物?EmbodiedSAM:实时在线分割任意3D物体

LEO:多模态LLM能力升级,与3D世界交互更进一步!

更丝滑更逼真!模型自主发现与模式自动识别新升级助力三维场景构建与形状合成

进一步向开放识别迈进!3D场景理解与视觉语言模型的融合创新可以这样玩

(3)具身机器人与环境交互

TPAMI 2024 | OoD-Control:泛化未见环境中的鲁棒控制(一览无人机上的效果)

斯坦福大学最新!双臂机器人协同操作:更丝滑更可预测!

RoboDual:行业首款通用具身操作的双系统协同框架诞生

纽约大学最新!SeeDo:通过视觉语言模型将人类演示视频转化为机器人行动计划

CMU最新!SplatSim: 基于3DGS的RGB操作策略零样本Sim2Real迁移

伯克利最新!CrossFormer:一个模型同时控制单臂/双臂/轮式/四足等多类机器人

斯坦福大学最新!Helpful DoggyBot:四足机器人和VLM在开放世界中取回任意物体

港大最新!RoboTwin:结合现实与合成数据的双臂机器人基准

全球具身智能2024进展回顾

北大王鹤老师组 | 对具身智能的思路研究

从零搭建你的机械狗!具身智能四足机器人开源项目汇总

Robust Robot Walker:跨越微小陷阱,行动更加稳健!

你真的知道什么是具身智能吗?一文带你了解!

波士顿动力最新SOTA!ThinkGrasp:通过GPT-4o完成杂乱环境中的抓取工作

基础模型如何更好应用在具身智能中?美的集团最新研究成果揭秘!

(4)具身仿真×自动驾驶

麻省理工学院!GENSIM: 通过大型语言模型生成机器人仿真任务

EmbodiedCity:清华发布首个真实开放环境具身智能平台与测试集!

华盛顿大学 | Manipulate-Anything:操控一切! 使用VLM实现真实世界机器人自动化

东京大学最新!CoVLA:用于自动驾驶的综合视觉-语言-动作数据集

ECCV 2024 Oral | DVLO:具有双向结构对齐功能的融合网络,助力视觉/激光雷达里程计新突破

自动驾驶CornerCase变小Case,看生成式显神通

(5)权威赛事结果速递

模型与场景的交互性再升级!感知、行为预测以及运动规划在Waymo2024挑战赛中有哪些亮点

效率和精度齐飞!CVPR2024 AIS workshop亮点大盘点

2024CVPR自动驾驶挑战赛获奖作品汇总

(6)具身智能工具深度测评

具身智能机器人仿真平台都有哪些?一览主流方案

开源!openDog V3:从零设计你的四足机器人

【好物安利】代客泊车AVP怎么玩?这里有个开源项目推荐!

巨好用的工具安利!胜过WPS?MinerU 帮你扫清PDF提取

UCLA出品!用于城市空间的具身人工智能模拟平台:MetaUrban

提效十几倍还免费?开源PPT生成工具全方位测评!

假如大模型参加高考……

(7)具身智能时事速递

国内外近30家具身智能机器人公司汇总

国内高校的具身智能实验室汇总(上)

端到端、多模态、LLM如何与具身智能融合?看完这50家公司就明白了

见证历史?高通准备收购英特尔!

自动驾驶商用落地难在哪里?

万张A100“堆”出来的勇气:一个更极致的中国技术理想主义故事

具身智能加持,它们会替代人类还是帮助人类

即将截止!ECCV'24自动驾驶难例场景多模态理解与视频生成挑战赛

d5d3e4e6c37fec48046d7931f802c786.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值