CVPR 2025 | TASTE-Rob:面向可泛化机器人操作的超大规模人手交互视频数据集

点击下方卡片,关注“CVer”公众号

AI/CV重磅干货,第一时间送达

点击进入—>【顶会/顶刊】投稿交流群

添加微信号:CVer2233,小助手会拉你进群!

扫描下方二维码,加入CVer学术星球!可以获得最新顶会/顶刊上的论文idea和CV从入门到精通资料,及最前沿应用!发论文/搞科研/涨薪,强烈推荐!

图片

随着具身智能的不断发展,机器人操作也逐渐融入到人们的日常生活中,可辅助完成物体抓取、倒水、表面清洁和整理等任务。通过模仿学习,如今的机器人能够模仿视频演示中的动作,完成对应的任务。但要求操作环境与视频演示中的环境几乎完全相同,这限制了其在新场景中的泛化能力,比如:当被操作物体的位置或被操作物体本身发生变化时,机器人便无法准确地完成任务。

为解决机器人操作泛化能力不足的问题,近期研究将模仿学习与视频生成等生成模型结合,通过生成机器人 - 物体交互的演示视频来提升泛化能力。但是由于机器人数据难以采集,无法收集到大量的高质量数据,这类方法所提供的泛化能力仍然有限。鉴于人手操作视频数据量庞大且采集难度低,一种更具扩展性的方案是生成人手 - 物体交互的演示视频,以实现更优的泛化效果。此外,当前先进的策略模型已能够有效弥合人手与机器人操作之间的差异,通过模仿人手交互动作控制机器人执行任务,并展现出良好的应用潜力,进一步验证了该方案的可行性。然而,由于缺乏高质量的人手 - 物体交互视频及其详细任务指令,当前通用视频生成模型在生成特定任务和环境下的交互视频时,仍然面临挑战。

为攻克现有挑战,香港中文大学(深圳)的研究团队推出 TASTE-Rob—— 首个面向任务的大规模人手 - 物交互数据集,其涵盖 100,856 个匹配精准语言指令的第一视角交互视频。区别于 Ego4D,TASTE-Rob 通过固定机位,独立拍摄单次的完整交互过程,确保了环境稳定、指令与视频精准对应等特性,为模仿学习等领域提供了高质量数据。此外,该团队提出三阶段视频生成流程:先基于指令和环境图像生成初步演示视频,再借助运动扩散模型优化手部姿态序列以解决抓取姿态不稳定的问题,最后再根据优化后的姿态重新生成视频,显著提升了手物交互真实感。实验证实,该数据集与三阶段流程的结合,在视频生成质量和机器人操作准确度上均大幅超越现有生成模型。该数据集即将在项目主页公开,欢迎大家一起探索!

论文:https://arxiv.org/abs/2503.11423  

主页:https://taste-rob.github.io/

https://github.com/GAP-LAB-CUHK-SZ/TASTE-Rob

数据集属性

TASTE-Rob包含了 100,856 组视频及其对应的详细语言任务指令。为满足人手 - 物交互视频生成需求,TASTE-Rob 旨在实现以下目标:1)所有视频采用固定机位拍摄,每个视频仅记录一段与任务指令高度匹配的动作;2)覆盖多样化的环境和任务类型;3)包含各类人手 - 物交互场景下的丰富手部姿态。 

图 1展示了数据集覆盖的环境包括厨房、卧室、餐桌、办公桌等场景;以及数据采集过程中,采集者需与各类常用物品进行交互,执行拿取、放置、推挪、倾倒等操作。

图2展示了数据集中手部抓握姿态的分布,主要关注拇指、食指和中指的指间夹角与弯曲度。由于被抓取物体和执行动作类型的多样性,数据集覆盖了丰富的抓握姿态。

图1. TASTE-Rob场景及动作类型统计

图2. TASTE-Rob手部抓握姿态统计 

TASTE-Rob与现有HOI数据集的对比

表1展示了TASTE-Rob 数据集与现有的第一视角人手 - 物交互(HOI)视频数据集的对比情况,主要的区别体现在以下几点:1)相机视角及动作 - 指令匹配程度:考虑到模仿学习中的视频演示一般从固定的摄像机视角进行录制,并且仅包含一个与任务指令相匹配的单一动作,因此 TASTE-Rob 中用了同样的设置条件;2)语言指令的详细程度:为了进一步提升对语言指令的理解程度,TASTE-Rob在指令中融入了丰富多样的物体限定词,从而生成有效且准确的演示视频;3)数据量及数据质量:TASTE-Rob拥有最多的视频片段数量和1080p的视频分辨率。

表1. TASTE-Rob与现有HOI数据集的对比 

三阶段视频生成流程

当给定一张环境图像和一个任务指令描述,所生成的人手 - 物交互视频需满足:1)准确的任务理解:能正确理解要操作的物体以及操作方式;2)可行的手物交互:在整个操作过程中保持一致的手部抓握姿势。如图3的第一阶段所示,在TASTE-Rob数据集上微调的视频生成模型所生成的视频虽然能准确理解任务,但在保持一致抓握姿势方面表现一般。为了满足这两个要求,该研究团队在第二阶段从生成视频中提取手部姿态序列,并使用训练得到的运动扩散模型对其进行优化,并在第三阶段基于优化后的手部姿态序列,生成同时满足上述两个要求的高真实度人手 - 物交互视频。

图3. 三阶段视频生成流程 

TASTE-Rob能带来什么?

TASTE-Rob数据集能带来什么?

研究团队探索了TASTE-Rob对视频生成质量的帮助:对比了在TASTE-Rob数据集上微调(Coarse-TASTE-Rob)与在Ego4D数据集上微调( Ego4D-Gen)的视频生成性能,两者间唯一的区别在于所使用的训练数据集不同。如表 2和图4所示,TASTE-Rob数据集带来了更优的生成质量。

表2. 在Ego4D/TASTE-Rob上微调视频生成模型的数值结果

图4. 在Ego4D/TASTE-Rob上微调视频生成模型的可视化结果 

三阶段视频生成流程能带来什么?

研究团队从三个评估维度上探索了三阶段视频生成流程对视频生成质量的帮助:如表 3的视频生成指标和图5所示,视频生成的宏观表现上,该流程能够生成更高质量的手物交互视频。视频生成的细节表现上,表 3 中的抓握姿态一致性指标和图 5 的结果进一步验证了,该流程有效解决了抓握姿态不稳定的问题,成功帮助机器人实现更准确的操作。此外,在机器人的模仿学习效果上,如图 6和表 3中的成功率指标所示,该流程有助于策略模型更准确地完成任务,显著提升了任务成功率。

表3. 使用/不使用三阶段视频生成流程的数值结果

图5. 使用/不使用三阶段视频生成流程在真实场景测试集的可视化结果

图6. 使用/不使用三阶段视频生成流程在机器人仿真平台测试集的可视化结果

展望

我们相信TASTE-Rob将会为整个具身智能社区带来很多诸多可能性与挑战,期待与大家共同探索!

更多数据集与实验细节请参阅原论文。

何恺明在MIT授课的课件PPT下载

在CVer公众号后台回复:何恺明,即可下载本课程的所有566页课件PPT!赶紧学起来!

CVPR 2025 论文和代码下载

在CVer公众号后台回复:CVPR2025,即可下载CVPR 2025论文和代码开源的论文合集

ECCV 2024 论文和代码下载

在CVer公众号后台回复:ECCV2024,即可下载ECCV 2024论文和代码开源的论文合集

CV垂直方向和论文投稿交流群成立

扫描下方二维码,或者添加微信号:CVer2233,即可添加CVer小助手微信,便可申请加入CVer-垂直方向和论文投稿微信交流群。另外其他垂直方向已涵盖:目标检测、图像分割、目标跟踪、人脸检测&识别、OCR、姿态估计、超分辨率、SLAM、医疗影像、Re-ID、GAN、NAS、深度估计、自动驾驶、强化学习、车道线检测、模型剪枝&压缩、去噪、去雾、去雨、风格迁移、遥感图像、行为识别、视频理解、图像融合、图像检索、论文投稿&交流、PyTorch、TensorFlow和Transformer、NeRF、3DGS、Mamba等。
一定要备注:研究方向+地点+学校/公司+昵称(如Mamba、多模态学习或者论文投稿+上海+上交+卡卡),根据格式备注,可更快被通过且邀请进群

▲扫码或加微信号: CVer2233,进交流群
CVer计算机视觉(知识星球)来了!想要了解最新最快最好的CV/DL/AI论文速递、优质实战项目、AI行业前沿、从入门到精通学习教程等资料,欢迎扫描下方二维码,加入CVer计算机视觉(知识星球),已汇集上万人!

▲扫码加入星球学习

▲点击上方卡片,关注CVer公众号
整理不易,请点赞和在看
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值