DexMV: Imitation Learning for Dexterous Manipulation from Human Videos解析
Manipulation from Human Videos解析)
论文链接:https://arxiv.org/abs/2108.05877
项目网址:https://yzqin.github.io/dexmv/
论文代码:https://github.com/yzqin/dexmv-sim
论文出处:2022 ECCV
论文单位:加州大学圣迭戈分校
图1. 我们记录了关于操作任务的人类视频(第一行),并从视频(第二行)中执行3D手-对象姿态估计来构建演示。我们有一个配对的模拟系统,为多指机器人(第三排)提供相同的灵巧操作任务,包括:relocate, pour, 和 place inside,我们可以使用模仿学习(imitation learning) with 推断演示(inferred demonstrations) 来解决这些问题。
摘要
-
虽然计算机视觉在理解 手-物交互(hand-object interactions) 方面取得了重大进展,但对于机器人来说,进行复杂的灵巧操作仍然是非常具有挑战性的。
-
本文提出了一种新的模仿学习平台和 pipeline DexMV (Dexterous Manipulation from Videos)。
-
我们设计了一个平台,其中包括:
(i) 一个模拟系统,用于多手指机械手的复杂灵巧操作任务;
(ii)一个计算机视觉系统,用于记录大规模演示人手执行相同任务。 -
在我们的新 pipeline 中,我们从视频中提取3D手和物体的姿势,并提出了一种新的演示翻译方法,将人体运动转换为机器人演示。
-
然后,我们应用和比较基准多个模仿学习算法的演示。
-
我们表明,这些演示确实可以在很大程度上提高机器人的学习能力,并解决单独强化学习无法解决的复杂任务。
1. 简介
-
灵巧地操纵物体是人类与物理世界互动的主要手段。人类在各种各样的日常任务中进行着灵巧的操作。
-
虽然计算机视觉技术已经有了很大的进步,但要使机器人具有像人一样的灵活性仍然是非常具有挑战性的。
-
最近,人们在使用 强化学习(RL) 进行拟人化机器人手灵巧操作方面做了很多努力。
-
然而,由于多指机器人手的关节自由度高,基于非线性肌腱的驱动,需要大量的强化学习训练数据。只使用强化学习训练的机械手也会采取不自然的行为。
-
考虑到这些挑战,我们能否在计算机视觉技术的帮助下,利用人类与物理世界互动的经验来指导机器人?
-
一个很有前途的途径是从人类示范中模仿学习。
-
我们不是专注于小范围的数据,而是着眼于增加不同日常对象的操作任务的难度和复杂性。这需要大规模的人类演示,这很难通过VR获得,但更容易从人类视频中获得。
-
在本文中,我们提出了一个新的平台和一种新的模仿学习pipeline来对标复杂和可泛化的灵巧操作,即DexMV (dexterous manipulation from Videos)。
-
我们在仿真中引入了多指机械手(Adroit Robotic hand)在不同对象上的新任务。
-
我们收集真实的人手视频执行相同的任务作为示范。
-
通过使用真人视频代替VR,它大大降低了数据收集的成本,并允许人类执行更复杂和多样化的任务。
-
虽然视频演示可能不是完美模仿(例如,行为克隆)学习成功策略的最佳选择,但多样化的数据集有利于增强强化学习的训练数据,它可以从成功和不成功的试验中学习。
-
我们的DexMV平台包含一个配对系统:
(i) 一个计算机视觉系统,记录人类执行操作任务的视频(图1第一行);
(ii) 物理仿真系统,为多指机器人的灵巧操作提供交互环境(图1第三行)。
这两个系统都有相同的任务。 -
有了这个平台,我们的目标是通过一种新颖的模仿学习pipeline连接3D视觉和机器人灵巧操作。
-
我们的DexMV pipeline包含三个阶段。
(1)首先,我们从录制的视频中提取3D手部物体姿势(图1第二行)。与以往使用2自由度抓取器的模仿学习研究不同,我们需要人类视频来引导30自由度机械手在三维空间中移动每个手指。解析3D结构提供了关键和必要的信息。