灵巧手操作模仿学习：DexMV

最新推荐文章于 2024-12-02 00:46:34 发布

AIRV_Gao

最新推荐文章于 2024-12-02 00:46:34 发布

阅读量1.9k

点赞数 20

分类专栏：论文笔记文章标签：重定向灵巧手遥操作

本文链接：https://blog.csdn.net/gaoqing_dream163/article/details/135017632

版权

本文提出DexMV平台，通过计算机视觉和模拟系统，结合模仿学习，从人类视频中学习复杂灵巧操作。演示翻译方法将3D手部物体姿势转换为机器人演示，用于解决多指机械手的复杂任务，如重新定位、倒和放置。实验证明，这种方法提高了任务性能并能泛化到未见实例。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

DexMV: Imitation Learning for Dexterous Manipulation from Human Videos解析

摘要
1. 简介
2. 相关工作
3. Overview
4. DexMV Platform
5. 姿态估计

Manipulation from Human Videos解析)

论文链接：https://arxiv.org/abs/2108.05877
项目网址：https://yzqin.github.io/dexmv/
论文代码：https://github.com/yzqin/dexmv-sim
论文出处：2022 ECCV
论文单位：加州大学圣迭戈分校

在这里插入图片描述
图1. 我们记录了关于操作任务的人类视频(第一行)，并从视频(第二行)中执行3D手-对象姿态估计来构建演示。我们有一个配对的模拟系统，为多指机器人(第三排)提供相同的灵巧操作任务，包括：relocate, pour, 和 place inside，我们可以使用模仿学习（imitation learning） with 推断演示（inferred demonstrations） 来解决这些问题。

摘要

虽然计算机视觉在理解 手-物交互（hand-object interactions） 方面取得了重大进展，但对于机器人来说，进行复杂的灵巧操作仍然是非常具有挑战性的。
本文提出了一种新的模仿学习平台和 pipeline DexMV (Dexterous Manipulation from Videos)。
我们设计了一个平台，其中包括:
(i) 一个模拟系统，用于多手指机械手的复杂灵巧操作任务;
(ii)一个计算机视觉系统，用于记录大规模演示人手执行相同任务。
在我们的新 pipeline 中，我们从视频中提取3D手和物体的姿势，并提出了一种新的演示翻译方法，将人体运动转换为机器人演示。
然后，我们应用和比较基准多个模仿学习算法的演示。
我们表明，这些演示确实可以在很大程度上提高机器人的学习能力，并解决单独强化学习无法解决的复杂任务。

1. 简介

灵巧地操纵物体是人类与物理世界互动的主要手段。人类在各种各样的日常任务中进行着灵巧的操作。
为了理解这些任务，在计算机视觉中，在3D手-物体姿态估计（obman，posecnn）和可视性推理方面取得了重大进展。
虽然计算机视觉技术已经有了很大的进步，但要使机器人具有像人一样的灵活性仍然是非常具有挑战性的。
最近，人们在使用 强化学习(RL) 进行拟人化机器人手灵巧操作方面做了很多努力。
然而，由于多指机器人手的关节自由度高，基于非线性肌腱的驱动，需要大量的强化学习训练数据。只使用强化学习训练的机械手也会采取不自然的行为。
考虑到这些挑战，我们能否在计算机视觉技术的帮助下，利用人类与物理世界互动的经验来指导机器人?
一个很有前途的途径是从人类示范中模仿学习。
我们不是专注于小范围的数据，而是着眼于增加不同日常对象的操作任务的难度和复杂性。这需要大规模的人类演示，这很难通过VR获得，但更容易从人类视频中获得。
在本文中，我们提出了一个新的平台和一种新的模仿学习pipeline来对标复杂和可泛化的灵巧操作，即DexMV (dexterous manipulation from Videos)。
我们在仿真中引入了多指机械手(Adroit Robotic hand)在不同对象上的新任务。
我们收集真实的人手视频执行相同的任务作为示范。
通过使用真人视频代替VR，它大大降低了数据收集的成本，并允许人类执行更复杂和多样化的任务。
虽然视频演示可能不是完美模仿(例如，行为克隆)学习成功策略的最佳选择，但多样化的数据集有利于增强强化学习的训练数据，它可以从成功和不成功的试验中学习。
我们的DexMV平台包含一个配对系统:
(i) 一个计算机视觉系统，记录人类执行操作任务的视频(图1第一行);
(ii) 物理仿真系统，为多指机器人的灵巧操作提供交互环境(图1第三行)。
这两个系统都有相同的任务。
有了这个平台，我们的目标是通过一种新颖的模仿学习pipeline连接3D视觉和机器人灵巧操作。
我们的DexMV pipeline包含三个阶段。
（1）首先，我们从录制的视频中提取3D手部物体姿势(图1第二行)。与以往使用2自由度抓取器的模仿学习研究不同，我们需要人类视频来引导30自由度机械手在三维空间中移动每个手指。解析3D结构提供了关键和必要的信息。

最低0.47元/天解锁文章