MimicGen论文分析与资料汇总

前言

论文分析

1. Abstract

在这里插入图片描述
有效信息:
用途:利用 MimicGen 实现从少量人工示教数据自动生成大规模,丰富的数据集合;
实验结论:在18个任务中,利用200个人工示教数据生成超过50k的演示数据,结果证明,机器人可以通过模仿学习在生成的数据集上进行有效训练,实现长流程任务和高精度任务;

2. Introduction

MimicGen 整体介绍如下图所示:
在这里插入图片描述

introduction 可以获取这个简单又有效的方法的整体流程逻辑:

  1. 对少量的人类演示,并将它们划分为以物体对象为中心的片段;
  2. 给定一个具有不同物体姿势的新场景,它选择一个人类演示,在空间上变换每个以物体为中心的片段,将它们缝合在一起,并让机器人遵循这个新轨迹来收集新的演示。

主要贡献有:

  1. 这是一个通过将人类演示适应新颖的环境,从少量人类演示中生成大量多样化数据集的系统;
  2. 能够生成 高质量数据,通过跨场景,跨机器人,跨物体对象的模仿学习训练智能机器人;
  3. 方法优于收集更多人类演示的替代方案

疑问点:

  1. Figure 1 中的 demo 为例,在更换物体或者夹具后,夹具与物体的抓取关系是否可控,从演示视频中可看出,夹具再夹取不同类型的杯子时,有两种抓取方案,一种是抓单边,另一种是抓两边,但是对于把手的位置是否有考虑?

3. Problem Setup

3.1 Imitation Learning:

实现从人工示教范例中学习如何决策
模仿学习简介

3.2 Problem Statement and Assumptions:

目标:实现由包含任务 M 的少量人工示教数据集 Dsrc生成大数据集 D,需要:
1:相同的任务;(理解为任务逻辑)
2:任务变体:可改变初始位置,物体,机器人;
为实现上述目标,有几个前提假设:

  1. delta end effector pose action space.
  2. 任务由已知的以对象为中心的子任务序列组成
  3. 场景中的物体姿态是已知的
    在这里插入图片描述

4. Method

MimicGen Pipeline
在这里插入图片描述

4.1 将源数据中的任务解析成以物体为中心的片段

对于一个特定的任务 M,可将轨迹序列表述为:{ τ \tau τi }Mi=1,其中,每一个 τ \tau τi 对应一个子任务 Si(OSi),OSi表示物体在当前任务中的坐标位置;
ps:对于每一个子任务,均有明确的判断指标且能自动进行判断该子任务是否成功执行;

4.2 将上述解析的片段应用到新场景中

为了生成新的轨迹,分为三个步骤进行:

4.2.1 选择参考段:

Dsrc = {( τ \tau τj1, τ \tau τj2,…, τ \tau τjM,)}Nj=1,其中N=|Dsrc|(同一个任务中,样本的数量), 对于每一个子任务 Si(OSi)的起点,从对应子任务序列中 { τ \tau τji}Nj=1选取一个 τ \tau τi作为参考段,选取的原则可以是随机选取,也可以根据物体位姿最近为准则选取;

4.2.2 转换子任务段:

τ \tau τi作为子任务Si(OSi)的末端执行序列(轨迹), TAB表示从B到A的坐标转换矩阵,于是,可通过下列几个公式实现新任务段的推导:
在这里插入图片描述
其中,k表示任务段内轨迹的长度,W 表示世界坐标系,Ct 表示在 t 时刻的控制器目标姿态帧,则 TWC~t~表示在 t 时刻,控制器姿态Ct在世界坐标系 W 下的位姿。
最终要实现的目标是:
在这里插入图片描述
最关键的就是得出,新轨迹与新物体-源物体-源末端之间的关系:在这里插入图片描述

4.2.3 执行新任务段:

MimicGen通过在每个时间步取目标位姿,将其转换为增量位姿动作,保持夹具机构的正常开合,并执行新动作来执行新段 τ \tau τi
为解决因控制和运动学得到误差而导致抓取失败,在执行完片段后会检查任务成功与否,并仅保留成功的演示。研究人员将成功生成轨迹的数量与总尝试次数之间的比率称为数据生成率。
该流程只依赖于物体框架机器人控制器框架,从而使得数据可以有不同的初始姿态分布、不同的物体、不同的机械臂/夹爪。

5 应用

  1. 提高源数据的表现力
  2. MimicGen数据可以在广泛的初始状态分布中生成性能良好的反馈
  3. 可以生成不同对象的数据
  4. 可以生成不同机器人硬件的数据
  5. 可应用在移动机器人场景
  6. MimicGen is simulator-agnostic.
  7. MimicGen can use demonstrations from inexperienced human operators and different teleoperation devices.

6 局限性

  • 已知且固定的任务序列
  • 子任务开始之前物体的位姿坐标是已知且固定的
  • 每个子任务只有一个参考物体
  • 简单的数据过滤方案,致使生成的数据有偏差和伪影
  • 简单的插值方案,不能保证无碰撞
  • 物体扩展受限,仅支持刚性且尺寸接近的同类物体
  • 任务受限,在准静态任务序列上可行
  • 对移动场景支持不足,下一步工作目标
  • 不支持多机械臂协同

相关资料汇总

Paper:MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations
mimicgen.github
破局利刃!英伟达合成数据新成果:为机器人造出“训练数据永动机”
AI智能超越人类!5万个合成数据碾压人类示例,备咖啡动作超丝滑
MimicGen: massively scaling up data pipeline for robot learning!
MimicGen:合成数据助力AI模仿学习
MimicGen|从人类演示中生成大量合成机器人数据
英偉達高級研究科學家範麟熙:基於合成數據訓練AI將是未來方向
英伟达开创新纪元:机器人训练数据的“永动机”

  • 26
    点赞
  • 14
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值