MimicGen论文分析与资料汇总
前言
论文分析
1. Abstract
有效信息:
用途:利用 MimicGen
实现从少量人工示教数据自动生成大规模,丰富的数据集合;
实验结论:在18个任务中,利用200个人工示教数据生成超过50k的演示数据,结果证明,机器人可以通过模仿学习在生成的数据集上进行有效训练,实现长流程任务和高精度任务;
2. Introduction
MimicGen
整体介绍如下图所示:
从 introduction
可以获取这个简单又有效的方法的整体流程逻辑:
- 对少量的人类演示,并将它们划分为以物体对象为中心的片段;
- 给定一个具有不同物体姿势的新场景,它选择一个人类演示,在空间上变换每个以物体为中心的片段,将它们缝合在一起,并让机器人遵循这个新轨迹来收集新的演示。
主要贡献有:
- 这是一个通过将人类演示适应新颖的环境,从少量人类演示中生成大量多样化数据集的系统;
- 能够生成 高质量数据,通过跨场景,跨机器人,跨物体对象的模仿学习训练智能机器人;
- 方法优于收集更多人类演示的替代方案
疑问点:
- 以
Figure 1
中的demo
为例,在更换物体或者夹具后,夹具与物体的抓取关系是否可控,从演示视频中可看出,夹具再夹取不同类型的杯子时,有两种抓取方案,一种是抓单边,另一种是抓两边,但是对于把手的位置是否有考虑?
3. Problem Setup
3.1 Imitation Learning:
实现从人工示教范例中学习如何决策
模仿学习简介
3.2 Problem Statement and Assumptions:
目标:实现由包含任务 M
的少量人工示教数据集 Dsrc生成大数据集 D,需要:
1:相同的任务;(理解为任务逻辑)
2:任务变体:可改变初始位置,物体,机器人;
为实现上述目标,有几个前提假设:
- delta end effector pose action space.
- 任务由已知的以对象为中心的子任务序列组成
- 场景中的物体姿态是已知的
4. Method
MimicGen Pipeline
4.1 将源数据中的任务解析成以物体为中心的片段
对于一个特定的任务 M
,可将轨迹序列表述为:{
τ
\tau
τi }Mi=1,其中,每一个
τ
\tau
τi 对应一个子任务 Si(OSi),OSi表示物体在当前任务中的坐标位置;
ps
:对于每一个子任务,均有明确的判断指标且能自动进行判断该子任务是否成功执行;
4.2 将上述解析的片段应用到新场景中
为了生成新的轨迹,分为三个步骤进行:
4.2.1 选择参考段:
Dsrc = {( τ \tau τj1, τ \tau τj2,…, τ \tau τjM,)}Nj=1,其中N=|Dsrc|(同一个任务中,样本的数量), 对于每一个子任务 Si(OSi)的起点,从对应子任务序列中 { τ \tau τji}Nj=1选取一个 τ \tau τi作为参考段,选取的原则可以是随机选取,也可以根据物体位姿最近为准则选取;
4.2.2 转换子任务段:
将
τ
\tau
τi作为子任务Si(OSi)的末端执行序列(轨迹), TAB表示从B到A的坐标转换矩阵,于是,可通过下列几个公式实现新任务段的推导:
其中,k
表示任务段内轨迹的长度,W
表示世界坐标系,Ct 表示在 t
时刻的控制器目标姿态帧,则 TWC~t~表示在 t
时刻,控制器姿态Ct在世界坐标系 W
下的位姿。
最终要实现的目标是:
最关键的就是得出,新轨迹与新物体-源物体-源末端之间的关系:
4.2.3 执行新任务段:
MimicGen通过在每个时间步取目标位姿,将其转换为增量位姿动作,保持夹具机构的正常开合,并执行新动作来执行新段
τ
\tau
τi。
为解决因控制和运动学得到误差而导致抓取失败,在执行完片段后会检查任务成功与否,并仅保留成功的演示。研究人员将成功生成轨迹的数量与总尝试次数之间的比率称为数据生成率。
该流程只依赖于物体框架和机器人控制器框架,从而使得数据可以有不同的初始姿态分布、不同的物体、不同的机械臂/夹爪。
5 应用
- 提高源数据的表现力
- MimicGen数据可以在广泛的初始状态分布中生成性能良好的反馈
- 可以生成不同对象的数据
- 可以生成不同机器人硬件的数据
- 可应用在移动机器人场景
- MimicGen is simulator-agnostic.
- MimicGen can use demonstrations from inexperienced human operators and different teleoperation devices.
6 局限性
- 已知且固定的任务序列
- 子任务开始之前物体的位姿坐标是已知且固定的
- 每个子任务只有一个参考物体
- 简单的数据过滤方案,致使生成的数据有偏差和伪影
- 简单的插值方案,不能保证无碰撞
- 物体扩展受限,仅支持刚性且尺寸接近的同类物体
- 任务受限,在准静态任务序列上可行
- 对移动场景支持不足,下一步工作目标
- 不支持多机械臂协同
相关资料汇总
Paper:MimicGen: A Data Generation System for Scalable Robot Learning using Human Demonstrations
mimicgen.github
破局利刃!英伟达合成数据新成果:为机器人造出“训练数据永动机”
AI智能超越人类!5万个合成数据碾压人类示例,备咖啡动作超丝滑
MimicGen: massively scaling up data pipeline for robot learning!
MimicGen:合成数据助力AI模仿学习
MimicGen|从人类演示中生成大量合成机器人数据
英偉達高級研究科學家範麟熙:基於合成數據訓練AI將是未來方向
英伟达开创新纪元:机器人训练数据的“永动机”