【论文阅读ICIMIA 2020】A Comprehensive Study on Robot Learning from Demonstration

论文调研笔记【ICIMIA 2020】A Comprehensive Study on Robot Learning from Demonstration

标题 A Comprehensive Study on Robot Learning from Demonstration
会议 ICIMIA 2020
论文地址 A Comprehensive Study on Robot Learning from Demonstration

在这里插入图片描述

第一次写博客,以前组会论文阅读都是以markdown文件的形式记录,这次试试新鲜的方法,方便以后查阅。

这次调研的目的是想找到最近几年LfD的方法,期望是能找到和深度强化学习结合的方法,如果有 Imitation Learning 相关的工作当然是更好的。但是发现找的这篇文章和期望还是有偏差,文章介绍的方法很多都2013年之前的,和强化学习相关的内容比较少,但是总体上介绍了 LfD 的现状以及在工业上的应用问题,对于刚刚接触的同学来说还是非常值得一看的。

这篇文章从一下七个方面总结了之前 LfD (Learning from Demonstration)

  • problem formulation
  • modes of demonstration data acquisition
  • data processing methods
  • learning approaches
  • demonstration methods
  • suboptimal demonstrations
  • evaluation metrics

具体细节文章里都有列出,不涉及公式的运用以及推导。

最后,文章介绍了当前LfD在投入实际应用方面面临的挑战,提出了对未来的展望。

LfD 问题描述

对于 traditional programming scenario,为了实现特定任务,程序员需要对所有可能出现的情况进行编程。Robot Learning from Demonstration (RLfD) 则希望通过 end user 给予的示教轨迹来训练机器人来完成特定的任务而不用重新编写对应任务程序,同时大量的pre-programmingLfD中也是没有必要的。

LfD中通常要考虑到如下三个个设定:

  • Novice end user

  • As few demonstrations as possible

  • As short training time as possible

在基本上满足上述设定后,还需要追求可以实现More complex task 以及 better performance than human

LfD的基本流程可以概况成如下三个:

  • Demonstration data acquisition
  • Demonstration data encoding/modelling
  • Execution of the skill

通常情况下,data的基本单元是state action pair ( s , a ) (s,a) (s,a),学习的就是这些 pair 之间的联系。

Environment description
  • 机器人与环境交互 根据转移概率矩阵从当前state到下一个state

  • 环境可以是全部可观测的或部分可观测的,取决于示教数据的种类以及示教方法

  • 空间可以是连续的或离散的,连续空间的机器人,state可以用当前坐标,机器人关节角度,角速度和速度表示

Defining skill goals or objectives

学习的目标需要明确以防止给评估造成困扰,目标可以是单个整体的也可以是多个小目标组成。

Evaluation or task performance metric

一个基本是事实是,训练的效果(如完成任务的准确度)和轨迹的数量以及训练的次数正相关,如何定义完成任务完成也是重要的因素。

当前并没有标准的评判标准,由于当下的LfD任务并不复杂,所以 reasonable accomplishment of skill goal已经足够;同时,没有统一的baseline作为比较,实验的平台也大多不相同。

The correspondence issue

需要注意的是,机器人的物理结构和teacher的不一样(我理解的是对于人形机器人,通过motion capture 设备得到示教轨迹的时候会出现这些问题)。如何准确的mapping是一个挑战。

Interaction Modes

在这里插入图片描述

稍早的工作

从上世纪90年代开始,这方面的工作开始陆续出现,早期的工作包括encoding and modeling human demonstrations,很多都是基于人形机器人平台学习一些基本的动作。文章描述这个时期的工作用了overlapping这个词,可以理解为重复性工作(平台,任务,方法)比较多,这造成了lack of clarity regarding use of approaches for LfD。同时,不同的工作的 evaluation 也不同,造成了没有统一的 baseline 作为比较。

当下的主要流程

文章把 learning process 分成了两大部分,即学习三维空间的动作基元 primitive motionsLow level skills,以及多种动作基元组合而成的动作序列 High level skills

这篇文章在方法方面着重的介绍了学习Low level skills 的三种方法 :

  • Dynamic Motion Primitives (DMP)
  • Gaussian Mixture Modelling & Regression (GMM-GMR)
  • Hidden Markov Models (HMM)

之前参与的组会中,DMPHMM 都有介绍过,自己留有相应的演示文稿(有时间再整理到博客上吧),这次探索 GMM-GMR 部分

GMM-GMR

GMM已经有博主写过很好的介绍,但是目前没有发现比较详细的GMR介绍文章: 高斯混合模型(GMM)介绍以及学习笔记

关于High level skills 其中一种用的很多的方法是强化学习(终于看到它了)

文章最后介绍了如何改进学习的到的结果包括噪声处理,以及 end user 给予的示教处理

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

quintus0505

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值