One-Shot Hierarchical Imitation Learning of Compound Visuomotor Tasks

发表时间:25 Oct 2018

论文链接:https://readpaper.com/pdf-annotate/note?pdfId=4500198746683498497&noteId=2453372035670907392

作者单位:Berkeley AI Research

Motivation:我们考虑从执行任务的人类的单个视频中学习真实机器人上的多阶段基于视觉的任务的问题,同时利用子任务与其他对象的演示数据。这个问题带来了许多重大挑战。没有遥操作的视频演示对人类来说很容易提供,但不提供任何直接监督。从原始像素学习策略可以实现完全的通用性,但需要学习具有许多参数的大型函数逼近器。最后,当被视为整体技能时,复合任务可能需要不切实际的演示数据。

解决方法:为了应对这些挑战,我们提出了一种方法,该方法学习如何从视频演示中学习原始行为,以及如何动态组合这些行为,通过“观看”人类演示器来执行多阶段任务

实现方式:在本文中,我们考虑了一个学习的问题设置,通过模仿来执行多阶段任务,机器人必须映射原始图像的观察到动作,演示是通过执行整个任务的人类的原始视频提供的。

为了解决这个问题,这项工作的关键思想是利用元学习,其中机器人使用原始技能的先前数据来学习如何模仿人类执行多阶段技能。

因此,我们的目标是学习原始行为并从执行新复合任务的人类的单个视频中自动组合它们

We use domain-adaptive meta-imitation learning。我们的方法使用原始相位预测器将测试时间人类视频分解为原语,为每个原语计算一个策略序列,并依次执行每个策略,直到每个策略都被认为是完整的,再次利用相位预测器。

这项工作的主要贡献是一种基于没有注释的单个人类演示动态学习和组合策略序列的方法

我们的方法将子任务的one-shot imitation与分解复合任务演示和组合原始技能的学习机制相结合。

结构:the DAML network with 4 convolution layers with 24 5 × 5 filters, followed by 3 fully-connected layers with 200 hidden units

实验:involve pick-and-place primitives, push primitives, and reach primitives.(比较简单的任务)

模拟:我们首先在MuJoCo物理引擎中使用Sawyer机械臂在一系列模拟订单完成任务上评估我们的方法。

现实:a physical PR2 robot, PR2厨房服务:在此设置中,PR2 必须抓取一个对象,将其放入正确的碗或平台中,并将其中一个平台或碗推到机器人的左侧。

结论:我们提出了一种one-shot学习和组合策略的方法,用于基于人类执行任务的单个视频从原始像素输入中实现复合的多阶段任务。我们的方法利用来自先前原始技能的演示来学习识别原语的末尾并为原语元学习策略。 在元测试时,我们的方法通过将人类演示分解为原语、每个原语的学习策略以及在线组合策略来执行完整的复合任务来学习多阶段任务(动作原语是在训练的阶段就学习好的)。

在未来的工作中,我们希望提高我们方法的性能。为此,提高一次性模仿学习方法(我们方法的子组件)的性能并将潜在地纳入强化学习或其他形式的在线反馈将很重要(未来与强化学习结合)。

在模型无关的分层强化学习中,学习表示是一项重要的任务。学习表示是指通过提取有用的信息和特征来将观察数据转化为表示向量。这些表示向量可以用于解决强化学习问题中的决策和行动选择。 模型无关的分层强化学习是指不依赖于环境模型的强化学习方法。它通常由两个部分组成:低层控制策略和高层任务规划器。低层控制策略负责实际的行动选择和执行,而高层任务规划器则负责指导低层控制策略的决策过程。 学习表示在模型无关的分层强化学习中起到至关重要的作用。通过学习适当的表示,可以提高对观察数据的理解能力,使得模型能够捕捉到环境中的重要特征和结构。这些表示可以显著减少观察数据的维度,并提供更高层次的抽象,从而简化了决策和规划的过程。 学习表示的方法多种多样,包括基于深度学习的方法和基于特征选择的方法。基于深度学习的方法,如卷积神经网络和循环神经网络,可以通过学习多层次的特征表示来提取环境观察数据的有用信息。而基于特征选择的方法则通过选择最有信息量的特征来减少表示的维度,从而简化了模型的复杂度。 总之,学习表示在模型无关的分层强化学习中起到了至关重要的作用。通过学习适当的表示,模型可以更好地理解观察数据并进行决策和规划。不同的方法可以用来实现学习表示,包括基于深度学习的方法和基于特征选择的方法。这些方法的选择取决于具体任务和问题的需求。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Ming_Chens

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值