强化学习论文(3): One-Shot Hierarchical Imitation Learning of Compound Visuomotor Tasks

该文提出一种利用元学习解决多步骤视觉任务的方法,通过学习单一行为和组合行为来完成复杂任务。文章介绍了元动作的概念,并提出相位预测器来自动分解和组合任务,无需大量人工标注数据。
摘要由CSDN通过智能技术生成

元学习(meta learning)框架下的分层模仿学习问题,这里主要关注层级策略方法,对于机器人视觉任务的细节不做深究。
关于meta learning 这里有一个不错的快速介绍:
Meta-learning(元学习)和 3D-CNN 总结

摘要

这篇文章考虑的是机器人根据人类的演示video和其他目标子任务的示例,完成多步骤视觉任务的问题。这个问题面临着一系列挑战:首先,人类的演示video没有直接的监督信息;其次,直接从图像学习需要包含大量参数的近似网络;最后,复合任务需要大量的示例数据。
这篇文章提出方法,一方面从子任务示例中学习单一行为,一方面学习如何组合这些行为去完成多步骤任务。

引言

本文考虑的问题是:能否利用符合任务内在的组合结构,学习较长时域的任务?
关键点:利用 meta-learning,首先从子任务示例中学习单一行为(图左),然后学习如何组合这些行为去完成多步骤任务(图右)
在这里插入图片描述
为了能够在观看视频的同时调整策略,我们建立了模型能够识别当前元动作的进度(相位),元动作的相位可以直接从元动作的样例视频中学习,使用帧的索引作为label即可,无需人工标注。我们使用了域自适应的元模仿学习来学习模仿元动作。
如下图所示,我们的方法首先使用相位预测器把测试视频分解为元动作片段,然后为每一个元动作生成一系列策略,并依次执行策略直到相位预测器判断动作结束。
在这里插入图片描述
这篇论文的主要贡献是自动地动态学习和组合序列策略,通过自动分解和组合技术实现这一目标。

meta-learning 方法

meta-learning方法主要用于学习元动作。这一部分介绍一下meta-learning及相关方法。
meta-learning的基本目标是使用少量的数据来学习新任务。为达成这个目标,meta-learning首先要学习很多meta-training任务,当面临一个新的meta-test任务时,就可以高效学习。meta-learning遵循假设:meta-training和meta-test任务都是从相同的分布 p ( τ ) p(\tau) p(τ)中采样而来的,因此任务中存在公共的结构,对这些结构的学习可以得到对新任务的快速学习。因此,meta-learning对应于结构学习。

MAML

MAML致力于通过学习神经网络的参数来学习任务间的共享结构,使其面对新任务时,只需少量几步的梯度下降就可以得到对新任务的良好泛化。
θ \theta θ表示初始模型参数, L ( θ , D ) L(\theta,D) L(θ,D)表示一个监督学习器的loss,其中 D τ D_\tau Dτ表示任务 τ \tau τ的标记数据。在meta-learning的过程中,MAML采样一个任务 τ \tau τ,从 D τ D_\tau Dτ采样数据点,随机划分为 D τ t r D_\tau^{tr} Dτtr D τ v a l D_\tau^{val} Dτval。假设 D τ t r D_\tau^{tr} Dτtr中有K个数据点。MAML优化模型参数 θ \theta θ使得少数几步 D τ t r D_\tau^{tr} Dτtr上的梯度下降就可以产生 D τ v a l D_\tau^{val} Dτval上的良好表现。优化目标为:
在这里插入图片描述
在meta-test时,从 τ t e s t \tau_{test} τtest中采样K个样本,运行梯度下降:
在这里插入图片描述

DAML

DAML将MAML应用到域自适应 one-shot 模仿

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值