强化学习论文(3): One-Shot Hierarchical Imitation Learning of Compound Visuomotor Tasks

最新推荐文章于 2022-12-18 17:24:30 发布

南阁风起

最新推荐文章于 2022-12-18 17:24:30 发布

阅读量893

点赞数

分类专栏：算法基础文章标签： meta learning imitation learning 人工智能

本文链接：https://blog.csdn.net/qq_27465499/article/details/87898297

版权

该文提出一种利用元学习解决多步骤视觉任务的方法，通过学习单一行为和组合行为来完成复杂任务。文章介绍了元动作的概念，并提出相位预测器来自动分解和组合任务，无需大量人工标注数据。

摘要由CSDN通过智能技术生成

元学习(meta learning)框架下的分层模仿学习问题，这里主要关注层级策略方法，对于机器人视觉任务的细节不做深究。
关于meta learning 这里有一个不错的快速介绍：
Meta-learning（元学习）和 3D-CNN 总结

摘要

这篇文章考虑的是机器人根据人类的演示video和其他目标子任务的示例，完成多步骤视觉任务的问题。这个问题面临着一系列挑战：首先，人类的演示video没有直接的监督信息；其次，直接从图像学习需要包含大量参数的近似网络；最后，复合任务需要大量的示例数据。
这篇文章提出方法，一方面从子任务示例中学习单一行为，一方面学习如何组合这些行为去完成多步骤任务。

引言

本文考虑的问题是：能否利用符合任务内在的组合结构，学习较长时域的任务？
关键点：利用 meta-learning，首先从子任务示例中学习单一行为（图左），然后学习如何组合这些行为去完成多步骤任务（图右）
在这里插入图片描述
为了能够在观看视频的同时调整策略，我们建立了模型能够识别当前元动作的进度（相位），元动作的相位可以直接从元动作的样例视频中学习，使用帧的索引作为label即可，无需人工标注。我们使用了域自适应的元模仿学习来学习模仿元动作。
如下图所示，我们的方法首先使用相位预测器把测试视频分解为元动作片段，然后为每一个元动作生成一系列策略，并依次执行策略直到相位预测器判断动作结束。
在这里插入图片描述
这篇论文的主要贡献是自动地动态学习和组合序列策略，通过自动分解和组合技术实现这一目标。

meta-learning 方法

meta-learning方法主要用于学习元动作。这一部分介绍一下meta-learning及相关方法。
meta-learning的基本目标是使用少量的数据来学习新任务。为达成这个目标，meta-learning首先要学习很多meta-training任务，当面临一个新的meta-test任务时，就可以高效学习。meta-learning遵循假设：meta-training和meta-test任务都是从相同的分布 $p(\tau)$ 中采样而来的，因此任务中存在公共的结构，对这些结构的学习可以得到对新任务的快速学习。因此，meta-learning对应于结构学习。

MAML

MAML致力于通过学习神经网络的参数来学习任务间的共享结构，使其面对新任务时，只需少量几步的梯度下降就可以得到对新任务的良好泛化。
用 $\theta$ 表示初始模型参数， $L(\theta,D)$ 表示一个监督学习器的loss，其中 $D_\tau$ 表示任务 $\tau$ 的标记数据。在meta-learning的过程中，MAML采样一个任务 $\tau$ ，从 $D_\tau$ 采样数据点，随机划分为 $D_\tau^{tr}$ 和 $D_\tau^{val}$ 。假设 $D_\tau^{tr}$ 中有K个数据点。MAML优化模型参数 $\theta$ 使得少数几步 $D_\tau^{tr}$ 上的梯度下降就可以产生 $D_\tau^{val}$ 上的良好表现。优化目标为：
在这里插入图片描述
在meta-test时，从 $\tau_{test}$ 中采样K个样本，运行梯度下降：