第九章元学习新进展_元模仿学习-CSDN博客

1、TAML
元学习中，通过相关任务的分布来训练模型，这样它就可以很容易的适应新任务，且只需几个样本。前面介绍的MAML是如何通过计算元梯度和执行元优化来找到模型的最优初始参数，但是会有一个问题：模型可能会在某些任务上有偏差，特别是在元训练阶段抽样的任务上。因此，模型会在这些任务上过度执行，就会阻碍寻找更好的更新规则。为了改善这种情况，我们需要模型在某些任务上无偏或不过度执行，也就是需要使模型与任务无关，来防止任务偏差并获得更好的泛化。

TAML有两种：熵最大化，不平等最小化（基尼系数、泰尔指数、算法的方差）。

2、元模仿学习（meta imitation learning，MIL）
如果让机器人通过观察人类的行为，学习复杂的目标而无须设计复杂的目标和奖惩函数，这种从人类行为中学习，被称为模仿学习。机器人需要大量的时间和演示来学习目标并识别正确的策略。因此我们将用先前的经验作为演示（训练数据）来增强机器人，这样就不必完全从头开始每项技能。同样可以加入元学习，重用演示数据并从几个相关的任务中学习，从而快速学习新任务，从而形成元模仿学习。使用MIL，我们可以利用来自各种其他任务的演示数据，以便通过单个演示快速学习新任务。因此，我们仅通过单个任务演示就可以找到新任务的正确策略。对于MIL，可以使用任何见过的元学习算法，例如MAML，它与任何可以通过梯度下降训练的算法兼容，我们将使用策略梯度作为寻找正确策略的算法，在策略梯度中，可以直接用某个参数对参数化的策略进行优化。

目标是学习一种策略，该策略可以从新任务的单个演示快速适应该任务。由此可以消除对每个任务的大量演示数据的依赖。

3、CACTUs（聚类自动生成用于无监督模型无关元学习的任务）仙人掌算法
使用CACTUs生成任务：假设有包含未标记示例的数据集，现在需要为数据集创建标签，首先使用一些嵌入函数为数据集中的每个数据点提取特征，生成标签一种简单地方法是使用一些随机超平面将数据集D划分为P部分，然后可以将数据集的每个划分子集视为单独的类。

由于使用的是随机超平面，类可能会包含完全不同的特征向量，相关的特征向量也可能保存在不同的类中。因此可以使用聚类算法，而不是随机超平面来划分数据集，使用k-means聚类多次迭代，得到k个簇，可以将每个簇作为单独的类来处理。

然后该生成任务，假设由于聚类，有5个簇，从这5个簇中抽取n个簇作为样本，然后从n个簇中的每个簇不放回抽样r个数据点；之后抽取一个包含n个特定于任务的one-hot标签排列，用于为n个抽取的簇分配标签。

4、概念空间元学习
如何在概念空间中使用深度元学习来学习？抽取一批相关任务，在每个任务中抽取k个数据点，并对元学习器进行训练。可以将深度学习和元学习结合起来，而不是仅仅使用普通元学习技术进行训练。因此，当抽取一批相关任务，并在每个任务中抽取k个数据点时，可以使用深度神经网络学习每个任务的k个数据点的表示，我们会对这些表示进行元学习。

概念空间元学习包括概念生成器、概念鉴别器、元学习器。

概念生成器：概念生成器用于提取数据集中每个数据点的特征表示，捕捉其高层次的概念。（CNN）
概念鉴别器用于对概念生成器生成的概念进行识别和分类。（SVM、决策树）
元学习器从概念生成器生成的概念中学习。（MAML、Meta-SGD、Reptile）
我们将元学习与深度学习相结合，改进了普通的元学习。概念生成器会随着新的输入数据而进化，因此可以将此框架视为终生学习系统。
在这里插入图片描述

如上图所示：抽取一组任务，并将它们输入概念生成器。概念生成器学习概念，然后将这些概念提供给元学习器。元学习器学习这些概念并将损失发送回概念生成器。同时，我们还向概念生成器提供一些外部数据集。概念生成器学习这些输入的概念，并将其发送给概念鉴别器。概念鉴别器预测这些概念的标签计算损失，并将损失发送回概念生成器。由此增强了概念生成器泛化概念的能力。
————————————————
版权声明：本文为CSDN博主「王小波_Libo」的原创文章，遵循CC 4.0 BY-SA版权协议，转载请附上原文出处链接及本声明。
原文链接：https://blog.csdn.net/qq_38900441/article/details/108528901