第九章 元学习新进展

28 篇文章 1 订阅

1、TAML
元学习中,通过相关任务的分布来训练模型,这样它就可以很容易的适应新任务,且只需几个样本。前面介绍的MAML是如何通过计算元梯度和执行元优化来找到模型的最优初始参数,但是会有一个问题:模型可能会在某些任务上有偏差,特别是在元训练阶段抽样的任务上。因此,模型会在这些任务上过度执行,就会阻碍寻找更好的更新规则。为了改善这种情况,我们需要模型在某些任务上无偏或不过度执行,也就是需要使模型与任务无关,来防止任务偏差并获得更好的泛化。

TAML有两种:熵最大化,不平等最小化(基尼系数、泰尔指数、算法的方差)。

2、元模仿学习(meta imitation learning,MIL)
如果让机器人通过观察人类的行为,学习复杂的目标而无须设计复杂的目标和奖惩函数,这种从人类行为中学习,被称为模仿学习。机器人需要大量的时间和演示来学习目标并识别正确的策略。因此我们将用先前的经验作为演示(训练数据)来增强机器人,这样就不必完全从头开始每项技能。同样可以加入元学习,重用演示数据并从几个相关的任务中学习,从而快速学习新任务,从而形成元模仿学习。使用MIL,我们可以利用来自各种其他任务的演示数据,以便通过单个演示快速学习新任务。因此,我们仅通过单个任务演示就可以找到新任务的正确策略。对于MIL,可以使用任何见过的元学习算法,例如MAML,它与任何可以通过梯度下降训练的算法兼容,我们将使用策略梯度作为寻找正确策略的算法,在策略梯度中,可以直接用某个参数对参数化的策略进行优化。

目标是学习一种策略,该策略可以从新任务的单个演示快速适应该任务。由此可以消除对每个任务的大量演示数据的依赖。

3、CACTUs(聚类自动生成用于无监督模型无关元学习的任务)仙人掌算法
使用CACTUs生成任务:假设有包含未标记示例的数据集,现在需要为数据集创建标签,首先使用一些嵌入函数为数据集中的每个数据点提取特征,生成标签一种简单地方法是使用一些随机超平面将数据集D划分为P部分,然后可以将数据集的每个划分子集视为单独的类。

由于使用的是随机超平面,类可能会包含完全不同的特征向量,相关的特征向量也可能保存在不同的类中。因此可以使用聚类算法,而不是随机超平面来划分数据集,使用k-means聚类多次迭代,得到k个簇,可以将每个簇作为单独的类来处理。

然后该生成任务,假设由于聚类,有5个簇,从这5个簇中抽取n个簇作为样本,然后从n个簇中的每个簇不放回抽样r个数据点;之后抽取一个包含n个特定于任务的one-hot标签排列,用于为n个抽取的簇分配标签。

4、概念空间元学习
如何在概念空间中使用深度元学习来学习?抽取一批相关任务,在每个任务中抽取k个数据点,并对元学习器进行训练。可以将深度学习和元学习结合起来,而不是仅仅使用普通元学习技术进行训练。因此,当抽取一批相关任务,并在每个任务中抽取k个数据点时,可以使用深度神经网络学习每个任务的k个数据点的表示,我们会对这些表示进行元学习。

概念空间元学习包括概念生成器、概念鉴别器、元学习器。

概念生成器:概念生成器用于提取数据集中每个数据点的特征表示,捕捉其高层次的概念。(CNN)
概念鉴别器用于对概念生成器生成的概念进行识别和分类。(SVM、决策树)
元学习器从概念生成器生成的概念中学习。(MAML、Meta-SGD、Reptile)
我们将元学习与深度学习相结合,改进了普通的元学习。概念生成器会随着新的输入数据而进化,因此可以将此框架视为终生学习系统。
在这里插入图片描述

如上图所示:抽取一组任务,并将它们输入概念生成器。概念生成器学习概念,然后将这些概念提供给元学习器。元学习器学习这些概念并将损失发送回概念生成器。同时,我们还向概念生成器提供一些外部数据集。概念生成器学习这些输入的概念,并将其发送给概念鉴别器。概念鉴别器预测这些概念的标签计算损失,并将损失发送回概念生成器。由此增强了概念生成器泛化概念的能力。
————————————————
版权声明:本文为CSDN博主「王小波_Libo」的原创文章,遵循CC 4.0 BY-SA版权协议,转载请附上原文出处链接及本声明。
原文链接:https://blog.csdn.net/qq_38900441/article/details/108528901

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值