深度强化元学习教程---元学习概述

41 篇文章 8 订阅
27 篇文章 1 订阅

深度强化元学习是近期深度学习技术的一个另人瞩目的新兴领域,其利用元学习,解决了深度学习需要大数据集的问题,以及强化学习收敛慢的问题。同时元学习还可以适用于环境不断改变的应用场景,具有巨大的应用前景。

元学习概述

元学习简介

提到元学习,我们通常想到Few-Shot Learning、One-Shot Learning、Zero-Shot Learning,其实这些都是K-Shot Learning的特例。假设我们研究一个图像分类问题,每个类别中有K个图像,我们就称这个问题是K-Shot Learning。如果我们研究的问题其有N个类别,每个类别中有K个图像,我们就称这个问题是N-Way K-Shot Learning。了解这一概念,有助于大家今后阅读元学习相关论文。有一类特殊情况,就是所谓的Zero-Shot Learning,大家可能会有疑问,既然都没有训练样本,怎么进行学习呢?在这里,我们虽然没有训练样本,但是我们有这些类别的元数据,我们可以根据未知样本这些元数据,来判断样本所属类别,这与深度学习技术出现之前,计算机视觉领域的人为特征以及基于这些特征的识别方法有些相似之处。
为了能够从小样本中有效学习,元学习通常采用迭代式增量训练模式。还以图像分类为例,我们要处理的问题具有2个类别,我们决定每个类别里给5个样本,即是一个2-Way 5-Shot Learning问题。假设初始时给定的数据集为 D 0 D^{0} D0。我们首先从 D 0 D^{0} D0中随机取出5个第一个类别图像,5个第二个类别图像,组成支撑数据集(又叫训练数据集) D 1 t r a i n D_{1}^{train} D1train,接着我们随机抽取3个第一个类别图像,2个第二个类别图像,组成查询数据集(又叫测试数据集) D 1 t e s t D_{1}^{test} D1test,其组成元学习第一个任务的数据集 D 1 ∈ { D 1 t r a i n , D 1 t e s t } D_{1} \in \{ D_{1}^{train}, D_{1}^{test} \} D1{D1train,D1test}。抽取完成后的数据集变为 D 1 D^{1} D1,我们接着从 D 1 D^{1} D1抽取第二个数据集 D 2 ∈ { D 2 t r a i n , D 2 t e s t } D_{2} \in \{ D_{2}^{train}, D_{2}^{test} \} D2{D2train,D2test}。依此类推,生成N个任务。
在元学习中,每个任务作为一个单位,称之为片段(episode)。在每个片段中,我们 D i t r a i n D_{i}^{train} Ditrain上进行训练,在 D i t e s t D_{i}^{test} Ditest数据集上进行检验。通过一系列片段式学习,从而完成最终的学习过程。

元学习分类

元学习有很多种分类方式,从确定最优权重到学习优化器。在这里我们将元学习分为如下三类:

  • 确定测度空间;
  • 确定初始状态;
  • 确定优化器;

确定测度空间

在这种元学习算法,我们将学习适用于当前任务的测度方法,通过度量样本间的距离,来判断样本属于哪些类别。例如我们在进行图像分类任务中,我们用同样的神经网络,从两幅图像中抽取出特征,然后计算两个图像特征的某种距离(由神经网络学习确定),然后根据距离,来判断这两幅图像是否属于同一个类别。基于测度空间元学习的主要方法有:Siamese网络、原型网络、关系网络。

确定初始状态

以图像分类为例,在传统的机器学习算法中,我们首先随机地将网络连接权值和偏置值设置为足够小的数,然后计算训练本样的代价函数,然后代价函数与连接权值和偏置值的微分,按照梯度下降算法,调整连接权值和偏置值,当代价函数值达到最小值时,也就求出了连接权值和偏置值的最优解。
在确定初始状的元学习中,我们不是随机初始化的连接权值和偏置值,我们一开始就将连接权值和偏置值设置为最优值或接近于最优值,这样我们的算法就能很快收敛,具有快速学习的能力。确定连接权值和偏置值的最优值的算法有:MAML、Reptile、Meta-SGD。

确定优化器

在传统的深度学习方法中,我们通过优化器来使代价函数的值达到最小值,从而找到连接权值和偏置值的最优解,典型的优化器包括:SGD、Ada、RMSProp、ADAM等。但是如果我们可用数据集很小,这些优化器的性能就会急剧恶化。以图像分类问题为例,为了解决这个问题,我们将用于图像分类的网络称之为基础网络,用于学习优化器的网络叫做元网络,我们使用元网络来优化基础网络。

  • 1
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值