Learning to Learning with Gradients———论文阅读第一部分

本次关注的是learning to learning with Gradients一文,针对目前meta-learning进行了一些学习和总结,第一部分包括一到三章。

一. 介绍

当前机器学习和人类学习依然存在很大差距,特别是人类能通过少量数据就能掌握大部分知识,而机器学习往往需要大量数据进行训练,以及大量的训练周期。同时当前比较火的终身学习也似乎在强调对于机器而言往往有多个任务存在以及需要不断累积之前的知识(避免灾难性遗忘)。因此“学习去学习”或者元学习概念也就应运而生。我们希望能有一套策略让机器自主去进行学习,从而面对各类任务时能达到快速收敛、高准确率的要求。(元学习基本概念建议去看李宏毅老师机器学习课程)

二. 问题陈述

对于few-shot 学习中,我们要求只用少量数据点和训练迭代就能快速适应新任务。下面用数学形式去描述他。
本文基本数学符号
上图为本文设定的数学符号。
这里重点讲一下support set和query set。首先support set对应的是train,也就是拿来训练,query set对应的是测试。和以往不同的是,在监督学习背景下,训练集为 { X , Y } \{X,Y\} {X,Y},X为相关的图片或语音,Y为标签,而在元学习中,X对应为一个具体的task(例如:猫狗分类),这样相当于一个support set就包括多个传统机器学习的train set。 { { X 1 , Y 1 } , { X 2 , Y 2 } . . . . } \{\{X_1,Y_1\},\{X_2,Y_2\}....\} {{X1,Y1},{X2,Y2}....}

三. 定义元学习算法上的问题

1. 元学习算法表达能力

元学习算法的一个重要特性是他能代表大量的学习算法(强大的表达能力)。针对这个特性,需要证实定义一个学习过程,并且能够衡量由特定算法编码的学习过程集的大小。
以传统的方式,我们可以以一个dataset作为输入,输出一个用于预测新数据点的参数向量(也就是学出来的好参数)。但这有许多问题,首先基本的就是其必须依赖于参数,但很多元学习算法是非参数化的。其次,通常有不同的参数会导致同样的底层函数(例如Relu:小于0的全部为0)。因此我们可以考虑函数的输入输出对来更明确定义学习函数,定义如下:

定义 3.1.1: 一个可学习算法是能够通过处理数据集D从而对新的输入X产生预测Y的函数(过程)

这个定义方式很简单,和往常的监督学习要求一样。作者想要描述这种最大的表达能力,但只能通过建立简单的二元表示(但二元受到限制),因此,作者调查了以前的黑盒元学习方法的表达能力(这里写的有点模糊,不过不影响什么,简而言之就是说要想去描述这种表达能力无法做到,只能近似,然而作者也没有想到什么好方法,因此说了其他的黑盒元学习方法表达能力,之后有新的理解给大家更新)。
对于黑盒元学习方法可以分为两类。一类是Santoro等人提出来的。对于一个元学习问题,有一个带有参数 ϕ \phi ϕ的元学习模型。该模型以特定任务数据集 D J D_J DJ和一个新的测试输入 x ∗ x^* x,输出一个针对输入的估计值y。
函数表达如下
在这里插入图片描述
元学习通常是迭代数据集D和新输入的循环模型。
第二种方式是由Hochreiter等人提出的。元学习模型以特定的任务数据集和当前模型权重 θ \theta θ作为输入,输出新的学习者模型参数 ϕ \phi ϕ。然后将测试输入x输入输出预测的y。
表达式如下:

在这里插入图片描述
(这里我简单说一下我的理解,第一种很简单,就是我想要在这个数据集上学到一个好的参数,让这个参数遇到测试时能获得更好的输出。第二种则是,我训练的参数需要在网络上进行一部分迭代,得到的新参数再拿来做预测,这里主要是说的为maml的思想,也就是有一个好的初始化参数)

2. 元学习算法的一致性

一致性指的是,对于来自超出训练任务分布的数据,也能恢复合理的解决方案(这也是终身学习的环境)。针对如何去描述算法是否能达到这个效果,做出如下定义:

定义 3.2.1: 一个可学习算法f是一致性当前仅当他能满足下面这个属性
lim ⁡ ∣ D ∣ → ∞ f ( D , x i ∗ ) → y i ∗ ∀ ( x i ∗ , y i ∗ ) \lim_{|D| \to \infty} f(D,x_i^*)\to y_i^*\forall(x_i^*,y_i^*) limDf(D,xi)yi(xi,yi)

也就是说元学习在有足够的训练集情况下,面对不再次分布的任务也要能取得很好的效果

3. 元学习中的歧义处理

即便我们的元学习能够解决新出现的任务或概念,但面对新的任务依然没有很高的确定性(也就是不保证能处理新任务)。因此,希望有针对模糊的few-shot进行主动学习。有了这种能力,学习过程可以生存=成关于潜在函数的不同假设,以便更好的寻找新的数据。但常见的递归下降、线性回归均不满足。我们需要找到概率元学习算法,能够以某种方式对函数的分布进行推理。(这里大概是说,在无法保证一致性时,希望模型能够进行自动变化,模拟新的数据分布,因此用了概率)

注:今天论文暂时看到这里,明天还会继续更新哦,说法有漏洞的欢迎大家指出。

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值