元学习论文解读 | 《Meta-SGD: Learning to Learn Quickly for Few Shot Learning.》

目录

原文链接 

motivation

contribution

论文主要内容

introduction

Related Work

Meta-SGD

meta-learner

meta-training

与其他meta-learners比较

Results

 总结


原文链接 

pdf: https://arxiv.org/pdf/1707.09835.pdf

code: https://github.com/jik0730/Meta-SGD-pytorch (非官方发布)

motivation

梯度是一种有效的数据拟合方向,但在小样本情况下,梯度可能会导致过拟合,这也使得选择学习速率变得棘手,MAML中需要昂贵的超参数调优。需要的是一种方法来决定所有的学习因素(优化方向和长度),以最大化泛化能力而不是数据拟合能力的方式。另外收敛速度也十分重要。

contribution

提出Meta-SGD算法,初始化、更新方向和学习率都是通过元学习来学习的,图中\alpha既决定了方向又决定了学习率

论文主要内容

introduction

在半监督学习中,用大量未标记数据来增加标记的目标数据,以利用数据的整体分布,一定程度上缓解了数据匮乏,但需要一种泛化的有原则的小样本学习方法来表示、提取和利用先验知识。

元学习通过将学习水平从数据提升到任务,为机器学习提供了一个新的视角。考虑监督学习,一般方法从一组带标签例子学习,而元学习学习(标签)的任务,每个任务数据集分为一个标记训练集和一个标记测试集。这个基于假设——学习主体暴露在一个大范围的任务空间中,可能会找到一个适合该空间任务的学习策略。元学习算法是在一堆类似的任务上进行学习的,目的是最大化学习者对所有任务的综合泛化能力

元学习的关键是要学习的元学习者的设计。一般来说,meta learner是一种可训练的学习算法,它可以训练学习者,影响学习者的行为,或者使其自身发挥学习者的作用。目前开发的元学习包括循环模型,指标,或优化器。

Related Work

生成模型;MAMLLSTM+RNN/CNN

Meta-SGD

meta-learner

一般方法使用梯度下降从随机初始化迭代更新学习器:

  其中,\mathcal{L}_t是经验损失,\alpha是手动设置的学习率

在定义优化器时,有三个关键因素:初始化、更新方向和学习速度。通常情况下,初始化随机设置,更新方向遵循梯度或某些变量(如共轭梯度),学习率较小或随着迭代而衰减。虽然这些经验法则在大量的标签数据上很有效,但对于小样本学习来说,它们不太可靠。

在本文中,提出了一种元学习方法,它可以以端到端方式自动确定优化器的所有成分

其中,\theta\alpha均通过元训练获得。如此,\alpha既决定了方向又决定了学习率,但修正量\alpha\circ\nabla\mathcal{L}_T(\theta)仍然依赖于梯度。

meta-training

假设在相关任务空间上存在一个分布p(T),从中采样任务T,元学习者根据训练集来学习学习者。目标是训练元学习者使其在所有测试集的泛化损失最小,所以可以表示为如下的优化问题:

 

与其他meta-learners比较

  1. MAML使用原始的SGD作为元学习者,但是初始化是通过元学习来学习的。相比之下,Meta-SGD也学习了更新方向和学习率,可能具有更高的容量。
  2. Meta-LSTM依赖于LSTM来学习所有的初始化、更新方向和学习速率,就像Meta-SGD一样,但是它比Meta-SGD复杂得多。它在每一步都独立地学习学习者的每一个参数。

Results

 总结

  1. 通过端到端方式的元学习来学习优化器的所有成分,即初始化、更新方向和学习速率,从而形成一个比其他优化器类元学习器具有更高能力的元学习器。值得注意的是,在仅仅一步适应,Meta-SGD就可以有较好的效果。
  2. Future work:大规模的元学习,由于训练元学习者需要训练大量的学习者,这就比传统的学习方法需要更多的计算能力;另一个重要的问题是关于meta-learner的多功能性或泛化能力,如新问题设置或新任务域,甚至是多任务元学习。
  3. Meta-SGD的主要改进就是在内环学习率现在是一个向量了,既决定了优化方向又决定了长度,可以在Meta-SGD的内环更新规则上加一个遗忘因子试试?
  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值