元学习论文解读 | 《Meta-SGD: Learning to Learn Quickly for Few Shot Learning.》

最新推荐文章于 2024-07-30 09:45:58 发布

RitaRao

最新推荐文章于 2024-07-30 09:45:58 发布

阅读量1k

点赞数 2

分类专栏：基于优化的元学习小样本学习文章标签：分类机器学习计算机视觉人工智能迁移学习

本文链接：https://blog.csdn.net/RitaRao/article/details/120024516

版权

小样本学习同时被 2 个专栏收录

12 篇文章 5 订阅

订阅专栏

基于优化的元学习

4 篇文章 1 订阅

订阅专栏

原文链接

pdf: https://arxiv.org/pdf/1707.09835.pdf

code: https://github.com/jik0730/Meta-SGD-pytorch (非官方发布)

motivation

梯度是一种有效的数据拟合方向，但在小样本情况下，梯度可能会导致过拟合，这也使得选择学习速率变得棘手，MAML中需要昂贵的超参数调优。需要的是一种方法来决定所有的学习因素（优化方向和长度），以最大化泛化能力而不是数据拟合能力的方式。另外收敛速度也十分重要。

contribution

提出Meta-SGD算法，初始化、更新方向和学习率都是通过元学习来学习的，图中 $\alpha$ 既决定了方向又决定了学习率。

论文主要内容

introduction

在半监督学习中，用大量未标记数据来增加标记的目标数据，以利用数据的整体分布，一定程度上缓解了数据匮乏，但需要一种泛化的有原则的小样本学习方法来表示、提取和利用先验知识。

元学习通过将学习水平从数据提升到任务，为机器学习提供了一个新的视角。考虑监督学习，一般方法从一组带标签例子学习,而元学习学习(标签)的任务,每个任务数据集分为一个标记训练集和一个标记测试集。这个基于假设——学习主体暴露在一个大范围的任务空间中，可能会找到一个适合该空间任务的学习策略。元学习算法是在一堆类似的任务上进行学习的，目的是最大化学习者对所有任务的综合泛化能力。

元学习的关键是要学习的元学习者的设计。一般来说，meta learner是一种可训练的学习算法，它可以训练学习者，影响学习者的行为，或者使其自身发挥学习者的作用。目前开发的元学习包括循环模型，指标，或优化器。

生成模型；MAML；LSTM+RNN/CNN

Meta-SGD

meta-learner

一般方法使用梯度下降从随机初始化迭代更新学习器:

其中， $\mathcal{L}_t$ 是经验损失， $\alpha$ 是手动设置的学习率

在定义优化器时，有三个关键因素:初始化、更新方向和学习速度。通常情况下，初始化随机设置，更新方向遵循梯度或某些变量(如共轭梯度)，学习率较小或随着迭代而衰减。虽然这些经验法则在大量的标签数据上很有效，但对于小样本学习来说，它们不太可靠。

在本文中，提出了一种元学习方法，它可以以端到端方式自动确定优化器的所有成分：

其中， $\theta$ 和 $\alpha$ 均通过元训练获得。如此， $\alpha$ 既决定了方向又决定了学习率，但修正量 $\alpha\circ\nabla\mathcal{L}_T(\theta)$ 仍然依赖于梯度。

meta-training

假设在相关任务空间上存在一个分布p(T)，从中采样任务T，元学习者根据训练集来学习学习者。目标是训练元学习者使其在所有测试集的泛化损失最小,所以可以表示为如下的优化问题:

与其他meta-learners比较

MAML使用原始的SGD作为元学习者，但是初始化是通过元学习来学习的。相比之下，Meta-SGD也学习了更新方向和学习率，可能具有更高的容量。
Meta-LSTM依赖于LSTM来学习所有的初始化、更新方向和学习速率，就像Meta-SGD一样，但是它比Meta-SGD复杂得多。它在每一步都独立地学习学习者的每一个参数。

Results

总结

通过端到端方式的元学习来学习优化器的所有成分，即初始化、更新方向和学习速率，从而形成一个比其他优化器类元学习器具有更高能力的元学习器。值得注意的是，在仅仅一步适应，Meta-SGD就可以有较好的效果。
Future work：大规模的元学习，由于训练元学习者需要训练大量的学习者，这就比传统的学习方法需要更多的计算能力；另一个重要的问题是关于meta-learner的多功能性或泛化能力，如新问题设置或新任务域，甚至是多任务元学习。
Meta-SGD的主要改进就是在内环学习率现在是一个向量了，既决定了优化方向又决定了长度，可以在Meta-SGD的内环更新规则上加一个遗忘因子试试？

RitaRao

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
元学习论文解读 | 《Meta-SGD: Learning to Learn Quickly for Few Shot Learning.》

motivation梯度是一种有效的数据拟合方向，但在小样本情况下，梯度可能会导致过拟合，这也使得选择学习速率变得棘手，MAML中需要昂贵的超参数调优。需要的是一种方法来决定所有的学习因素（优化方向和长度），以最大化泛化能力而不是数据拟合能力的方式。另外收敛速度也十分重要。contribution提出Meta-SGD算法，初始化、更新方向和学习率都是通过元学习来学习的，图中既决定了方向又决定了学习率。论文主要内容introduction在半监督学习中，用大量未标记数据来增加标记的
复制链接

扫一扫