Optimization as a model for few-shot learning||论文阅读

 

元学习论文总结||小样本学习论文总结

2017-2019年计算机视觉顶会文章收录 AAAI2017-2019 CVPR2017-2019 ECCV2018 ICCV2017-2019 ICLR2017-2019 NIPS2017-2019

 


介绍:对Few-shot learning中的优化进行建模

 本文通过将SGD更新规则解释为具有可训练参数的门控递归模型,描述了一种新的元学习方法。这个想法对于迁移学习相关的研究来说是独创的。

匿名审稿人3

这项工作提出了一个基于LSTM的元学习框架,该框架可以学习到优化算法以用于训练其它的学习算法(这里是神经网络算法)。本文通篇都写得很好,并且主要材料的介绍也写得很清楚。本文的核心:绘制Robbins Monroe更新规则和LSTM更新规则之间的并行,并利用它来满足少量学习的两个主要目标这一点非常有趣。

匿名审稿人2

这篇论文通过将随机梯度下降法(SGD)的更新规则解释为具有可训练参数的门控循环模型(Gated recurrent model),从而提出了一种全新的元学习方法。这个创意对于迁移学习(Transfer learning)的研究具有重要意义。论文的结构清晰,但是在某些细节方面的描述还可以提升。3.相关工作部分(主要侧重于元学习)有点浅薄。元学习是一个相当古老的话题,即使他们没有使用LSTM,也尝试过类似的方法来解决同样的问题: - Samy Bengio博士论文(1989)就是这个;-) - 使用遗传编程进行搜索一个新的神经网络学习规则(S. Bengio,Y。Bengio,和J. Cloutier.1994) - 我说服Schmidhuber做了一些事情,确保你找到它并更新相关的工作部分。总体,我喜欢这篇论文。我相信所讨论的材料与ICLR的广大受众有关。

其他重要评价


论文:

链接:https://pan.baidu.com/s/1VCZn5P4unr29F33BTyhoEQ 
提取码:xk7l 

Optimization as a model for few-shot learning-论文使用元学习的方法训练了一个LSTM网络用于实现小样本学习


本文与《Deep Reinforcement Learning for Accelerating the Convergence Rate》

重要:《Learning to Learn by gradient descent by gradient descent类似,推荐先看第二篇


1、摘要

深度网络不能很好处理小样本的任务;通常基于梯度优化的高容量分类器需要大样本、大迭代才能实现 好的表现。本文提出一个基于LSTM的元学习模型来学习一个优化方法,用来实现小样本分类器的实现。模型能够学习分类器的参数更新规则,也能学习一个通用的初始化方法,并加快了模型的收敛。

介绍

文章面对的场景是,多类别数据只有少量标签,如何实现模型的训练。这个场景对于人是容易学习的;同时这个场景具有广泛应用前景。

有两个原因导致梯度下降法对于小样本表现不好。一是SGD的优化方法在非凸情况下表现得不好,同行需要大量迭代才有好的结果。第二是,对于不同的数据集。网络的每次训练都得随机初始化参数。虽然迁移学习通过预训练能缓解这个问题,但是由于模型任务目标的分散,迁移学习的优势也不明显。因此迫切需要一个通用的初始化方法,使得在训练不同数据集时有一个较好的开始点而不是随机初始化参数。

基于先前的研究,元学习从两个方面构建学习问题,用来从少量样本中快速获取知识。一是从每一个分开的任务中获取知识;这个过程由第二方面引导,即从所有任务中学习信息的提取

本文提出了一个基于LSTM的元学习优化器。元学习器既考虑一个任务的短期记忆,同时也考虑全部任务的长期记忆。通过获以“直接获取优化算法来提升(给定一系列更新下)泛化性能的能力”为目标,元学习被训练为在每个任务上都能(一)训练良好的分类器。另外,文章的元学习模型应该能够为(二)分类器学习任务间通用的“参数初始化方法”,这反映了不同任务之间的共有知识或共同特征。

2、任务描述

不同于常规数据集包含用于参数优化的训练集和用于评估泛化能力的测试集,元学习任务处理的数据集是包含多个常规数据集的集合。

元学习中,在训练集中训练一个元学习器,使得在测试集中得到较好的分类效果。通过验证集进行超参数的选择。测试集用于泛化能力评价。元学习的数据集包含一个个的episode(包含训练集和验证集),用于优化模型参数的训练。(使用episode训练优化器的超参数

为了使模型适用于小样本数据集,在每个训练集中应该包含测试集的少量图片,如图1.

3、模型

3.1模型描述

假设要在训练集中训练一个带参数θ的模型,采用梯度下降法优化模型。

元学习的更新和LSTM单元状态的更新相似,因此训练一个基于LSTM的元学习器来学习“训练网络过程中的更新规则”。把LSTM中的单元状态看作元学习器的参数。目的是使元学习器通过一系列更新,确定学习率和遗忘门的参数最优值。学习到的初始值能让元学习者确定最佳初始权重,帮助优化快速进行。

3.2参数共享

深层网络参数有数万个,避免参数爆炸,需要实现参数共享。本文模型的参数共享是通过以下方法实现的:通过在“梯度坐标”上共享参数。原理是:虽然每个坐标(每个时刻的梯度取值的集合)都有自己的隐藏状态值和单元格状态值,但是LSTM参数(几个门的参数W和b)在所有坐标之间都是相同的,因此可以在每个坐标使用相同的更新规则。只是在优化过程中,需要依赖每个坐标的各自历史(LSTM的特点,记住了过去的坐标变化值)。最后,可以通过输入一批梯度坐标以及每一维度的损失来实现参数共享。

由于梯度和损失的不同坐标有很大的不同,要做规范化处理。采取预处理办法调整梯度和损失的比例。

3.3模型训练

根据每一个迭代的梯度和损失等信息(使用adam来优化学习器),元学习器计算学习率和遗忘门的值,并返回更新参数的值。每次迭代都在测试集上计算损失。

基于一些假设,避免计算二阶梯度。

元学习LSTM的初始化:建议使用较小的随机权重初始化LSTM,遗忘门的偏置设置大的值为1,用于启动梯度更新流;输入门偏置设置较小值,这样输入门的值就会小,导致学习率变化也小,使得LSTM以较小的学习率开始梯度下降,有助于训练的初始稳定性。

3.4批正则化

使用批正则化,稳定并加速网络的学习过程。要避免不同数据集间的“数据泄露”,因此在元训练时,使用测试集和训练集的批统计结构,在元测试时使用训练集的批统计,在分类器测试时使用测试集的运行平均值。

正则化解决上图的问题,参考。再次建议先看参考论文

 

4、相关研究

5、结果与谈论

实验发布在:https://github.com/twitter/meta-learning-lstm 

模型的细节

使用ADAM来优化元学习器。

 与其他模型的对比:

模型可视化:

我们还可视化了元学习者学习的优化策略,如图3所示。我们可以在每个更新步骤中查看方程2中的it和ft gate值,试图了解元学习者在培训期间是如何更新学习者的。 

总结

  • 3
    点赞
  • 15
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值