小样本学习|元学习ICLR2017《Optimization as A Model for Few-shot Learning》

在这里插入图片描述

《Optimization as A Model for Few-shot Learning》

网络名称:Meta-Learner LSTM
文章来源:ICLR2017
在这里插入图片描述

1. 思想

  问题:小样本数量少,梯度下降算法是针对大量样本迭代才能收敛到较好的结果。

  目标: 针对最终的训练集X和测试集Y
  1.给出一个好的神经网络的参数初始化。
  2.利用LSTM对神经网络的参数进行更新。

  注意有2个网络:神经网络(Learner),用来逼近输入样本X输出Y的函数;神经元网络LSTM(Meta-learner),用来替换梯度下降算法更新神经网络的参数。

在这里插入图片描述

LSTM长短期记忆网络:
在这里插入图片描述
  用上一步 ct-1 和这一步的 ct(加~ ) 来更新 ct 。其中 ft 为忘记门, it 为输入门,是两个权重参数。

在这里插入图片描述

利用LSTM作神经网络参数的更新:

  想利用LSTM进行神经网络参数更新,来近似梯度下降的更新:
在这里插入图片描述

则须令:
在这里插入图片描述
在这里插入图片描述

  然后LSTM中就剩两个权重参数了。it 就是学习率参数,而 ft 在梯度下降中本身应该等于1的,这里我们设置它是变动的权重参数,可以让网络跳出局部最优解。这两个变动的参数的表示:

在这里插入图片描述
在这里插入图片描述
  这样我们将LSTM做成了一个神经元网络学习器,参数 Wf、bf、WI、bI是需要训练的神经元网络参数,记为 Θ 。
在这里插入图片描述

小总结:

   LSTM的过程就是输入神经网络的参数(θ),输出更新的神经网络参数,过程相当于参数 θ 的梯度下降。(实际的输入还包括损失函数及其梯度等。)

  注意区分神经网络参数(Learner,θ)和神经元网络参数(Meta-learner, Θ),神经网络是用来逼近输入样本X输出Y的函数,神经元网络LSTM是用来更新梯度的。
在这里插入图片描述

2. 过程

在这里插入图片描述
  针对目标任务(X , Y)训练神经网络。

  1. 利用多个任务序列(Xi , Yi)更新神经网络参数(θi),但是这里不更新神经元网络参数(Θ,即 Wf、bf、WI、bI。过程如上图。对应伪代码中7-12。

  2. 利用(X , Y)的损失函数用梯度下降法更新神经元网络参数。对应伪代码14-16。

  3. 重复1,2过程n次。

在这里插入图片描述
在这里插入图片描述

3. 实验

在这里插入图片描述
在这里插入图片描述

1.原文下载
2.源码地址
3.经典论文汇总: 小样本学习论文汇总链接

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值