Task-Agnostic Meta-Learning for Few-shot Learning 论文笔记

前言

最近越来越多的工作使用元学习来处理小样本学习问题。一般来说,元学习模型包括两部分:初始模型和更新策略,其中初始模型是在大量任务上进行训练得到的,更新策略是为了使初始模型能够适应一个只有少量样本的新任务。所以元学习的目标就是,能够自动学习初始模型和更新策略的最优参数,从而使得模型能够泛化到各种其它任务上。

然而,现有的元学习方法存在一个普遍问题,就是初始模型在训练时可能对某些任务有偏差,即更偏向于某些任务,尤其是在元训练阶段的任务。如果一个新任务只含有少量样本,并且与元训练中的任务差别很大,那么这样一个有偏差的初始模型就不能在该新任务上得到很好的性能。因此本文提出Task-Agnostic Meta-Learning (TAML)算法,它的中心思想是训练一个无偏的初始模型,方法是要么阻止初始模型过于偏向于某些任务,要么直接对不同任务上性能的不平等度量进行最小化。

那么具体如何实现这种任务无关呢? 本文提出了TAML算法的两种形式:

  • 基于熵的TAML,对于一个分类任务,可以直接最大化初始模型预测的不同类别标签的熵,来实现对任务的无偏性。
  • 基于不平等最小化度量的TAML,方法就是在元训练初始模型时,直接最小化初始模型在不同任务上的损失的不平等度量,这将使得元学习器(meta-learner)能够学习到一个无偏的初始模型。

基于熵的TAML

将模型定义为由 θ \theta θ参数化的函数 f θ f_{\theta} fθ,在元训练过程中,从任务分布 p ( T ) p(T) p(T)中采样一个batch,batch中的每个任务都是 K K K-shot N N N-way问题,其中 K K K是训练样本的数量, N N N是类别的数量。模型的初始参数为 θ \theta θ,当在任务 T i T_i Ti上训练该模型时,根据更新规则将参数从 θ \theta θ更新为 θ i \theta_i θi。比如,对于 K K K-shot分类问题来说,使用SGD来更新模型参数: θ i → θ − α Δ θ L T i ( f θ ) \theta_i \to \theta- \alpha \Delta_{\theta}L_{T_i}(f_{\theta}) θiθαΔθLTi(fθ),其中 L T i ( f θ ) L_{T_i}(f_{\theta}) LTi(fθ

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值