论文阅读 | Sharp-MAML: Sharpness-Aware Model-Agnostic Meta Learning, ICML2022

1. motivation

模型不可知元学习(MAML)是目前小样本元学习的主要方法之一。尽管MAML有效,但由于固有的双层结构,其优化可能具有挑战性。具体而言,这种双层结构使得MAML的损失面可能有更多的鞍点和局部极小值,也就更容易陷入局部最优,而不是其经验风险最小化对应值。

 2. contribution

为了尽可能的避免陷入局部最优,本文利用最近的锐度感知最小化(sharpness aware minimization),提出了一种sharpness aware MAML方法,称之为Sharp-MAML。

实验部分Sharp-MAML达到了SOTA的效果。文中理论部分也进行了Sharp-MAML的收敛速度分析和泛化边界分析来补充实证研究。

3. 锐度感知最小化(SAM)

SAM利用损失面的几何形状,通过同时最小化损失值和损失锐度来提高泛化性能(Sharpness-aware minimization for efficiently improving generalization,ICLR 2021)。

SAM的优化问题为:

如果定义sharpness为:

那么SAM的优化目标就是最小化sharpness和经验损失的和。SAM通过在每次迭代t中进行如下步骤来寻找平坦最小值,即:

4. Sharp-MAML

MAML具有多个局部和全局最小值的复杂损失情况,这可能产生相似的经验损失值,同时具有显著不同的泛化性能。本文提出将SAM与MAML相结合给出了一个新的优化问题。

1) Sharp-MAML问题定义

使用两个非负的超参数和给出sharp的问题定义:

相比于MAML是一个双层优化问题,sharp-MAML是一个四层优化问题,但在算法设计中,将有效地近似(P)中的两个最大值,因此Sharp-MAML的成本几乎与MAML相同。

 2)Sharp-MAML的三种变体

  • Sharp-MAML_{low}: SAM只应用在任务内部更新过程:

  • Sharp-MAML_{up}:SAM只应用在元更新过程:

  •  Sharp-MAML_{both}:SAM同时应用在任务内部更新过程和元更新过程。

    对于任务m,perturbation的计算为:

    那么对于每个任务都能够计算得到任务参数:

    在所有任务的query set上就可以计算得到元梯度:

    由此可以计算元更新阶段的perturbation:

    那么元更新阶段的扰动微调参数,就为:

    则元更新过程就为:

5. 实验部分

              

6. 总结

虽然说本文的创新点就是把SAM和MAML进行了一个结合,但是理论(这部分的证明也是按照SAM的理论给了一个推导)和实验都比较充分。直观上但对我的帮助比较有限,SAM向损失中额外引入的梯度信息能够有效的提升模型的泛化性能,但在目标域上却不一定能有类似的效果。

  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值