斯坦福教授告诉你:什么是元学习「 CS330 笔记 (三) 」

写在前面

本系列博客为斯坦福大学 Stanford CS330: Multi-Task and Meta-Learning 2019 的学习笔记。博客中出现的图片均为课程演示文档的截图。笔记为课程的内容整理,主要是为了方便自己理解和回顾,若有纰漏和错误,烦请指出,谢谢 ~ 。希望对你有帮助。如需转载,请注明出处。
CS330课程传送门

如果你也好奇什么元学习,好奇为什么要学习元学习,可以先搂一眼这篇元学习课程介绍

上一节:什么是多任务学习?


元学习基础

如何理解元学习算法

我们可以从两种角度理解:

  • 从结构上来看(Mechanistic view)
    从这个角度理解,将有助于我们实现元学习算法,理解算法的内在结构和机制。

  • 从概率模型上来看(Probabilistic view)
    从这个角度理解,将有助于我们直观上概念性的理解算法到底在做什么。以这个角度讲,元学习就是从先前一系列任务中获得经验,然后更有效的解决新问题。

问题引入

先来看有监督学习,从熟悉的模型一步步推导到元学习模型 :
arg ⁡ max ⁡ ϕ log ⁡ p ( ϕ   ∣   D ) (1) \arg\max_{\phi} \log p(\phi\ |\ \mathcal{D})\tag{1} argϕmaxlogp(ϕ  D)(1)
ϕ \phi ϕ: 模型参数
D \mathcal{D} D: 训练数据集,且 D = { ( x 1 ,   y 1 ) , . . . , ( x k ,   y k ) } \mathcal{D}=\{(x_1,\ y_1),...,(x_k,\ y_k)\} D={ (x1, y1),...,(xk, yk)},其中 x x x为输入(e.g.图片), y y y为标签。

我们其实可以把有监督学习理解为极大似然问题。对于这个目标也就是找能使似然值最大的 ϕ \phi ϕ。同样,(1)式也可等于:
arg ⁡ max ⁡ ϕ log ⁡ p ( D   ∣   ϕ ) + log ⁡ p ( ϕ ) (2) \arg\max_{\phi} \log p(\mathcal{D}\ |\ \phi)+\log p(\phi)\tag{2} argϕmaxlogp(D  ϕ)+logp(ϕ)(2)

此时这个问题就转变为概率问题,该问题即转化为:要最大化在给定参数下出现该数据的概率,同时最大化参数 ϕ \phi ϕ 的边缘概率。

p ( D   ∣   ϕ ) p(\mathcal{D}\ |\ \phi) p(D  ϕ) : data likelihood
log ⁡ p ( ϕ ) \log p(\phi) logp(ϕ) : 正则化因子 (e.g. weight decay which corresponds to putting a Gaussian prior on your weights with a fixed variance)

再将(2)式扩展为以多个数据点表示的形式:
arg ⁡ max ⁡ ϕ ∑ i log ⁡ p ( y i   ∣   x i , ϕ ) + log ⁡ p ( ϕ ) (3) \arg\max_{\phi} \sum_i\log p(y_i\ |\ x_i,\phi)+\log p(\phi)\tag{3} argϕmaxilogp(yi  xi,ϕ)+logp(ϕ)(3)
此时可以就将上式理解为一个有正则化因子的优化器。

看起来这样也可以,但是,这样做有什么问题呢?:

  • 好的模型通常需要大量标注过的数据
  • 对于一些任务可能只有很有限的标注数据

如果此时的数据量非常小,即便是有正则化因子,训练结果也很有可能会过拟合。或者也有可能导致模型的表达性不足。这也正是元学习试图解决的主要问题:我们能否在模型中加一些附加数据?

这些数据可能是来自于之前学习到的经验,我们将这些数据称为元训练数据(meta-training data)。

添加元训练数据的目标函数如下:
arg ⁡ max ⁡ ϕ log ⁡ p

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值