元学习系列（九）：Gradient Agreement as an Optimization

最新推荐文章于 2024-03-30 17:32:23 发布

JessssseYule

最新推荐文章于 2024-03-30 17:32:23 发布

阅读量798

点赞数 2

分类专栏：元学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/jesseyule/article/details/103809064

版权

元学习专栏收录该内容

10 篇文章 106 订阅

订阅专栏

MAML尝试学习模型的初始化参数，使得这些参数对各类任务的梯度都是敏感的，这样针对某一特定任务甚至新的任务只需进行少数几次的梯度下降，就能取得较好的效果，可是因为这个过程中使用了二阶微分计算，增大了计算开销。

Reptile在MAML的原理上进行改进，省略了二阶微分计算的过程，同时也避免模型的性能显著下降，在性能和计算开销之间都取得较好的平衡。

简单来说，MAML和Reptile都是在想办法找到一个点，到各类任务的最优点的距离之和最小，但是其实两者都默认了各类任务对于寻求最优初始点的贡献是一样的，从MAML的公式就可以明显看出这一点：

$\theta_{new} = \theta - \beta \nabla_{\theta} \sum L (f_{\theta '_i})$

上式中的损失函数只是各个任务的损失函数之和，不同的损失函数拥有相同的权重。

现在有一种情况就是假如有n个任务，n-1个任务都倾向于同一个梯度下降方向，而还有一个任务则倾向于另一个完全相反的方向，这时候这个任务就阻止了模型朝着最优方向前进了，或者说，在这种情况下，模型更倾向于抛弃最后一个任务，通过降低那个任务的性能来优化更多的任务。

以MAML为例来看看Gradient Agreement是如何进行改进的，首先也是随机抽取不同任务的N个样本，对每个样本进行梯度下降：

$\theta_i = \theta - \alpha_{inner} \nabla L_{\tau_i} (f_\theta)$

$g_i = \theta - \theta_i$

接下来就是Gradient Agreement的重点，计算每个任务的权重了：

$w_i = \frac{\sum_{j \in T} (g_i^T g_j)}{\sum_{k \in T} |\sum_{j \in T} (g_k^T g_j) |}$

上式的意思就是，假如现在有五类任务，每类任务有五个样本，对于第一类任务的权重，分子等于第一类任务五个样本和所有样本之间的乘积之和，分母等于任意这二十五个样本任意两个的乘积之和的绝对值。简单来说，如果某类样本的梯度更新方向和其他样本的梯度更新方向比较接近，就会得到更高的权重，相反就更低。

计算出每类任务的权重之后，就可以继续进行分析，对MAML，就是：

$\theta _{new} = \theta - \alpha_{outer} \sum_i w_i \nabla L_{\tau_i}(f_{\theta_i})$

对Reptile：

$\theta _{new} = \theta + \alpha_{outer} \sum_i w_i (\theta_i - \theta)$

总的来说，Gradient Agreement的创新点就是针对不同的任务引入不同的权重，使得模型的能准确地朝着对初始参数进行优化。

在github写的自然语言处理入门教程，持续更新：NLPBeginner

在github写的机器学习入门教程，持续更新：MachineLearningModels

想浏览更多关于数学、机器学习、深度学习的内容，可浏览本人博客

关注

2
点赞
踩
4

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。