论文阅读笔记《Task-Agnostic Meta-Learning for Few-shot Learning》

最新推荐文章于 2022-03-04 13:14:54 发布

深视

最新推荐文章于 2022-03-04 13:14:54 发布

阅读量2.9k

点赞数 4

分类专栏：论文阅读笔记 # 小样本学习文章标签：深度学习元学习小样本学习

本文链接：https://blog.csdn.net/qq_36104364/article/details/106419974

版权

论文阅读笔记同时被 2 个专栏收录

259 篇文章 141 订阅

订阅专栏

小样本学习

100 篇文章 136 订阅

订阅专栏

小样本学习&元学习经典论文整理||持续更新

核心思想

本文提出了一种基于任务无偏思想的元学习算法用于解决小样本学习问题。基于参数优化的元学习算法是小样本学习领域中的一个重要的分支，如MAML，Meta-LSTM，这一类型的算法试图通过元学习的方式得到一个较好的初始化模型或者梯度下降的方向，使得模型能够只利用较少的新样本，就能实现很好的效果。而作者指出其中潜在的一个问题，就是模型在训练过程中容易产生对于训练任务的偏好，而导致泛化能力下降。这一点是很好理解的，无论我们怎样期待我们得到的初始模型通用性有多好，但毕竟是在一定范围内的样本上进行训练，得到的模型注定会更适用于这部分样本，而对于新样本的泛化能力是有限的。作者正是出于这种考虑，希望训练一种任务无偏的（或者说任务不限的）元学习算法（Task-Agnostic Meta-Learning，TAML）来解决或者缓解上述问题。
为解决上述问题，作者提出了两种方案：基于熵减最大化的TAML和基于最小化不平等性的TAML，下面我们依次介绍两种方案。
首先定义 $f_{\theta}$ 是初始化的模型， $f_{\theta_i}$ 是在任务数据集 $T_i$ 上进行训练得到的模型，则模型 $f_{\theta}$ 的熵为
在这里插入图片描述
式中 $\hat{y}_{i,n}$ 表示初始模型 $f_{\theta}$ 的预测结果，通常是一个softmax层的输出。熵越大则表明预测结果随机性越高，初始模型对于各个类别的样本没有任何偏好。但我们不能只简单的最大化初始模型的熵，还有最小化进过训练的模型 $f_{\theta_i}$ 的熵 $H_{T_i}(f_{\theta_i})$ 。这就相当于最大化熵减 $H_{T_i}(f_{\theta})-H_{T_i}(f_{\theta_i})$ ，将其与元训练目标结合起来得到以下目标函数
在这里插入图片描述
这个算法过程如下图所示

这一方法有效地实现了作者的想法，但存在一个问题，就是只能针对离散的标记计算熵，而不能满足一些连续性输出的任务需求，因此只能针对于分类问题。在此基础上作者又提出了基于最小化不平等性的方法，这一思想来自于经济学上的不平等性概念，简单而言就是每个任务的损失可以看做这个任务的收入，如何保证模型对于每个任务都是无偏的呢?那就需要减少每个任务收入之间的不平等性。实现的过程也非常简单，最小化下述目标
在这里插入图片描述
式中 $I_{\varepsilon }$ 是不平等性的度量方式，作者引入了多种经济学或信息学中的度量方式，此处不再展开介绍了，感兴趣的可以阅读原文具体了解计算方法。该算法的计算过程如下