Task-Agnostic Meta-Learning for Few-shot Learning 论文笔记

最新推荐文章于 2023-09-20 22:50:46 发布

头柱碳只狼

最新推荐文章于 2023-09-20 22:50:46 发布

阅读量1.1k

点赞数

分类专栏：小样本学习

本文链接：https://blog.csdn.net/qq_30146937/article/details/105112335

版权

本文介绍了Task-Agnostic Meta-Learning (TAML)算法，旨在解决元学习中初始模型可能对某些任务有偏差的问题。TAML通过最大化熵或最小化任务损失的不平等度量来实现无偏性。两种形式的TAML分别适用于离散标签的分类任务和更广泛的损失度量场景。

摘要由CSDN通过智能技术生成

前言

最近越来越多的工作使用元学习来处理小样本学习问题。一般来说，元学习模型包括两部分：初始模型和更新策略，其中初始模型是在大量任务上进行训练得到的，更新策略是为了使初始模型能够适应一个只有少量样本的新任务。所以元学习的目标就是，能够自动学习初始模型和更新策略的最优参数，从而使得模型能够泛化到各种其它任务上。

然而，现有的元学习方法存在一个普遍问题，就是初始模型在训练时可能对某些任务有偏差，即更偏向于某些任务，尤其是在元训练阶段的任务。如果一个新任务只含有少量样本，并且与元训练中的任务差别很大，那么这样一个有偏差的初始模型就不能在该新任务上得到很好的性能。因此本文提出Task-Agnostic Meta-Learning (TAML)算法，它的中心思想是训练一个无偏的初始模型，方法是要么阻止初始模型过于偏向于某些任务，要么直接对不同任务上性能的不平等度量进行最小化。

那么具体如何实现这种任务无关呢？ 本文提出了TAML算法的两种形式：

基于熵的TAML，对于一个分类任务，可以直接最大化初始模型预测的不同类别标签的熵，来实现对任务的无偏性。
基于不平等最小化度量的TAML，方法就是在元训练初始模型时，直接最小化初始模型在不同任务上的损失的不平等度量，这将使得元学习器（meta-learner）能够学习到一个无偏的初始模型。

基于熵的TAML

将模型定义为由 $\theta$ 参数化的函数 $f_{\theta}$ ，在元训练过程中，从任务分布 $p (T)$ 中采样一个batch，batch中的每个任务都是 $K$ -shot $N$ -way问题，其中 $K$ 是训练样本的数量， $N$ 是类别的数量。模型的初始参数为 $\theta$ ，当在任务 $T_i$ 上训练该模型时，根据更新规则将参数从 $\theta$ 更新为 $\theta_i$ 。比如，对于 $K$ -shot分类问题来说，使用SGD来更新模型参数： $\theta_i \to \theta- \alpha \Delta_{\theta}L_{T_i}(f_{\theta})$ ，其中 $L_{T_i}(f_{\theta})$