摘要
AWGIM:通过信息最大化实现小样本学习的注意力权重生成
论文的主要贡献有两个:
- 生成的权重与输入数据之间的互信息最大化
使得生成的权重能够保留小样本学习任务和特定查询样例的信息。 - 两条注意力路径:自我注意和交叉注意
对小样本学习任务的上下文和个性化查询进行编码
论文写作框架
- 简介
- 相关工作
2.1. 小样本学习
2.2. 注意力机制
2.3. 互信息 - 提出的方法
3.1. 问题的形式化定义
3.2. 潜在的特征向量优化
3.3. 权重生成的信息最大化
3.4. 注意力权重生成
3.4.1 上下文和注意力路径
3.4.2 权重生成器
3.5. 训练和预测
3.6. 复杂度分析 - 实验
4.1. 数据集和协议
4.2. 实现细节
4.3. 与其他方法的比较
4.4. 分析
4.5. 收敛
4.6. 预测时间花费 - 结论
1. 简介
元学习是目前解决小样本学习问题的主流方法
元学习的种类有:
- 基于梯度的方法
- 基于测量的方法
- 权重生成方法,不但有效,而且计算公式简单。
权重生成是对不同的任务,在有限的带标签数据上生成分类权重。但是,固定的分类权重,对不同的查询样例,可能不是最优的。
本文提出的新方法 AWGIM 就是为了解决这个问题。
AWGIM 在整个支持集和单个查询样例上,对分类权重的概率分布进行建模。
但是作者实验发现,查询样例和支持集之间的交叉注意所生成的分类权重,不足以用于不同的查询数据。尤其是某些特定的查询信息,在权重生成时,丢失了。
为了处理这个问题,作者利用互信息最大化,把查询/支持样例的信息保留在生成的权重中。
本文的贡献是:
- 通过最大化生成的权重与查询/支持数据之间的互信息,解决了小样本分类的权重生成问题。利用信息最大化,权重生成器生成的分类权重适用于多种多样的查询样例。
- 提出通过两条单独的路径,对任务上下文和单个查询样例进行编码。两条路径都利用注意力机制来捕获上下文信息。
- 通过大量实验发现, AWGIM 比最先进的方法还要好。作者还进行了详细分析,来验证 AWGIM 的每个组件的贡献。鉴于小样本分类问题的实际情况,该方法所导致的计算开销是最小的。自适应分类权重生成也使得模型收敛更快。
2. 相关工作
2.1. 小样本学习
解决小样本学习问题,目前最有效的方法是元学习,可分为以下几类:
- 基于梯度的方法,直接训练一个元学习器来优化给定的小样本分类问题。
- 基于测量的方法,学习查询样例和支持样例之间的相似度测量。
- 权重生成方法,直接生成分类权重。已有的研究,都没有考虑为不同的查询样例生成不同的权重,也没有最大化互信息。
- 还有一些其他的方法。生成更多数据。
2.2. 注意力机制
注意力机制在计算机视觉和NLP领域取得了巨大成功。从特定上下文建模查询( query )和键值对( key-value )之间的相互作用,注意力机制非常有效。
根据 query 和 key 是否为同一实体,注意力机制可分为两类:自我注意、交叉注意。
作者利用注意力机制,通过最大化互信息,来解决小样本分类问题。聚焦于对自我注意和交叉注意之间的相互作用进行建模。
2.3. 互信息
互信息广泛用于GAN、自监督学习。。。等。最近互信息被引入小样本学习,用于记忆问题的正则项。
作者利用互信息的可变下界,直接生成精确的权重,来解决小样本学习问题。
3. 提出的方法
3.1. 问题的形式化定义
小样本学习任务 T,采样自未知的任务分布 P(T)。 T 包括支持集 S 和查询集 Q。S 中的样例类别个数称为 N-way,每个类别的样例个数称为 K-shot。T 称为 N-way K-shot 任务。
S 共包含 NK 个带标签的样例,Q 包含若干无标签的样例 x ^ \hat x x^ ,小样本学习的任务是基于 S 预测 x ^ \hat x x^ 的标签 y ^ \hat y y^。接下来的讨论,分别用 ( x c n , y c n ) (x_{c_n}, y_{c_n}) (xcn,ycn) 、 ( x ^ , y ^ ) (\hat x, \hat y) (x^,y^) 代表支持样例和查询样例。
元学习,是在 Q 上评估模型的性能,而且元训练和元测试所用的样例类别是不同的,这就需要元学习模型学到可转移的横跨不同任务的高级知识,使自己快速适应全新的任务。
3.2. 潜在特征向量优化(LEO: Latent Embedding Optimization)
怎么形象理解 embedding 这个概念? 个人理解: embedding 就是特征向量。
LEO 是一种生成权重的方法,与本文的工作密切相关。LEO 通过学习一个低维的潜在空间,来避免更新高维的 w;从这个低维的潜在空间采样得到的 z 可用于生成 w。
AWGIM 与 LEO 有两个显著区别:
第一,LEO 依靠内部更新,生成的权重,只适合所输入的任务。AWGIM 是一个前馈网络,训练用来最大化互信息,目的是让其很好地适合各种不同的任务。
第二, AWGIM 学习为每个查询样例生成最佳分类权重。而 LEO 依靠某一任务的支持集,生成固定的权重。
3.3. 权重生成的信息最大化(从理论分析推理出目标函数)
作者的目标是为任意一个小样本学习任务生成分类权重,查询样例也是任务的一部分,LEO 生成的分类权重,对不同的查询样例不敏感。为了改善这个问题,可以对特定查询的信息进行编码,在生成权重时,习得模型 p ( w ∣ x ^ , S ) p(w|\hat x, S) p(w∣x^,S) 。
但实验发现, x ^ \hat x x^ 上的信息,在生成期间,可能会被忽略。为了处理这个局限性,作者提出最大化所生成的权重w与查询以及支持集之间的互信息。不失一般性,接下来的讨论,用 wi 表示类别 ci 的分类权重。目标函数可以描述为
根据互信息的链式法则,可得