论文阅读笔记-CVPR 2020: Attentive Weights Generation for Few Shot Learning via Information Maximization

摘要AWGIM:通过信息最大化实现小样本学习的注意力权重生成论文的主要贡献有两个:生成的权重与输入数据之间的互信息最大化使得生成的权重能够保留小样本学习任务和特定查询样例的信息。两条注意力路径:自我注意和交叉注意对小样本学习任务的上下文和个性化查询进行编码论文写作框架简介相关工作2.1. 小样本学习2.2. 注意力机制2.3. 互信息提出的方法3.1. 问题的形式化定义3.2. 潜在的特征向量优化3.3. 权重生成的信息最大化3.4. 注意力权重生成3.4.1 上下
摘要由CSDN通过智能技术生成

摘要

AWGIM:通过信息最大化实现小样本学习的注意力权重生成

论文的主要贡献有两个:

  1. 生成的权重与输入数据之间的互信息最大化
    使得生成的权重能够保留小样本学习任务和特定查询样例的信息。
  2. 两条注意力路径:自我注意和交叉注意
    对小样本学习任务的上下文和个性化查询进行编码

论文写作框架

  1. 简介
  2. 相关工作
    2.1. 小样本学习
    2.2. 注意力机制
    2.3. 互信息
  3. 提出的方法
    3.1. 问题的形式化定义
    3.2. 潜在的特征向量优化
    3.3. 权重生成的信息最大化
    3.4. 注意力权重生成
    3.4.1 上下文和注意力路径
    3.4.2 权重生成器
    3.5. 训练和预测
    3.6. 复杂度分析
  4. 实验
    4.1. 数据集和协议
    4.2. 实现细节
    4.3. 与其他方法的比较
    4.4. 分析
    4.5. 收敛
    4.6. 预测时间花费
  5. 结论

1. 简介

元学习是目前解决小样本学习问题的主流方法

元学习的种类有:

  • 基于梯度的方法
  • 基于测量的方法
  • 权重生成方法,不但有效,而且计算公式简单。
    权重生成是对不同的任务,在有限的带标签数据上生成分类权重。但是,固定的分类权重,对不同的查询样例,可能不是最优的。

本文提出的新方法 AWGIM 就是为了解决这个问题。

AWGIM 在整个支持集和单个查询样例上,对分类权重的概率分布进行建模。
但是作者实验发现,查询样例和支持集之间的交叉注意所生成的分类权重,不足以用于不同的查询数据。尤其是某些特定的查询信息,在权重生成时,丢失了。
为了处理这个问题,作者利用互信息最大化,把查询/支持样例的信息保留在生成的权重中。

本文的贡献是:

  • 通过最大化生成的权重与查询/支持数据之间的互信息,解决了小样本分类的权重生成问题。利用信息最大化,权重生成器生成的分类权重适用于多种多样的查询样例。
  • 提出通过两条单独的路径,对任务上下文和单个查询样例进行编码。两条路径都利用注意力机制来捕获上下文信息。
  • 通过大量实验发现, AWGIM 比最先进的方法还要好。作者还进行了详细分析,来验证 AWGIM 的每个组件的贡献。鉴于小样本分类问题的实际情况,该方法所导致的计算开销是最小的。自适应分类权重生成也使得模型收敛更快。

2. 相关工作

2.1. 小样本学习

解决小样本学习问题,目前最有效的方法是元学习,可分为以下几类:

  • 基于梯度的方法,直接训练一个元学习器来优化给定的小样本分类问题。
  • 基于测量的方法,学习查询样例和支持样例之间的相似度测量。
  • 权重生成方法,直接生成分类权重。已有的研究,都没有考虑为不同的查询样例生成不同的权重,也没有最大化互信息。
  • 还有一些其他的方法。生成更多数据。

2.2. 注意力机制

注意力机制在计算机视觉和NLP领域取得了巨大成功。从特定上下文建模查询( query )和键值对( key-value )之间的相互作用,注意力机制非常有效。
根据 query 和 key 是否为同一实体,注意力机制可分为两类:自我注意、交叉注意。
作者利用注意力机制,通过最大化互信息,来解决小样本分类问题。聚焦于对自我注意和交叉注意之间的相互作用进行建模。

2.3. 互信息

互信息广泛用于GAN、自监督学习。。。等。最近互信息被引入小样本学习,用于记忆问题的正则项。
作者利用互信息的可变下界,直接生成精确的权重,来解决小样本学习问题。

3. 提出的方法

3.1. 问题的形式化定义

小样本学习任务 T,采样自未知的任务分布 P(T)。 T 包括支持集 S 和查询集 Q。S 中的样例类别个数称为 N-way,每个类别的样例个数称为 K-shot。T 称为 N-way K-shot 任务。
在这里插入图片描述
S 共包含 NK 个带标签的样例,Q 包含若干无标签的样例 x ^ \hat x x^ ,小样本学习的任务是基于 S 预测 x ^ \hat x x^ 的标签 y ^ \hat y y^。接下来的讨论,分别用 ( x c n , y c n ) (x_{c_n}, y_{c_n}) (xcn,ycn) ( x ^ , y ^ ) (\hat x, \hat y) (x^,y^) 代表支持样例和查询样例。
元学习,是在 Q 上评估模型的性能,而且元训练和元测试所用的样例类别是不同的,这就需要元学习模型学到可转移的横跨不同任务的高级知识,使自己快速适应全新的任务。

3.2. 潜在特征向量优化(LEO: Latent Embedding Optimization)

怎么形象理解 embedding 这个概念? 个人理解: embedding 就是特征向量。
LEO 是一种生成权重的方法,与本文的工作密切相关。LEO 通过学习一个低维的潜在空间,来避免更新高维的 w;从这个低维的潜在空间采样得到的 z 可用于生成 w。
AWGIM 与 LEO 有两个显著区别:
第一,LEO 依靠内部更新,生成的权重,只适合所输入的任务。AWGIM 是一个前馈网络,训练用来最大化互信息,目的是让其很好地适合各种不同的任务。
第二, AWGIM 学习为每个查询样例生成最佳分类权重。而 LEO 依靠某一任务的支持集,生成固定的权重。

3.3. 权重生成的信息最大化(从理论分析推理出目标函数)

作者的目标是为任意一个小样本学习任务生成分类权重,查询样例也是任务的一部分,LEO 生成的分类权重,对不同的查询样例不敏感。为了改善这个问题,可以对特定查询的信息进行编码,在生成权重时,习得模型 p ( w ∣ x ^ , S ) p(w|\hat x, S) p(wx^,S)
但实验发现, x ^ \hat x x^ 上的信息,在生成期间,可能会被忽略。为了处理这个局限性,作者提出最大化所生成的权重w与查询以及支持集之间的互信息。不失一般性,接下来的讨论,用 wi 表示类别 ci 的分类权重。目标函数可以描述为
在这里插入图片描述
根据互信息的链式法则,可得

  • 2
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值