论文阅读笔记《Attentive Weights Generation for Few Shot Learning via Information Maximization》

小样本学习&元学习经典论文整理||持续更新

核心思想

  本文提出一种基于权重生成的小样本学习算法(AWGIM),这种类型的方法之前在小样本目标检测算法中见到过,就是直接用一个生成器生成分类器的权重参数。本文与其他相关算法(LEO)的区别在于在生成分类器权重时,不仅考虑支持集图像,而且考虑查询集图像。为了实现这一目的,本文引入了互信息(Mutual Information,MI)和注意力机制。整个网络的流程如下图所示
在这里插入图片描述
  首先,介绍一下什么是互信息MI——给定两个随机变量 x x x y y y,互信息 I ( x ; y ) I(x;y) I(x;y)表示当其中一个变量已知时,另一个变量不确定性的下降程度。如果两个变量是完全独立的,则互信息为0。互信息通常利用两个随机变量分布的KL散度表示
在这里插入图片描述
p ( x , y ) p(x,y) p(x,y)表示两个变量的联合分布, p ( x ) ⊗ p ( y ) p(x)\otimes p(y) p(x)p(y)表示两个边缘分布的乘积。为了使生成的分类器权重与查询集图像和支持集图像相关,本文将目标函数定义为最大化权重 w i w_i wi与查询集图像 x ^ \hat{x} x^和支持集图像 x c i x_{c_i} xci之间的互信息
在这里插入图片描述
根据互信息定义可得
在这里插入图片描述
则目标函数可写为
在这里插入图片描述
但是由于后验分布 p ( y ^ ∣ x ^ , w i ) p(\hat{y}|\hat{x},w_i) p(y^x^,wi) p ( x ^ ∣ w i ) p(\hat{x}|w_i) p(x^wi)是未知的,因此需要通过近似方法来计算,目标函数的近似表达为
在这里插入图片描述
其中第一项和第三项表示在给定分类器权重的条件下,最大化查询集图像和支持集图像的标签预测概率的对数似然,这等价于最小化预测结果于真实值之间的交叉熵损失函数。
  查询集图像和支持集图像经过特征提取网络后得到对应的特征向量 x ^ \hat{x} x^ x x x,然后分别通过两个通道进行任务上下文编码和查询集样本编码,本文通过多头注意力机制(multi-head attention)实现编码过程,计算过程如下
在这里插入图片描述
式中 Q , K , V Q,K,V Q,K,V分别表示查询 q u e r y query query,键 k e y key key和值 v a l u e value value W Q j , W K j , W V j W_Q^j,W_K^j,W_V^j WQj,WKj,WVj分别表示第 j j j个头(head)对应的权重矩阵。对于本文而言编码过程包含两个路径:上下文路径和注意力路径。上下文路径目的是用多头自注意力网络(multi-head self-attention network) f θ c p s a f_{\theta_{cp}^{sa}} fθcpsa学习支持集图像的表征
在这里插入图片描述
在注意力路径中,首先用一个新的多头自注意力网络对支持集图像进行编码
在这里插入图片描述
然后再利用一个交互注意力网络(cross attention network) f θ c a a p f_{\theta_{ca}^{ap}} fθcaap对查询集图像和支持集图像共同编码
在这里插入图片描述
最后将两个分支的输出 x c p x^{cp} xcp x ^ a p \hat{x}^{ap} x^ap级联后得到 x c p ⊕ a p x^{cp \oplus ap} xcpap,利用生成器 g g g输出分类器权重 w w w。本文假设分类器权重 w w w满足带有对角化协方差矩阵的高斯分布,因此生成器输出的是权重 w w w分布的均值 μ w i \mu_{w_i} μwi和协方差矩阵 ∑ w i \sum_{w_i} wi(对角化矩阵,对角线上的元素为 σ w i \sigma_{w_i} σwi),计算过程如下
在这里插入图片描述
为了简化计算对于同一类别的 K K K个样本,采用取平均值的方式计算最终的分类器权重 w f i n a l w^{final} wfinal,得到分类器权重后就可以得到查询集和支持集图像对应的预测结果了,也就得到了目标函数中的第一项和第三项,但第二项和第四项尚且未知,因此除了生成器 g g g之外还有两个解码器 r 1 r_1 r1 r 2 r_2 r2,分别用于预测 p θ ( x ^ ∣ w i ) p_{\theta}(\hat{x}|w_i) pθ(x^wi) p θ ( x c i ∣ w i ) p_{\theta}(x_{c_i}|w_i) pθ(xciwi)

实现过程

网络结构

  特征提取器采用4层卷积层网络或ResNet网络,生成器 g g g和解码器 r 1 r_1 r1 r 2 r_2 r2采用两层多层感知机。

损失函数

  目标函数等价于下述损失函数
在这里插入图片描述

创新点

  • 采用权重生成的方式实现小样本分类
  • 通过互信息MI和注意力机制将查询集图像和支持集图像结合起来,共同生成对应类别的权重

算法评价

  本文也可以认为是基于参数优化的元学习方法,只不过是学习生成分类器权重参数。整篇文章公式很多,但推导比较详细,整个过程还是非常清晰易懂的。本文中引入的互信息和自注意力机制还有交互注意力机制都是先前文章中没有采用的方案,值得进一步学习和研究。

如果大家对于深度学习与计算机视觉领域感兴趣,希望获得更多的知识分享与最新的论文解读,欢迎关注我的个人公众号“深视”。在这里插入图片描述

  • 2
    点赞
  • 17
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

深视

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值