【阅读笔记】Reinforced Attention for Few-Shot Learning and Beyond

Abstract

Few-shot learning 旨在在给定有限数量的支持样本的情况下正确识别来自看不见的类的查询样本,通常依赖于图像的全局嵌入。在本文中,我们建议为骨干网络配备一个通过强化学习训练的注意力代理。策略梯度算法用于训练代理随着时间的推移自适应地定位特征图上的代表性区域。我们进一步设计了基于保留数据预测的奖励函数,从而帮助注意力机制更好地泛化到未见过的类别中。广泛的实验表明,在强化注意力的帮助下,我们的嵌入网络能够在少样本学习中逐步生成更具辨别力的表示。此外,图像分类任务的实验也表明了所提出设计的有效性。


Introduction

尽管传统方法对于小样本学习的任务效果很好,但它们很可能会忽略特征图中编码的空间信息,这使得模型对图像示例中的背景杂波非常敏感 。为了充分利用可用的空间信息,最近开发了面向注意力的设计用于少样本学习 。使用词嵌入作为辅助数据,提出了语义引导的注意模块来捕获查询样本中的相关视觉特征。除了语义引导的注意之外,样本引导的注意设计还能够进一步探索支持样本和查询样本之间的特征相关性。虽然这些注意力模型有效地使类特征更具代表性,但它们往往过于关注设计复杂的元学习器

为了解决上述弱点,在这项工作中,我们提出了一种用于小样本学习的强化注意力策略 (RAP) 模型,这是一种通过强化学习训练的注意力机制。具体来说,设计了一个辅助代理来装备主干网络,以计算一系列注意力图,这些注意力图反复决定在哪里执行或忽略特征图

图 1 (b) 进一步显示了 RAP 如何处理小样本学习任务。使用 RAP 来装备骨干网络,我们将小样本学习转换为 MDP。策略模块不断地接收来自元学习器的反馈 𝑟𝑡 并给予动作 𝑎𝑡 以获得更大的总奖励。来自上一个时间步 T 的嵌入 𝑒𝑇 被视为结果嵌入。因此,我们将 𝑌𝑞,𝑇 作为最终预测,而不是 𝑌𝑞。仅对骨干网络的修改使 RAP 跳过了元学习器的进一步设计,从而使 RAP 能够嵌入到大多数现有的小样本学习基线中。


Contributions

  1. 我们提出的 RAP 能够关注特征图的信息区域,同时避免额外繁琐的元学习器设计。此外,大多数小样本学习基线都可以配备 RAP,因为 RAP 本质上是特定于骨干网络的灵活扩展。
  2. 我们提供了一种新的解决方案,通过使用强化学习来训练注意力机制。直观地说,由于强化学习能够从经验中大量学习的特性,强化学习方式中的循环公式可以帮助注意力机制逐步定位特征的有用部分。

Method

相关框架的概述如图 2 所示。如图 2(b)所示,基线模型(见图 2(a))配备了一个策略模块,该模块接收循环信号并加强骨干网络以注意特征图中的判别区域。以示例图像为条件,RAP 模型顺序地寻找由骨干网络生成的相应特征图的评分张量。在此过程中,我们利用强化学习来训练奖励导向代理,即策略模块(见图 3)。请注意,RAP 模型如何应用于小样本学习如图 1 所示。

 1、问题定义

如图 2 (b) 所述,RAP 的一次执行可以理解为 MDP。 RAP 代理,即策略模块通过多个时间步长与骨干网交互。它的行为可以表示为状态-动作对。在时间步 t,代理观察状态 𝑠𝑡,执行动作 𝑎𝑡 并接收奖励 𝑟𝑡 以优化策略。当前时间步 𝑎𝑡 的动作仅取决于当前状态 𝑠𝑡,而下一个状态 𝑠𝑡+1 取决于 𝑠𝑡 和 𝑎𝑡。

具体来说,给定来自主干网络的特征图,我们的 RAP 模块将反复关注特征图中的信息区域,因为 RAP 代理将确定注意力图,直到找到特征图中的更多信息区域。在我们的设置中,动作𝒂𝒕等于注意力图。变化的因素,例如输入图像 𝐼𝑜 和计算的嵌入 et,在 RL 中被建模为状态 𝑠𝑡。在下文中,我们将介绍有关状态、动作和奖励的更多细节。


 1.1 状态


  1.2 动作

执行逐元素乘法以给出细化的特征图,如下所示:

其中 m∈Rh∗w∗c (mt∈Rh∗w∗c) 是在时间 t 采取行动之前(之后)的特征图。给定状态 st,策略函数 g 可以决定在时间 t 沿特征图中通道的哪个像素应该被增强或减弱


1.3 奖励

在步骤 t 执行过特征图的动作𝑎𝑡后,代理收到奖励 𝑟𝑡,该奖励 𝑟𝑡 评估𝑎𝑡。奖励函数很重要,因为它批评了策略优化的方向。引入 RAP 的一个目标是通过顺序过程在特征图上自适应地分配信息区域。这样做时,一种选择是密切监视模型在保留数据上的性能并做出反应。这可以在验证集的帮助下实现。因此,奖励函数被提议为:

其中𝑙𝑣𝑎𝑙,𝑡是在时间t建立在验证集上的损失,α是系数。在我们的案例中,奖励设计旨在指导策略实现对验证数据的更高预测。通过在验证数据上明确追求更好的性能,RAP 能够具有更好的泛化能力,从而关注特征图上更有用的信息


2、代理设置


3、代理训练

 使用 REINFORCE 算法 ,梯度可以表示为:

 总损失的复合形式:

其中ℓtrain 是建立在训练数据上的损失。当训练进行到ℓtotal时,θ可以自由更新。基于训练数据的训练损失ℓtrain 保证了骨干网络的基本性能,而基于验证数据的强化损失ℓrein 使策略模块能够主动识别骨干特征图上的信息区域。到了推理阶段,θ就被冻结了。


 实验

 

  • 2
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
《Reinforced concrete structures》是1975年R. Park和T. Paulay所著的一本关于钢筋混凝土结构的书籍。这本书被公认为将Strut-and-tie模型引入设计领域的开山之作。该书提供了关于钢筋混凝土结构设计的重要知识和理论,但在网上查找这本书可能会比较困难。 关于提取向量化信息和更新节点表示的方法,可以使用相邻节点中提取的信息进行聚合,并递归地更新自身节点的表示。其中,z^l_v是节点v在第l层之后的表示,初始时用x_v进行初始化。聚合函数和更新函数分别表示了信息的聚合和更新过程。 在边的关系中,通常会忽略边之间的从属关系。大多数解释器在探测边属性和构造解释子图时独立绘制边的属性。然而,事实上,边通常相互协作,并与其他边协作以逼近决策边界。这种高度依赖的边缘形成了一个联盟,可以在模型中建立一个原型来做出决策。例如,在化学领域中,N=O键形成的硝基(NO2)是一个典型的联盟,负责突变性和预测准确性的提高。因此,对于模型预测的解释,N=O键可以提供更好的事后解释。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [Reinforced concrete structures_reinforced_书籍_ConcreteStructures_](https://download.csdn.net/download/weixin_42681774/27438078)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] - *2* *3* [Reinforced Causal Explainer for Graph Neural Networks 图神经网络的增强因果解释器](https://blog.csdn.net/feijianguoer/article/details/129710966)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值