激励反向传播的自上而下注意力神经模型

(推荐一个我自己做的普法公众号,大可说法律,有法律方面咨询的可以关注)


Top-Down Neural Attention by Excitation Backprop)

摘要

论文目标是建立一个卷积神经网络(CNN)分类器的自上而下的注意力模型,用于生成特定任务的注意力图。受自上而下的人类视觉注意力模型的启发,我们提出了一种新的反向传播方案,称为激励反向传播,通过概率赢者通吃的过程将自上而下的信号向下传递到网络的层次结构中。在此基础上,我们引入了对比注意的概念,使自上而下的注意图更具识别性。我们证明了所提出的对比注意公式和类激活图计算之间的理论联系。同时给出了普通神经网络层激励反向传播的有效实现。在实验中,我们通过计算所提出的自顶向下注意图来可视化模型分类决策。为了定量评估我们所提出的方法,测试了该方法在MS COCO, PASCAL VOC07和ImageNet数据集上的弱监督定位任务的准确性。在文本到区域关联任务中进一步验证了该方法的有效性。在Flickr30k实体数据集上,我们利用CNN模型的自顶向下的注意力,在弱标记的web图像上进行训练,从而在短语定位方面实现了很好的性能。最后,我们展示了我们的方法在模型解释和数据注释辅助面部表情分析和医学成像任务中的应用。

引言

自上而下的任务驱动注意是有效的视觉搜索的重要机制,各种自上而下的注意力模型已经被提出,其中选择性调制注意力模型提供了一种生物学上合理的策略。假设有一个用于视觉处理的锥体神经网络,选择性调优模型由一个自下而上的网络扫描来处理输入刺激,和一个自上而下的赢家通吃(WTA)过程来定位给定自上而下信号的网络中最相关的神经元组成。在自上而下过程中,选择性调优模型将网络处理为一组树(或锥),其中每个输出神经元都是树(或锥)的根。选择性调优定位处理锥中最相关的神经元,并生成一个二元注意图。图2说明了这个想法。 在这里插入图片描述
图2
受选择性调优模型的启发,我们为现代CNN分类器提出了一个自上而下的注意力模式。不同于Tsotsos等人(1995)使用的只能生成二元注意图的确定性WTA过程,我们将CNN分类器的自顶向下注意表示为一个概率WTA过程。
利用一种新颖的反向传播方案——激励反向传播,将自顶向下和自底向上的信息结合起来,有效地计算出每个神经元的获胜概率,实现了WTA的概率公式。可解释的注意图可以由中间的卷积层通过激励后向传播生成,从而避免执行完整的向后扫描。
我们进一步介绍了自顶向下对比注意的概念,它捕获了一对自顶向下对比信号之间的差异效应。对比的自上而下注意力可以显著提高生成的注意力地图的识别力。我们证明了对比自上而下注意也可以在小于完全向后扫描的情况下计算。我们进一步提供了我们的对比注意公式和CAM计算之间的理论联系。
由我们的概率WTA公式产生的注意图允许我们可视化识别模型用于作出特定分类决策的证据,无论该决策是正确的还是错误的。这对于模型分析很重要;理解为什么网络做出了正确的决定,或者为什么它感到困惑并犯了错误。为了定量地评估这些证据地图,我们报告了它们在定位任务中的准确性。
在实验中,与Simonyan和Vedaldi(2014)、Zeiler等人(2014)、Cao等人(2015)、Zhou等人(2016)和Bach等人(2015)相比,在PASCAL VOC (Everingham等人2010)和MS COCO (Lin等人2014)等具有挑战性的数据集上,我们的方法获得了更好的弱监督定位性能。我们进一步探索了我们的方法的可扩展性,以定位大量的视觉概念。为此,我们使用6M弱标记的web图像来训练一个CNN标签分类器来预测18K个标签。此外,我们的方法还可以帮助理解我们的标签分类器已经学习了什么。一些例子如图1所示。
在这里插入图片描述
我们的大规模标签定位方法的性能是在具有挑战性的Flickr30k实体数据集上评估的(Plummer et al. 2015)。在不使用语言模型或任何本地化监督的情况下,我们自顶向下的基于注意力的方法实现了与完全监督的基线相比具有竞争力的短语到区域的表现(Plummer等,2015)。
最后,我们演示了我们的方法在解释神经网络模型和协助人类数据注释器方面的应用前景。我们讨论了在面部情绪分析和医学图像分析中的几个应用实例。
综上所述,本文的主要贡献为:

  • 基于概率赢者通吃过程的CNN自顶向下的注意力模型,采用了一种新的激励Backprop方案;
  • 从上至下的对比注意公式提高了注意图的识别力;
  • 对比自上而下注意公式与课堂激活图计算的理论联系以及利用自上而下的神经注意模型,
  • 对弱监督的文本到区域的关联进行大规模的实证探索。

相关工作

有一个丰富的关于建模的自上而下的影响在人类视觉系统的选择性注意(见Baluch和Itti(2011)的综述)。据推测,自上而下的因素如知识、期望和行为目标可以影响视觉处理中的特征期望和位置期望并对神经元之间的竞争产生偏置。我们的注意模式与选择性有关的调整模型,提出了一个使用自顶向下WTA推理过程的生物激发注意力模型。
针对CNN分类器的预测,已经提出了各种方法。Zeiler等(2014)和Zhou等(2015)使用基于伪装的方法来预测显著图像区域。这种方法将一个蒙板滑过接受野,并使用分数/反应下降作为蒙板区重要性的指标。最近,Fong和Vedaldi(2017)使用元学习范式,通过编辑图像并从其输出的相应变化中学习,来预测最低显著性区域。在Simonyan和Vedaldi(2014)、Zeiler等人(2014)和Springenberg等人(2014)中,基于误差反向传播的方法用于可视化预测类的相关区域或隐藏神经元的激活。最近,Bach等人(2015)提出了一种分层关联反向传播方法,为CNNs分类决策提供像素级解释。Cao等人(2015)提出了一种反馈CNN架构,用于捕获自上而下的注意力机制,成功识别与任务相关的区域。该体系结构要求在每个ReLU层之后增加一个二进制神经元反馈层。反馈层中的神经元将主要特征传递给上层,并将高层语义传播给下层,以创建注意力地图。Zhou等人(2016)研究表明,用平均池化层替换全连接层可以帮助生成粗类激活映射,突出显示任务相关区域。
与之前的方法不同,我们的自上而下的注意力模型是基于WTA规则的,并且有一个可解释的概率公式。我们的方法在概念上也比Cao等人(2015)和Zhou等人(2015)简单,因为我们不需要修改网络架构或执行额外的训练。我们的方法的最终目标不仅仅是可视化和解释分类器的决策(Zeiler et al. 2014;Springenberg等,2014年;我们的目标是操纵cnn自顶向下的注意力,生成具有高度区别性的注意力地图,从而有利于定位。Oquab等人(2015)、Pathak等人(2015)、Papandreou等人(2015)、Pinheiro和Collobert(2015)、Fang等人(2015)、Simonyan和Vedaldi(2014)、Guillaumin等人(2014)和Bazzani等人(2016)对训练CNN模型进行了研究。Oquab et al.(2015)、Fang et al.(2015)和Pinheiro and Collobert(2015)将CNN模型转化为全卷积网络,实现高效的滑动窗口然后在置信分数图上通过各种pooling方法将多实例学习(MIL)集成到训练过程中。由于输出层的接受野和步幅较大,结果的分数图只能提供非常粗糙的位置信息。为了克服这个问题,人们提出了各种策略,例如图像缩放和移动,以增加分数aps的粒度(Oquab et al. 2015;Pinheiro和Collobert 2014, 2015)。Pathak等人(2015)、Papandreou等人(2015)以及Pinheiro和Collobert(2015)也利用图像和物体先验来提高物体定位精度。Guillaumin等人(2014)利用之前已局部化(分割)类的外观模型进行弱监督定位,选择并分割一个新类,从而为每张图像导出二值分割掩模。与弱监督定位相比,我们的任务的问题设置本质上是不同的。我们假设给出了一个预先训练好的深度CNN模型,该模型可能不使用任何专门的训练过程或模型架构来进行定位。相反,我们的重点是模拟一般CNN模型的自上而下的注意机制,以产生可解释的和有用的任务相关的注意图。

方法

基于概率WTA的自上而下的神经注意力

我们考虑一个通用的前馈神经网络模型。自上而下的注意力模型的目标是识别网络中与任务相关的神经元。
选定输出单元,用一个确定性自顶向下的WTA方案实现生物激发选择性调谐模型完成定位锥体中最相关的神经元(见图2a),生成二值注意图。受确定性WTA的启发,我们提出了一个概率WTA公式来模拟神经网络的自上而下的注意力(图2b, c),它利用网络中的更多信息,生成软注意力地图,可以捕捉自上而下信号之间的细微差别。这对于我们在第3.3节中提出的对比注意是至关重要的。
在我们的公式中,自顶向下的信号是由一个在输出单元上的先验分布 P ( A 0 ) P(A_0) P(A0)指定的,它可以建模自顶向下控制过程中的不确定性。然后根据条件获胜概率 P ( A t ∣ A t − 1 ) P(A_t \mid A_{t-1}) P(AtAt1),以自顶向下的方式递归采样获胜神经元,其中 A t , A t − 1 ∈ N A_t, A_{t-1} \in N At,At1N分别表示当前和前一步所选的获胜神经元,N为整个神经元集合。我们用每个神经元的自顶向下的相关性表示其被选择为这个过程中的赢家概率。边缘获胜概率(MWP) P ( a j ) P(a_j) P(aj)
在这里插入图片描述
在我们的公式中,MWP P ( a j ) P(a_j) P(aj)可以解释为从输出层的一个随机节点根据 P ( A 0 ) P(A_0) P(A0)开始时的期望访问次数。使用吸收马尔可夫链的基本矩阵,可以通过简单的矩阵乘法计算出预期的访问次数。因此,MWP P ( a i ) P(a_i) P(ai)是自顶向下的信号 P ( A 0 ) P(A_0) P(A0)的线性函数,可以方便地计算多个MWP映射的线性组合(见3.3节)。在实践中,我们的激励反向传播按分层方式进行计算,而不需要显式地构造基本矩阵。由于前馈网络的无环特性,这种分层传播是可能的。

激励反向传播

在本节中,我们提出了激励Backprop方法来实现现代CNN模型的概率WTA公式。现代CNN模型(Krizhevsky等,2012;Simonyan和Zisserman 2015;(Szegedy et al. 2015)主要由一种基本类型的神经元 a i a_i ai组成,其响应由下式计算:
在这里插入图片描述
我们称这种类型的神经元为激活神经元。
我们有以下关于激活神经元的假设:

  • A1 激活神经元的响应是非负的
  • A2 激活的神经元被调节以检测特定的视觉特征。它的响应与它的检测置信度正相关
    在这里插入图片描述
    因此,在激活神经元之间,我们将其权重非负性定义为兴奋性连接,反之则定义为抑制性连接。我们的激励反向传播通过激活神经元之间的兴奋性连接传递自上而下的信号。形式上,让Ci表示ai的子节点集(按照自顶向下的顺序)。对于每个a j∈Ci,定义条件获胜概率P(a j |ai)为 (6):

在这里插入图片描述
Z是归一化参数,
方程(6)假定 a i a_i ai是一个胜出的神经元,次胜出神经元由子节点集采样(根据 w j i , a ^ j w_{ji},\hat{a}_j wji,a^j)。方程6递归地逐层传播自顶向下的信号,我们可以从任何中间卷积层计算注意力地图。在我们的方法中,我们简单地通过各通道的和来生成一个边际获胜概率(MWP)图作为我们的注意力图,这是一个二维概率直方图。图3显示了使用预先训练过的VGG16模型生成的一些示例MWP映射(Simonyan和Zisserman 2015)。较高层次的神经元有较大的接受野和步幅。因此,它们可以捕获更大的区域,但空间精度较低。较低层次的神经元倾向于更精确地定位较小尺度的特征。注意,在像素级进行激励反向传播没有可解释的意义,因为像素值不能被视为A2中定义的激活值。此外,平均减去的像素值可以是负的,违反了A1。

对比自上而下的注意力

由于MWP是自顶向下信号的线性函数(见3.1节),我们可以通过单次向后传递计算图像MWP映射的任何线性组合。所有我们需要做的是线性结合自顶向下的信号矢量在执行一个单一激励后支撑通过的顶层。在本节中,我们利用这一特性,通过传递一个相当于一对对比信号的信号,来生成高度区分的自顶向下的注意力映射。
对于每个输出单元oi,我们构造一个反向单元oi,其输入权值为oi的那些权值的否定。例如,如果一个输出单元对应一个大象,那么它的反向单元将对应一个非大象。从大象的MWP图中减去非大象的MWP图,可以消除常见的赢家神经元,放大大象的区分神经元。
在这里插入图片描述
我们称这个映射为contrastiveMWP (c-MWP)映射,它可以通过一次向后传递来计算。图4显示了一些示例。
形式上,设W1为顶层的权重,P1为对应的转移矩阵,其项为Eq. 6定义的条件概率。假设顶部的神经元数为m,下一层为k,则P1是一个m k矩阵,自顶向下的输入信号P0是一个k- d向量,k等于网络训练的类数。
对于对比输出单元,权值为最上层原权值W1的否定。由于顶层是一个线性分类层,否定它的权值相当于翻转分类超平面的法向量。令P1表示否定的分类层的转移矩阵。对于P1,正的项之前根据公式6在P1中进行阈值处理,反之亦然。例如,pi j >P1中的0表示P1中的j = 0。我们的概率公式确保了在对比MWP映射上总是有一些正的部分,除非MWP映射和它的反向映射是相同的
在这里插入图片描述在这里插入图片描述

讨论

在本节中,我们首先比较CAM (Zhou et al. 2016)和对比MWP。然后,我们探讨了以前基于梯度的方法用于可视化自顶向下显著性的一些缺点。

CAM与对比MWP

许多最近的CNN分类器使用全局平均池(GAP)层为整个图像生成一个全球特征向量。然后在间隙层之后放置一个线性分类层,即全连通层。对于这个特殊的架构设计,Zhou等人(2016)提出了类激活映射(CAM)方法来生成粗糙的自顶向下显著性映射。CAMmethod的基本思想是去除GAP层,将模型视为全卷积架构(Long et al. 2015)。最后一层分类层应用在间隙层之前的feature map上作为一个1*1滤波器。

Excitation Backprop的实现

卷积,全连接和平均池层

卷积层、全连接层和平均池化层可以看作是对底部(输入)神经元的响应值进行仿射变换的同一类型的层。激励反向传播通过方程1和方程6实现,为了方便,定义 p i j : = P ( a j ∣ a i ) p_{ij}:=P(a_j\mid a_i) pij:=P(ajai) p j : = P ( a j ) p_j:=P(a_j) pj:=P(aj) ,有:
在这里插入图片描述
写成矩阵的形式:
在这里插入图片描述
平均池化层中对应的权重 w i j = 1 / n w_{ij}=1/n wij=1/n

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 2
    评论
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值