【论文翻译】Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization ICCV 2017

最新推荐文章于 2024-08-09 14:34:53 发布

stu_sun

最新推荐文章于 2024-08-09 14:34:53 发布

阅读量1.7w

点赞数 23

分类专栏：论文翻译文章标签： CNN Visualization CAM

论文翻译专栏收录该内容

2 篇文章 0 订阅

订阅专栏

Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization
Grad-CAM：通过基于梯度的定位从深度网络进行视觉解释

Ramprasaath R.Selvaraju、Michael Cogswell、Abhishek Das1、RamakrishnaVedantam、Devi Parikh Dhruv、Batra

GeorgiaInstitute of Technology Facebook AI Research

{ramprs,cogswell, abhshkdz, vrama, parikh, dbatra}@gatech.edu

摘要

我们提出一种为了从大量基于卷积神经网络（CNN）的模型中做决策而产生的“视觉解释”技术，这种技术可以使这些模型更加透明。我们的方法 - 梯度加权的类激活映射（Grad-CAM），使用任何目标概念的梯度（比如说'狗'或甚至caption的逻辑），在最后一个卷积层产生一个粗略的定位图谱，突出显示图像中用于预测概念的重要的区域。与以前的方法不同，Grad-CAM适用于各种各样的CNN模型族：（1）具有全连接层的CNN（例如VGG），（2）用于结构化输出的CNN（例如captioning），（3）用于具有多模式输入（例如视觉问答）或强化学习的任务，无需进行架构更改或重新训练。我们将Grad-CAM与现有的细粒度可视化技术相结合，创建具有高分辨率的类别判别的可视化技术，Guided Grad-CAM，并将其应用于图像分类，图像描述生成和视觉问答（VQA）模型，包括基于ResNet结构的模型。在图像分类模型中，我们的可视化技术（a）为这些模型的失效模式提供了见解（表明那些好像不合理的预测是具有合理的解释的），（b）在ILSVRC-15弱监督定位任务上优于以前的方法，（ c）在基础模型上更成功，并且（d）通过识别数据集偏差来帮助实现模型泛化。对于图像描述生成和VQA，我们的可视化显示，即使是基于非重视（non-attention）的模型也可以对输入进行定位。最后，我们设计并开展人类研究，以评估Grad-CAM解释是否有助于用户建立对来自深度网络的预测的合适的信任，并表明Grad-CAM帮助未经训练的用户成功地从“较弱”的神经网络辨别出“较强”的一个，即使它们都做出相同的预测。我们的代码可在https：//github.com/ramprs/grad-cam/上获得，同时在CloudCV [2]上运行demo，在youtu.be/COjUB9Izk6E上观看演示视频。

1.介绍

卷积神经网络（CNN）和其他深度网络已经在多种计算机视觉任务中实现了前所未有的突破，从图像分类[24,16]到物体检测[15]，语义分割[27]，图像描述生成[43,6,12,21]，以及最近的视觉问答[3,14,32,36]。虽然这些深度神经网络能够实现卓越的性能，但由于它们缺乏可分解性，不能转化为直观和易于理解的组件，因此它们很难被解释[26]。因此，当今天的智能系统出现故障时，如果没有任何警告或解释，它们就会失败得令人失望，用户盯着一个不连贯的输出，不知道为什么。

可解释性问题。为了建立对智能系统的信任，并将他们有意义地融入我们的日常生活中，很显然我们必须建立“透明”的模型来解释为什么它们这么预测。广义而言，这种透明度在人工智能（AI）演变的三个不同阶段非常有用。首先，当AI比人类弱得多并且还不能可靠地“部署”时（例如视觉问答[3]），透明度和解释的目标是识别失效模式[1,17]，从而帮助研究人员集中精力在最富有成果的研究方向上。其次，当人工智能与人类平等并且可靠地“可部署”时（例如，在一组类别上训练了足够多的数据的图像分类[22]），目标是在用户中建立适当的信任和置信度。第三，当AI比人类强得多时（例如国际象棋或Go [39]），解释的目标是在机器教学中[20] - 即一台机器教人如何做出更好的决策。

在准确性和简单性或可解释性之间通常存在一种平衡。传统的基于规则或专家系统[18]是高度可解释的，但不是非常准确（或强大）。每个阶段都是手工设计的可分解管道被认为更具可解释性，因为每个单独的组件都假设了一个自然、直观的解释。通过使用深层模型，我们牺牲可解释模块来解释不可解释的模块，通过更好的抽象（更多层）和更紧密的集成（端到端训练）实现更高的性能。最近引入的深度残差网络（ResNets）[16]深度超过200层，并且在几项具有挑战性的任务中展现了最先进的性能。这种复杂性使得这些模型很难解释。因此，深层模型开始探索解释性和准确性之间的关系。

周等人 [47]最近提出了一种称为类激活映射（CAM）的技术，用于识别由一有限类的不包含任何全连接层的图像分类CNN所使用的判别性区域。实质上，这项工作将模型复杂性和性能折衷为使模型的工作更加透明。相比之下，我们使现有的最先进的深层模型能够在不改变其架构的情况下进行解释，从而避免了可解释性与准确性之间的平衡。我们的方法是对CAM的推广[47]，适用于CNN模型系列的显著的更广泛的范围：（1）具有全连接层的CNN（例如VGG），（2）用于结构化输出（例如字幕）的CNN，（3）用于具有多模式输入（例如VQA）或强化学习任务的CNN，不需要架构变更或重新训练或任何辅助学习组件。

好的视觉解释由什么组成？考虑图像分类[9] – 在模型中一个用于证明任何目标类别的“良好”的视觉解释应该是（a）类别判别（即图像中的类别定位）和（b）高分辨率（即捕获细粒度细节）。

图1：（a）猫和狗的原始图像。（b-f）根据各种可视化方法对VGG-16和ResNet模型中的猫类的支持。（b）引导反向传播[42]：突出显示所有有贡献的特征。（c，f）Grad-CAM（Ours）：定位类别判别区域，（d）结合（b）和（c）给出的Guided Grad-CAM，其给出高分辨率类别判别可视化。有趣的是，我们的Grad-CAM技术实现的定位（c）与闭塞灵敏度（e）的结果非常相似，而计算量更少。（f，l）是对ResNet-18层的Grad-CAM可视化。注意在（c，f，i，l）中，红色区域对应于类别的高分，而在（e，k）中，蓝色对应于类别的证据。图最好看彩色的。

图1显示了来自'老虎猫'类（顶部）和'拳击手'（狗）类（底部）的大量可视化的输出。像素空间梯度可视化，如导向反向传播（Guided Backpropagation）[42]和反卷积（Deconvolution）[45]，就是有高分辨率并且在图像中突出细粒度细节，但没有类别判别（图1b和图1h非常相似）。

相反，像CAM这样的定位方法或我们提出的方法梯度加权类激活映射（Grad-CAM），具有很高的类别判别能力（图1c中'cat'解释仅仅强调了'猫'区域，而不是'狗'区域，反之亦然，如图1i）。

为了结合两者的优点，我们证明可以将现有的像素空间梯度可视化与Grad-CAM融合，以创建既有高分辨率又可以类别判别的Guided Grad-CAM可视化。结果，即使图像包含多个可能概念的证据，图像中与目标任何决定对应的重要区域也可以以高分辨率细节显现，如图1d和1j所示。当“虎猫”可视化时，引导式Grad-CAM不仅突出了猫的区域，而且突出了猫身上的条纹，这对于预测特定种类的猫是重要的。

总而言之，我们的贡献如下：

（1）我们提出Grad-CAM，这是一种类别判别的定位技术，可以从任何基于CNN的网络生成视觉解释，而不需要架构变更或重新训练。我们评估Grad-CAM的定位（第4.1节），和对模型的可信度（第5.3节），它在这方面优于基线。

（2）我们将Grad-CAM应用于现有的高性能的分类，captioning（7.1节）和VQA（7.2节）模型。对于图像分类，我们的可视化有助于识别数据集偏差（第6.2节），并为当前CNN的失败提供见解（第6.1节），表明那些看起来不合理的预测是具有合理的解释的。对于captioning和VQA，我们的可视化揭示了一些有点令人惊讶的见解，即常见的CNN + LSTM模型常常擅长定位判别性图像区域，尽管未经过基础的图像文本对的训练。

（3）我们可视化ResNets [16]应用于图像分类和VQA（7.2节）。从深层到浅层，随着我们遇到具有不同输出维数的层，Grad-CAM的判别能力显著降低。

（4）我们进行的试验（第5节）显示Guided Grad-CAM解释具有类别判别能力，不仅帮助人类建立信任，而且帮助未经训练的用户成功地从“较弱”的网络中辨别出“更强”的网络，即使他们都做出相同的预测。

2.相关工作

我们的工作借鉴了最近在CNN可视化，模型信任度评估和弱监督定位方面的工作。

可视化CNN。许多先前的作品[40,42,45,13]通过突出显示“重要”像素（即这些像素的强度变化对预测的分数有很大的影响）而使CNN预测可视化。具体而言，Simonyan等人 [40]将预测的类别分数w.r.t像素强度的偏导数可视化，而导向反向传播[42]和反卷积[45]对“原始”梯度进行修改，从而改进质量。这些方法在[30]中进行了比较。尽管产生了细粒度的可视化，但这些方法不具有类别判别能力。关于不同类别的可视化几乎完全相同（见图1b和1h）。

其他可视化方法合成图像以最大程度地激活网络单元[40,11]或反转潜在表示[31,10]。虽然这些可以是高分辨率，也可以进行类别判别，但它们可以对整个模型进行可视化，而不能预测特定的输入图像。

评估模型可信度。受可解释性概念[26]和评估模型[37]信任度的影响，我们通过人类研究以类似于[37]的方式评估Grad-CAM可视化，以表明它们可以成为用户在自动化系统中评估和放置信任度的重要工具。

弱监督定位。另一个相关的工作是在CNN中进行弱监督定位，其任务是仅使用整个图像类别标签对图像中的对象进行定位[7,33,34,47]。

与我们的方法最相关的是定位的类激活映射（CAM）方法[47]。这种方法修改了图像分类CNN架构，用卷积层和全局平均池化[25] 替换全连接层，从而实现类特定的特征映射。其他人则使用全局最大池化[34]和对数汇总池化（log-sum-exp pooling）[35]研究了类似的方法。

CAM的一个缺点是它要求特征映射直接在softmax层之前，所以它只适用于一种特殊类型的CNN体系结构，在即将进行预测之前在卷积映射上执行全局平均池化（即卷积特征映射→全局平均池化→softmax层）。在某些任务（例如图像分类）上，这种体系结构可能实现比一般网络更低的精度，或者可能简单地不适用于任何其他任务（例如图像描述生成或VQA）。我们引入了一种使用梯度信号组合特征映射的新方法，该方法不需要对网络架构进行任何修改。这使我们的方法可以应用于任何基于CNN的体系结构，包括图像描述生成和视觉问答。对于全卷积体系结构，Grad-CAM简化为CAM。因此，Grad-CAM是CAM的推广。

其他方法通过分类输入图像的扰动来进行定位。 Zeiler和Fergus [45]通过遮挡斑块和对遮挡图像进行分类来扰动输入，当这些对象被遮挡时，通常会导致相关对象的分类分数降低。这一原则适用于[4]中的定位。Oquab等人[33]对包含一个像素的许多补丁进行分类，然后对这些补丁的分类分数进行平均，以提供像素的分类分数。与这些不同，我们的方法实现了一次性定位;它只需要对每个图像有一个前向和一个部分后向传递，因此在一个数量级上通常它更有效。在最近的工作中，张等人[46]引入了对比边际获胜概率（c-MWP），一种概率Winner-Take-All公式，用于模拟可突出区分区域的神经分类模型的自上而下的注意力。这比Grad-CAM和CAM更慢，它只适用于图像分类CNN。此外，定量和定性结果比Grad-CAM更差（参见第4.1节和[38]）。

3.方法

以前的一些作品已经断言，CNN中的更深层次的表现可以捕捉到更高层次的视觉结构[5,31]。此外，卷积特征保留了在全连接层中丢失的空间信息，因此我们可以猜想最后的卷积层在高级语义和详细空间信息之间具有最佳折衷。这些图层中的神经元在图像中查找语义类特定的信息（比如对象部分）。Grad-CAM使用流入CNN最后一层卷积层的梯度信息来理解每个神经元对于目标决定的重要性。尽管我们的技术非常通用，并且可以用来可视化深层网络中的任何激活，但在这项工作中，我们专注于解释网络可能做出的决策。

图2：Grad-CAM概述：给定一个图像和一个目标类（例如，'虎猫'或任何其他类型的可微分输出）作为输入，我们将图像传播通过模型的CNN部分，然后通过特定任务的计算来获得该类别的原始分数。对于所有类，除了所需的类（虎猫）的梯度设置为1，其余的梯度设置为零。然后将该信号反向传播到所关注的整形卷积特征图，其中我们结合起来计算粗糙的Grad-CAM定位（蓝色热力图），它表明了模型需要看哪里去做出精确决定。最后，我们将热力图与导向反向传播逐点相乘，获得高分辨率和特定概念的Guided Grad-CAM可视化。

作为CAM的推广的Grad-CAM。

上面的推广也使我们能够从将卷积层级联成更复杂的相互作用的CNN模型生成视觉解释。事实上，我们将Grad-CAM应用于'超越分类'的任务，包括利用CNN进行图像描述生成和视觉问答（VQA）（第7.2节）的模型。

Guided Grad-CAM。尽管Grad-CAM可视化具有类别判别能力，并能很好地定位相关图像区域，但它们缺乏像像素空间梯度可视化方法（导向反向传播和反卷积）那样显示细粒度重要性的能力。例如在图1c中，Grad-CAM可以轻松定位猫区域；然而，从低分辨率的热力图上看，为什么网络预测这个特殊情况是“老虎猫”还不清楚。为了结合两者的最佳方面，我们通过逐点乘法（首先使用双线性插值对输入图像分辨率进行上采样）将导向反向传播和Grad-CAM可视化融合在一起。图2左下方说明了这种融合。这种可视化既有高分辨率（当目标类别是'老虎猫'，它识别重要的'老虎猫'的特征，如条纹，尖的耳朵和眼睛）又有类别判别能力（它显示'老虎猫'，但不是'拳击手（狗）'）。上面用反卷积代替引导反向传播给出了类似的结果，但是我们发现反卷积具有伪像（并且引导反向传播可视化通常较少噪声），所以我们选择了引导反向传播而不是反卷积。

4. 定位能力评估

4.1.弱监督定位

在本节中，我们将评估Grad-CAM在图像分类环境下的定位能力。 ImageNet定位挑战[9]要求竞争方法除了分类标签外还要提供边界框。与分类相似，对于前1类和前5类预测类别都进行评估。给定一个图像，我们首先从我们的网络中获得类别预测，然后为每个预测类别生成Grad-CAM图，并以15％的最大强度阈值进行二值化。这导致了连接的像素段，我们围绕单个最大的段绘制边界框。

我们评估了来自Caffe [19]模型动物园的预训练的VGG-16 [41]模型。在使用ILSVRC15评估之后，我们在表1中报告数据集的top-1和top-5定位误差。Grad-CAM定位误差显著低于c-MWP [46]和Simonyan等人[40] 对VGG-16模型所实现的误差，该模型使用grabcut将图像空间梯度后处理成热力图。Grad-CAM也实现了比CAM更好的top-1定位误差[47]，CAM需要改变模型架构，需要重新训练，从而导致更低的分类误差（top-1增加2.98％），而Grad-CAM 不影响分类性能。

表1：ILSVRC-15 val的分类和定位（越低越好）。

5. 可视化评估

我们的第一项人类研究评估了我们方法的主要前提：Grad-CAM可视化是否比以前的技术更具有类别判别能力？确定之后，我们转向了解是否可以让最终用户适当地信任可视化模型。对于这些实验，我们比较VGG-16和AlexNet CNNs，并将其用于PASCAL VOC2007火车集，并使用数据集生成可视化图。

5.1,评估分类判别能力

为了测量Grad-CAM是否有助于区分类别，我们从VOC 2007数据集中选择包含两个注释类别的图像，并为它们中的每一个创建可视化。对于VGG-16和AlexNet CNN，我们使用四种技术获得特定类别的可视化：反卷积，导向反向传播和每种这些方法的Grad-CAM版本（Deconvolution Grad-CAM和Guided Grad-CAM）。我们向亚马逊MechanicalTurk（AMT）上的43名工作人员展示可视化，并询问他们“图像中描述了哪两个对象类别？”，如图3所示。

图3：用于评估类别判别能力（左）和可信度（右）的不同可视化的AMT界面。 Guided Grad-CAM优于基准方法（导向反向传播和反卷积），表明我们的可视化更具类别判别能力，并有助于人们选择更精确的分类器。

直观地说，一个好的预测解释是为目标类别产生有区别的可视化。使用全部4个可视化对90个图像类别对（即360个可视化）进行实验；对每幅图像收集9个评级，根据实际情况进行评估并取平均值以获得准确性。当观察Guided Grad-CAM时，人类受试者可以在61.23％的病例中正确识别正在显现的类别（相比之下，导向反向传播为44.44％；因此，Grad-CAM将人类表现提高了16.79％）。同样，我们还发现Grad-CAM有助于使反卷积更具类别判别能力（从53.33％到61.23％）。Guided Grad-CAM在所有方法中表现最好。有趣的是，我们的结果似乎表明反卷积比导向反向传播更具有类别判别能力，但引导反向传播比反卷积更具美感。据我们所知，我们的评估是第一次量化这种微妙的差异。

5.2. 信任度评估

给出两个预测解释，我们评估哪些看起来更可信。我们使用AlexNet和VGG-16来比较引导反向传播和Guided Grad-CAM可视化，并指出，在对PASCAL进行分类上，VGG-16比AlexNet更可靠，精确度为79.09 mAP（vs. 69.20 mAP）。为了从可视化模型的准确性中分离出可视化的效果，我们只考虑那些两个模型都与地面事实做出相同预测的实例。从给出的AlexNet和VGG-16的一个可视化以及预测的对象类别中，指导54名AMT工作人员以显著更高/更不可靠（+/- 2），稍微可靠（+/- 1），同样可靠（0）这样的等级评估模型相对于彼此的可靠性。这个界面如图3所示。为了消除任何偏差，VGG和AlexNet被以几乎相等的概率分配为模型1。值得注意的是，我们发现，尽管有相同的预测，但人类受试者能够从不同的解释中识别出更精确的分类器（VGG 比AlexNet精确）。通过导向反向传播，人类将VGG的平均分数设为1.00，这意味着它比AlexNet更可靠，而Guided Grad-CAM得分更高，为1.27，这更说明了VGG显然更可靠。因此，我们的可视化可以帮助用户将信任置于可以更好地推广的模型中，只要基于单独的预测解释即可。

5.3.忠实性与可解释性

模型可视化的忠实性是它能够准确解释模型学到的功能的能力。当然，在可视化的忠实性与可解释性之间存在一种权衡：更忠实的可视化通常不太可解释，反之亦然。事实上，人们可能会争辩说，一个完全忠实的解释是对模型的整个描述，如果是深层模型就是不可解释/不易于可视化的。在之前的章节中我们已经验证了我们的可视化是合理的可解释的。我们现在评估他们对潜在模型的忠实性。一个期望是我们的解释应该是局部准确的，即在输入数据点附近，我们的解释应忠实于模型[37]。

为了比较，我们需要一个具有很高的局部可信度的参考解释。对这种可视化，一个直接的选择是图像遮挡[45]，我们测量输入图像的补丁被掩盖时CNN得分的差异。有趣的是，改变CNN得分的补丁，同时也是Grad-CAM和Guided Grad-CAM分配了高强度的补丁，在PASCAL 2007数据集超过2510张图像中得到的平均等级相关性为0.254和0.261（通过引导反向传播，c-MWP和CAM得到0.168,0.220和0.208）。这表明，与所有现有方法相比，Grad-CAM可视化对原始模型更忠实。通过定位实验和人类研究，我们发现Grad-CAM可视化更具可解释性，通过与遮挡图的相关性，我们可以看到Grad-CAM更加忠实于模型。

6.诊断图像分类CNN

6.1.分析VGG-16的故障模式

图4：在这些情况下，模型（VGG-16）未能预测出其前1（a和d）和前5（b和c）预测中的正确类别。人类发现不看可视化的预测的类别很难解释这些预测。但是对于Grad-CAM，这些错误似乎是合理的。

我们使用Guided Grad-CAM来分析在ImageNet分类中VGG-16 CNN的失效模式[9]。为了查看网络正在发生什么错误，我们首先得到一个网络（VGG-16）无法正确分类的例子列表。对于错误分类的例子，我们使用Guided Grad-CAM将正确的和预测的类别可视化。Guided Grad-CAM可视化优于其他允许进行此分析的方法的一个主要优点是其高分辨率和高类别判别能力。如图4所示，某些故障是由于ImageNet分类中固有的模糊性造成的。我们还可以看到，看似不合理的预测是有合理的解释的，这也是HOGgles [44]中的一个观察结果。

6.2,识别数据集中的偏差

在本节中，我们将演示Grad-CAM的另一种用法：识别并减少训练数据集中的偏差。有偏差的数据集训练的模型可能不会推广到现实世界的场景，或者更糟糕，可能使偏见和刻板观念（w.r.t，性别，种族，年龄等）长期存在。我们将微调的ImageNet训练的VGG-16模型用于“医生”与“护士”的分类任务。我们使用流行的图像搜索引擎中的前250个相关图像（针对每个类）构建我们的训练数据集。虽然训练好的模型达到了很好的验证准确性，但它并没有被推广（82％）。

模型预测的Grad-CAM可视化表明，该模型学会了看人的面部/发型以区分护士和医生，从而学习了性别的刻板观念。事实上，这个模型把几名女医生错误地归类为护士，男护士分类成医生。显然，这是有问题的。结果发现图像搜索结果存在性别偏见（78%的医生图像是男性，93%的护士图像是女性）。

通过从我们的可视化中获得的直观结果，我们通过将男护士和女医生添加到训练集中，减少了训练集中的偏差，同时保持每个类跟之前是相同数量的图像。重新训练的模型现在更好地推广到更平衡的测试集（90％）。对两种模型的Grad-CAM可视化的附加分析可以在[38]中找到。该实验表明，在社会中做出更多算法决策的时候，Grad-CAM可以帮助检测和消除数据集中的偏见，这不仅对于泛化非常重要，而且对于公平和道德的结果也很重要。

7.图像标题和VQA

最后，我们将Grad-CAM技术应用于图像标题[6,21,43]和视觉问题应答（VQA）[3,14,32,36]任务。我们发现Grad-CAM导致这些任务的解释性视觉解释与基准视觉化相比，这些视觉化在不同的预测中并没有明显改变。请注意，现有的可视化技术或者不是类别判别（导向反向传播，反卷积），不能用于这些任务或体系结构，或者两者兼而有之（CAM或c-MWP）。

7.1.图像标题

在本节中，我们使用Grad-CAM可视化图像描述生成模型的空间支持。我们在公众可用的neuraltalk22实现[23]之上构建Grad-CAM，该实现使用一个fi网络化的VGG-16 CNN用于图像和一个基于LSTM的语言模型。请注意，该模型没有明确的注意机制。给定一个标题，我们计算其对数概率w.r.t的梯度。单位在CNN的最后一个卷积层（VGG16的conv5_3），并生成第3部分描述的Grad-CAM可视化。参见图5a。在第一个例子中，生成字幕的Grad-CAM地图将风筝和人物的每一次出现都定位，尽管它们的尺寸相对较小。在下一个例子中，请注意Grad-CAM如何正确突出披萨和男人，但忽略了附近的女人，因为在标题中没有提到“女人”。更多的定性例子可以在[38]中找到。

比较密集字幕。Johnson等人[21]最近引入了密集字幕（DenseCap）任务，该任务要求系统共同定位和标注给定图像中的显著区域。他们的模型由完全卷积定位网络（FCLN）和基于LSTM的语言模型组成，该模型在单个正向传递中为感兴趣区域和相关联的字幕生成边界框。使用DenseCap，我们为每个图像生成5个区域特定的标题和相关的地面实际边界框。全图像描述生成模型（neuraltalk2）应该在其生成的框内定位一个标题，如图5b所示。我们通过计算箱子内部与外部的平均激活比率来衡量这一点。比例越高越好，因为它表示更加关注生成该字幕的地区。统一地突出显示整个图像的基线比率为1.0，而Grad-CAM达到3.27±0.18。添加高分辨率细节可提高2.32±0.08（导向式反向传播）的基线和6.38±0.99处的最佳定位（引导式Grad-CAM）。这意味着Grad-CAM定位对应于DenseCap模型描述的图像中的区域，即使整体字幕模型没有使用任何区域或边界框级别注释进行训练。

7.2.视觉问答

典型的VQA管线[3,14,32,36]由CNN模型图像和RNN语言模型组成。图像和问题表示融合在一起来预测答案，通常采用1000路分类。由于这是一个分类问题，我们选择一个答案（（3）中的分数yc）并使用它的分数计算Grad-CAM，以显示支持答案的图像证据。尽管任务复杂，涉及视觉和语言两个组成部分，但图6中描述的（来自[28]的VQA模型的解释）令人惊讶地直观且信息丰富。我们通过与遮挡贴图相关来量化Grad-CAM的性能，如5.3节所述。 Grad-CAM达到0.60±0.038的等级相关性（具有遮挡图），而导向反向传播达到0.42±0.038，表明我们的Grad-CAM可视化具有更高的忠诚度。

与人类关注的比较。 Das等人 [8]为VQA数据集的一个子集收集人类关注图[3]。这些地图具有很高的强度，人类在图像中查看以回答视觉问题。使用[8]中开发的等级相关评估协议，将来自[28]的1374 val问题图像（QI）对的人类关注图与来自[28]的VQA模型的Grad-CAM可视化进行比较。 Grad-CAM和人类关注地图的相关系数为0.136，统计上高于机会或随机关注地图（零相关）。这表明尽管未接受基于图像文本对的训练，即使基于CNN + LSTM的非基于注意力的VQA模型在定位输出特定答案所需的区分区域方面也出人意料地出色。

图5：解释图像描述生成模型：我们使用我们的类别判别定位技术Grad-CAM为图像中的字幕找到空间支持区域。图5a来自图像描述生成模型的视觉解释[23]突出显示被认为对于产生字幕重要的图像区域。图5b对于由左侧标记的三个边界框提案的密集字幕模型[21]生成的字幕的全局或整体字幕模型的Grad-CAM定位。我们可以看到，即使字幕模型和Grad-CAM技术不使用任何边界框注释，我们还是会返回与边界框一致的Grad-CAM定位（右）。

图6：我们的VQA实验的定性结果：（a）给出左侧的图像和“什么颜色是纤维素？”的问题，我们将Grad-CAM和GuidedGrad-CAM视为“红色”，“黄色“和”黄色和红色“，Grad-CAM可视化具有高度的可解释性，并有助于解释任何目标预测 - 对于”红色“，模型侧重于红色的黄色部分;当被迫回答”黄色“时，模型集中在顶部黄色的帽子上，当被迫回答“黄色和红色”时，它会看到整个薄水壶！（b）即使对于复杂的模型，我们的方法也能够提供可解释的解释。

关注基于ResNet的VQA模型的可视化。 Lu等人 [29]使用200层ResNet [16]对图像进行编码，并共同学习问题和图像的层次关注机制。图6b显示了该网络的Grad-CAM可视化。当我们对ResNet的更深层次进行可视化时，我们发现Grad-CAM中大部分相邻层次的微小变化以及涉及降维的层次之间的较大变化。 ResNet中各层的可视化可以在[38]中找到。据我们所知，我们是第一个可视化基于ResNet架构的决策。

8.结论

在这项工作中，我们提出了一种新颖的类别判别定位技术-梯度加权类激活映射（Grad-CAM）-通过生成视觉解释来使任何基于CNN的模型更加透明。此外，我们将我们的Grad-CAM定位与现有的高分辨率可视化相结合，以获得高分辨率的类别判别式引导渐变CAM可视化。我们的可视化在两个方面都优于所有现有的方法：可解释性和对原始模型的忠实度。大量的人体研究表明，我们的可视化可以更准确地区分类，更好地揭示分类器的可信度，并帮助识别数据集中的偏差。最后，我们展示了Grad-CAM广泛适用于各种现成可用架构，其中包括图像分类，图像描述生成和VQA等任务，它可以为可能的模型决策提供可信的视觉解释。我们相信，一个真正的AI系统不仅应该是聪明的，而且能够推断它的信念和行动，以便人类相信它。未来的工作包括解释深层网络在强化学习，自然语言处理和视频应用等领域的决策。