卷积神经网络可视化与解释性算法：CAM、GradCAM及其变种-CSDN博客

本文链接：https://blog.csdn.net/qq_46676829/article/details/126711436

池化（最大池化，平均池化，全局平均池化【GAP】）的作用：正则化（防止过拟合，降低维度，保留主要特征的同时减少计算量，减少了参数数量）
使用GAP来代替FC，优点是最小化参数数量的同时保持高性能，结构变得简单，也避免了过拟合。但是缺点是和FC相比，GAP收敛速度较慢。
GAP实现的功能：（把特征图转换成特征向量，每一层特征图用一个值表示，所以如果这个特征图的深度是512，那么这个特征向量的长度就是512）
GAP的另外一个作用：能保留空间信息并且定位（localization），尽管在图像级标签上进行了训练，它仍能够区分判别图像区域。并且在许多任务中它都可以定位判别图像区域，尽管只是训练基于解决分类任务。
CAM是什么？：CAM是一个帮助我们可视化CNN的工具。使用CAM，我们可以清楚的观察到，网络关注图片的哪块区域。
CAM的缺陷：首先我们必须改变网络结构，例如把全连接层改成全局平均池化层，这不利于训练。第二是这是基于分类问题的一种可视化技术，用于回归问题可能就没有这么好的效果。
CAM的应用：发现场景中有用的物体在弱标记图像中定位比较抽象的概念、弱监督文字检测，它可以关注文字部分即使网络没有训练过文字或者任何注释框、帮助我们发现问题，改进结构
总结：CAM使得弱监督学习发展成为可能，可以慢慢减少对人工标注的依赖，能降低网络训练的成本。通过可视化，就像往黑箱子里打了一个手电筒，让人们可以尝试去理解网络。

类激活映射（Class Activation Mapping,CAM 方法在现在看来可能存在着各种问题，但是其作为该类显著性图算法的“开山之作”，其思想影响了后续诸多方法的产生。本文将在CAM的基础上，介绍的GradCAM, GradCAM++, LayerCAM。

方法介绍

CAM以及在此基础上衍生出来的GradCAM, GradCAM++等等都是属于显著性图可解释性算法，因此这类算法只能应用在图像的问题上，或者说是专门为**卷积神经网络(CNN)**设计的一类可解释性算法。该类算法利用神经网络的特征图(feature map)得到原图各个部分的重要性，具体来说就是为特征图赋予不同的权重来获得显著性图。

大体的思路如上述公式所示，其中，是第c类i,j坐标处的显著性图，是c类第k张特征图的权重，是第k张特征图i,j处的值。各类算法的主要区别体现在算法权重的获取上，其余部分的差异在后文中讲解。这类算法在实现的过程中需要用到梯度的计算，因此如果使用pytorch实现，需要借助pytorch hook机制。

CAM

在CAM中，作者认为全局平均池化层具有局部定位能力，将卷积网络后的原本的池化层和全连接层改为全局平均池化和全连接层（这里全连接层神经元数和模型类别数相同），重新训练训练模型获得权重，将深层特征图加权求和获得显著性图，为卷积神经网络的可解释性提供了全新的思路。以CAM为基础，为了不需要修改模型结构，根据是否使用梯度计算权重发展出两个类别，使用梯度的方法如GradCAM、GradCAM++、LayerCAM等，而不使用梯度的算法有诸如AblationCAM和ScoreCAM。本文主要介绍使用梯度的算法。