类激活映射 CAM（Class Activation Mapping）

最新推荐文章于 2024-04-16 22:39:44 发布

lolisky

最新推荐文章于 2024-04-16 22:39:44 发布

阅读量1.5k

点赞数 2

文章标签：深度学习 cnn 神经网络

本文链接：https://blog.csdn.net/lolisky/article/details/129031723

版权

文章介绍了弱监督语义分割中利用图像级标签进行对象定位的方法，重点讨论了类激活映射(CAM)技术，包括其起源、原理和作用。CAM是由周博磊在2016年提出的，它通过全局平均池化层和全连接层保留CNN的定位特性，生成可视化热力图，显示网络关注的图像区域。尽管CAM在弱监督目标定位中有显著效果，但它主要关注最具辨别度的区域，不能全面覆盖目标，后续研究致力于解决这一问题。

摘要由CSDN通过智能技术生成

上文说到弱监督语义分割使用图像级标签来定位图像中的对象。
其中，一些先前的研究已经提出了应用类激活映射的技术。无论是CAM、Grad-CAM还是Score-CAM，它们都遵循类似的pipeline来生成CAM。

CAM

什么是CAM？

简而言之，就是一个帮助我们可视化CNN的工具。使用CAM，我们可以清楚的观察到，网络关注图片的哪块区域。

提出

这项技术由周博磊在2016年的 CVPR 提出，作者发现了即使在没有定位标签的情况下训练好的 CNN 中间层也具备目标定位的特性，但是这种特性被卷积之后的向量拉伸和连续的全连接层破坏，但若是将最后的多个全连接层换成了全局平均池化层 GAP 和单个后接 Softmax 的全连接层，即可保留这种特性。同时，经过简单的计算，可以获取促使 CNN 用来确认图像属于某一类别的具有类别区分性的区域，即 CAM。

原理

使用论文中的话来说，类激活图仅仅是在不同空间位置处存在这些视觉图案的加权线性和。通过简单地将类激活映射上采样到输入图像的大小，我们可以识别与特定类别最相关的图像区域。如果把这段话翻译成数学语言，就是如下的公式。
在这里插入图片描述
最终 CAM 的值越大，表示对分类贡献度越高：如下图最后一幅图的热力图红色区域表示 CAM 值最大，也正是澳洲犬脸部区域。

上图网络是一个基于分类训练的CNN网络，最左边是输入，中间是很多卷积层，在最后一层卷积层之后接的是全局平均池化层（GAP），最后接一层softmax，得到输出。

GAP就是把特征图转换成特征向量，每一层特征图用一个值表示，所以如果这个特征图的深度是3（红绿蓝），那么这个特征向量的长度就是3。我们的输出是Australian terrier。我们用Australian terrier这个类对应的权重乘上特征图对应的层，用热力图归一化，即下面一排热力图：W1蓝色层+W2红色层+…+Wn*绿色层=类激活映射（CAM）。

所以说CAM是一个加权线性和。通常来说，最后一层卷积层的大小是不会等于输入大小的，所以我们需要把这个类激活映射上采样（通过暴力上采样实现）到原图大小，再叠加在原图上，就可以观察到网络得到这个输出是关注图片的哪个区域了。这也就是说可以是任意输入图片的大小和卷积层的深度。