CAM（Class Activation Mapping）通俗篇

最新推荐文章于 2024-07-15 13:57:32 发布

与贰

最新推荐文章于 2024-07-15 13:57:32 发布

阅读量2.9w

点赞数 16

分类专栏：各种各样的网络文章标签： GAP CAM

本文链接：https://blog.csdn.net/weixin_40955254/article/details/81191896

版权

CAM（Class Activation Mapping）是一种利用卷积神经网络（CNN）进行图像定位的技术，通过Global Average Pooling（GAP）替代全连接层以保留空间信息。文章通过实例解释了如何使用CAM在分类任务中识别影响结果的关键区域，如刷牙图片中的嘴和牙刷。预训练模型是应用CAM的前提，不同基模型会得到不同大小的特征图，可能需要resize。虽然Max Pooling也可用于CAM，但Average Pooling能更好地标识关键区域，适合于定位任务。

摘要由CSDN通过智能技术生成

在Learning Deep Features for Discriminative Localization这篇文章中，作者提出了CNN网络除了具有很强的图片处理，分类能力；同时还能够针对图片中的关键部分进行定位，这个过程被称为Class Activation Mapping，简称CAM。

那么什么叫做CAM呢，如下图所示，第一组输入图片，训练的标签式刷牙，那么通过based model+CAM之后，我们可以得到如下图第二行所示的热度图，在对最后结果影响比较大的地方生成的热度就比较高，我们可以看到在这两张图片中对于嘴以及牙刷的热度都比较高，我们可以得出这两个部分对于最后刷牙的结果有着比较大的影响。对于第三列和第四列的结果，我就不多描述了，很好懂。

下面就来讲讲CAM的网络架构，如下图所示。输入一张图片，然后进过CNN网络提取出许多feature map，每个fearure map都能够表示出整个网络的部分特征。这里的CNN网络可以使用VGG啊，或者google net系列的例如inception等等，但是有这样一个问题，我们认为feature map还保留着图片的空间信息，这也是为什么最后通过ifeature map的叠加可以得到class activation map的原因。而通常的网络中会选择全连接层进行图片特征图向特征向量的转换在这个转换过程中就会丢失空间信息。

所以文中采用global average pooling（GAP）来代替fully connected。然后将生成的这个值，最后通过一个全连接层实现相应的分类结果&