Grad-CAM: Visual Explanations from Deep Networks via Gradient-based Localization

最新推荐文章于 2022-12-20 00:51:09 发布

丽宝儿

最新推荐文章于 2022-12-20 00:51:09 发布

阅读量1.4k

点赞数 2

分类专栏： CNN可视化

本文链接：https://blog.csdn.net/heruili/article/details/90368529

版权

iccv2017 通过基于梯度的定位，从深层网络进行可视化解释
这篇文章其实是CAM的进化版，主要是为了解决CNN模型的不可见问题，CAM论文中通过Class Activation Mapping技术将模型中感兴趣的区域用热力图的方式区分出来。作者在这篇文章中提出了一个新的概念，叫做Grad-CAM，全称Gradient-weighted Class Activation Mapping。与CAM不同的是，文章使用了感兴趣、或者说是可指定类的梯度去指明了CNN模型是通过原图中的哪一部分区域得到这个分类结果，并且这个方法可以很方便的扩展到目前的任意一个训练完好的CNN模型中。通过合并Guided Backpropagation的结果，Grad-CAM还可以做到更细粒度的可视化分析，解释了为什么模型将原图分类到某一类的结果。Grad-CAM可以很方便的推广到图像分类、图像描述和视觉问答等任务的可视化分析中。

Introduction
目前CNN在图像分类、检测和分割任务中广泛使用并且被证明具有极高的实用价值，但是关于CNN结构的可解释性，一直没有一个比较好的结果。传统方法中每一部分的模型都是手工设计的算子，它们都是基于研究人员的经验和想法很直观的设计得到的，具有较高的解释性，但是在CNN模型中，深层模型和自学习的参数使得模型的解释性变弱甚至于很难解释，因此，找到CNN模型的可解释性依据是什么重要的。

早一点的时候，CAM这篇文章受NIN结构的启发，将网络最后的全连接层替换成GAP（global average pooling），然后设置最后一层卷积层的输出通道与待分类的类别数相同，这样训练出来的网络，针对每一个类别都有与卷积输出通道数维度相同的一维向量表示权值，通过加权累加可以得到解释性区域，我们称之为Class Activation Mapping。