CAM[CVPR16]+Grad-CAM[ICCV17]

最新推荐文章于 2022-12-18 00:32:36 发布

mutou_cly

最新推荐文章于 2022-12-18 00:32:36 发布

阅读量419

点赞数

分类专栏： CV

本文链接：https://blog.csdn.net/mutou_cly/article/details/100278156

版权

CV 专栏收录该内容

8 篇文章 0 订阅

订阅专栏

CAM

paper:Learning Deep Features for Discriminative Localization

本文的出发点是为了神经网络的可解释性，即高亮出神经网络的激活区域。可用于object detection(location)。

CAM framework
给定任意一个网络结构(分类网络)。CAM的做法

将网络结构的最后一层删去，设删去后得到的是 $(w, h, n)$ 的特征图。
使用全局平均池化得到 $n$ 个值，对应图中蓝色，红色…，绿色的节点值
使用全连接层得到 $C$ 个输出， $C$ 为类别个数
重新训练/fine tune网络至收敛
指定要激活的类别 $X$ 。将FC层的权重， $K$ X $C$ 大小的矩阵中的第 $X$ 列(设值为 $w_1,w_2...w_n$ )，直接与特征图进行点乘后相加，相加后得到一张对应类别的 $X$ 的特征层激活图，将其双线性插值回原图大小，设置阈值得到对应类别在原图中的位置(激活的高亮区域)。

Grad-CAM

paper:Grad-CAM:Visual Explanations from Deep Networks via Gradient-based Localization Ramprasaath

先验知识：

paper :STRIVING FOR SIMPLICITY:THE ALL CONVOLUTIONAL NET

卷积逆向推导分类
如上图所示， $f_i^{l}$ 表示第 $l$ 层的特征图的位置 $i$ 的值， $f_{i}^{l+1}=relu(f_{i}^{l})$ 。 $R_{i}^l$ 表示第 $l$ 层的特征图的位置 $i$ 的梯度值。 $R_{i}^{l+1}$ 同理。
卷积的逆向推导常见的有三种

普通的反向传播，用于调整权重大小，由于激活函数的影响，反向传播只将返回 $f_i^l$ 值为正数的位置的梯度值。
反卷积，类似于将relu作用于梯度的反向传播，即将 $R_{i}^{l+1}$ 值为正数的位置传播。
引导反向传播，可以看作前两者的交集，只有位置 $i$ 满足 $f_i^l$ 和 $R_{i}^{l+1}$ 都为正数时才更新梯度值。

对指定的类别 $C$ 进行引导反向传播至原图(第一层)，会发现原图中激活的区域是纹理复杂的区域，但是遗憾的是并不是只有类别 $C$ 所在的区域得到激活。如下图所示

对猫或者狗进行引导反向传播，激活的区域都不限于猫或者狗。也就是说，引导反向传播告诉了我们——神经网络在判定图中是否存在猫的时候看了哪些区域(既看了狗的位置又看了猫的位置)，但是并没有告诉我们如何进一步筛选过滤。

framework of Grad-CAM

framework of Grad-CAM
Grad-CAM与CAM在功能性上的区别

不需要对网络结构进行更改并且重新训练
不仅限于图像识别任务的可视化，可以用于Caption/Question Answer等任务的可视化
性能相较于CAM有所提升(比如都用于weakly supervised object detection)

Grad-CAM的处理过程

取模型中的最后的卷积层的特征图(允许后面还有FC，LSTM等结构)，设其为 $(w, h, n)$ 。计算对应类别 $C$ 的梯度，第 $n$ 张特征图，位置 $(w, h)$ 处的梯度值记为 $A_{w,h,n}^C$ 。(使用的就是普通的反向传播)
对于 $n$ 张特征图的梯度进行全局平均池化，得到 $n$ 个梯度值，对应图中的 $w_1^c$ ， $w_2^c$ ，…， $w_n^c$ 。
将得到的 $w$ 与特征图进行对应相乘后相加，融合得到一张Grad-CAM的结果。 $\sum_{i=1}^n w_i*f^l$
对图像进行对应类别的引导反向传播至原图。得到上文说到的类别区分度不高的纹理激活图。
将Grad-CAM进行双线性插值得到原图大小后，与引导反向传播的结果进行点乘运算，得到最终的Guided Grad-CAM。

Grad-CAM的思路

使用特征图上梯度的均值作为改特征图的权重 $w$ ，以此代替CAM中训练得到的权重。
经过第一步其实实验的效果就与CAM相近了，作者再次基础上在结合了引导反向传播进一步优化了结果。其实也可以仿照此得到Guided CAM。

mutou_cly

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
CAM[CVPR16]+Grad-CAM[ICCV17]

CAMpaper:Learning Deep Features for Discriminative Localization本文的出发点是为了神经网络的可解释性，即高亮出神经网络的激活区域。可用于object detection(location)。给定任意一个网络结构(分类网络)。CAM的做法将网络结构的最后一层删去，设删去后得到的是(w,h,n)(w,h,n)(w,h,n)...
复制链接

扫一扫