《Python深度学习》第五章-6（可视化类激活图）读书笔记

最新推荐文章于 2023-09-07 07:40:20 发布

Paul-Huang

最新推荐文章于 2023-09-07 07:40:20 发布

阅读量1.3k

点赞数 3

分类专栏： Python学习文章标签： python 人工智能计算机视觉神经网络深度学习

本文链接：https://blog.csdn.net/huang1024rui/article/details/119221011

版权

Python学习专栏收录该内容

21 篇文章 13 订阅

订阅专栏

《Python深度学习》第五章-6（可视化类激活图）读书笔记

卷积神经网络学到的表示非常适合可视化，很大程度上是因为它们是 $\color{red}视觉概念的表示$ 。接下来介绍3种可视化方法。

$\color{blue}事中$ ： $\color{red}可视化卷积神经网络的中间输出（中间激活）$ ：有助于理解卷积神经网络连续的层如何对输入进行变换，也有助于初步了解卷积神经网络每个过滤器的含义。
$\color{blue}事前$ ： $\color{red}可视化卷积神经网络的过滤器$ ：有助于精确理解卷积神经网络中每个过滤器容易接受的视觉模式或视觉概念。
$\color{blue}事后$ ： $\color{red}可视化图像中类激活的热力图$ ：有助于理解图像的哪个部分被识别为属于某个类别，从而可以定位图像中的物体。

5.4.3 可视化类激活的热力图

在这里插入图片描述

5.4.3.1 类激活热力图的相关定义

What ?——什么是类激活热力图的可视化?
- 类激活图(Class activation map，简称CAM），指 $\color{red}对输入图像$ 生成类激活的热力图。它是 $\color{red}与特定输出类别$ 相关的 $\color{red}二维特征分数网格$ ， $\color{red}网格每个位置表示对该类别的重要程度$ 。
- 对于一张输入到CNN模型且被分类成 $\color{blue}"狗"$ 的图片，该技术 $\color{red}可以以热力图形式告诉我们图片中的每个位置$ 与 $\color{blue}"狗"$ 类的 $\color{red}相似程度$ 。
Why ?——为什么使用类激活热力图的可视化?
有助于了解一张原始图像的哪一个局部 $\color{red}位置$ 让CNN模型做出了最终的 $\color{red}分类决策$ 。
How ?——如何实现类激活热力图的可视化?
- 来自佐治亚理工、脸书AI研究团队的Ramprasaath R.Selvaraju等人于2017年ICCV发表的《 $\color{red}Grad-CAM$ : visual explanations from deep networks via grtadient based localization》,提出了一种可视化类激活热力图的解决方案。
- 论文地址:http://openaccess.thecvf.com/contentICCV_20l7/papers/SelvarajuGrad-CAM_Visual_ExplanationsICCV_20l7-paper.pdf
举例说明
- 促使模型对左图做出自行车分类预测的主要特征区域集中在车把手。
- 促使模型对左图做出棒球棒分类预测的主要特征区域集中在棒腹部。

5.4.3.2 类激活热力图的基本解决思路

Grad-CAM基本原理（可以概括为 $\color{red}3个变量$ + $\color{red}2种运算$ ）
- 给定一张输入图像，对于一个 $\color{red}卷积层的输出特征图$ ，用 $\color{red}类别$ 相对于 $\color{red}通道$ 的 $\color{blue}梯度$ 对这个特征图中的每个通道进行 $\color{blue}加权$ 。
- 以VGG16模型为例
简要概括“ $\color{red}3个变量$ + $\color{red}2种运算$ ”
- $\color{red}3个变量$ ：
  - 卷积层输出特征,conv-layer.output
  - 卷积层输出特征中的每个通道,conv-layer.output[i]
  - 特定输出类别,model.output[i]
- $\color{red}2种运算$ ：
  - 求梯度，K.gradients(y,x), K.mean(gradients)
  - 乘梯度，conv-layer.outputL[i]* gradients

5.4.3.3 类激活热力图的任务流

在这里插入图片描述

基本步骤
- $\color{red}step\;1 \;指定入$ ：指定一张待分类图片输入到模型并预处理
- $\color{red}step\;2\;求梯度$ ：获取模型输出相对于最后一卷积层激活输出的梯度
```
k.gradients(模型输出,最后一个卷积层激活输出)
k.function(模型输入,（梯度均值,最后一个卷积层激活输出））
```
- $\color{red}step\;3\;乘梯度$ ：表征出最后卷积层激活输出各点位对模型决策分类的重要程度,并进行预处理,记得到类激活图
```
最后一个卷积层输出 *= 梯度均值
再求均值
```
- $\color{red}step\;4\;染画布$ ：将调节后的卷积激活输出渲染为热力效果
```
cv2.applyColorMap
```
- $\color{red}step\;5可视化$ ：将原始图像与渲染后的热力图叠加后再可视化
步骤图形化

5.4.3.4 类激活热力图的代码

步骤： $\color{red}指定入-->定损数-->求梯度-->乘梯度-->染画布-->可视化$

$\color{red}指定入$

from tensorflow.keras.applications.vgg16 import VGG16
from tensorflow.keras import backend as K
K.clear_session()
# 特别注意，在之前的实验中，我们都把顶层的分类器丢弃掉了，include_top = False
## 加载预训练模型
model = VGG16(weights='imagenet')

## 加载指定分类图片
from tensorflow.keras.preprocessing import image
from tensorflow.keras.applications.vgg16 import preprocess_input, decode_predictions
import numpy as np

# The local path to our target image
img_path = 'C:\\Users\\Administrator\\HQR_Python_learning\\creative_commons_elephant.jpg'

## 图片预处理
# `img` is a PIL image of size 224x224
img = image.load_img(img_path, target_size=(224, 224))

# 一转，`x` is a float32 Numpy array of shape (224, 224, 3)
x0 = image.img_to_array(img)

# 二扩，We add a dimension to transform our array into a "batch"
# of size (1, 224, 224, 3)
x1 = np.expand_dims(x0, axis=0)

# 三标，Finally we preprocess the batch
# (this does channel-wise color normalization)
x = preprocess_input(x1)

预测图片分类

>>>preds = model.predict(x)
>>>print('Predicted:', decode_predictions(preds, top=3)[0])
Predicted: [('n02504458', 'African_elephant', 0.909421), ('n01871265', 'tusker', 0.086182885), ('n02504013', 'Indian_elephant', 0.0043545826)]

$\color{red}求梯度$

import tensorflow as tf
tf.compat.v1.disable_eager_execution()

#获取非洲象预测输出
african_elephant_output = model.output[:,386]

#获取最后一个卷积层激活输出
last_conv_layer = model.get_layer('block5_conv3')
#求模型输出针对最后一个卷积层激活输出的梯度
#非洲象类别相对于 block5_conv3输出特征图的梯度
# grad is (None,14,14,512)
grads= K.gradients(african_elephant_output,
					last_conv_layer.output)[0]
# 均值化处理梯度
# 形状为 (512,) 的向量，每个元素是特定特征图通道的梯度平均大小
pooled_grads = K.mean(grads, axis=(0,1, 2))

#建立模型输出、最后一个卷积层激活输出、梯度均值三者之间的函数关系
#访问刚刚定义的量：对于给定的样本图像，pooled_grads 和 block5_conv3 层的输出特征图
# model.input:(None, 224, 224, 3);last_conv_layer.output[0]:(14, 14, 512)
iterate =K.function([model.input], [pooled_grads,last_conv_layer.output[0]])
# pooled_grads:(512,);conv_layer_output_value:(14, 14, 512)
pooled_grads_value,conv_layer_output_value =iterate([x])

$\color{red}乘梯度$

import matplotlib.pyplot as plt
for i in range(512):
    # conv_layer_output_value[:, :, i]:(14*14);pooled_grads_value[i]:()
    conv_layer_output_value[:, :, i] *= pooled_grads_value[i]

# 得到的特征图的逐通道平均值即为类激活的热力图
# heatmap:(14*14)
heatmap = np.mean(conv_layer_output_value, axis=-1)
# 为了将热力图可视化，去除所有负数
heatmap = np.maximum(heatmap, 0)
# 归一化处理
heatmap /= np.max(heatmap)
# 展现
plt.matshow(heatmap)

在这里插入图片描述

$\color{red}染画布、可视化$
安装cv2：

pip install opencv-python （如果只用主模块，使用这个命令安装）
pip install opencv-contrib-python （如果需要用主模块和contrib模块，使用这个命令安装）

import cv2
# 用 cv2 加载原始图像
# img:(600, 899, 3)
img = cv2.imread(img_path)
# 将热力图的大小调整为与原始图像相同
#heatmap为[0,1]之间的浮点数，特别注意：cv2.resize(img, (x轴向长度，y轴向长度))
# heatmap:(600, 899, 3)
heatmap = cv2.resize(heatmap, (img.shape[1], img.shape[0]))
# 将热力图应用于原始图像
heatmap = cv2.applyColorMap(heatmap, cv2.COLORMAP_JET)
# 将热力图转换为 RGB 格式
heatmap = np.uint8(255 * heatmap)
# 将热力图与原始图像叠加,0.5表示渲染强度，
# 有超出(0,255）范围的,如果需要可视化,则需要clip裁剪
superimposed_img = heatmap * 0.5 + img
cv2.imwrite('C:\\Users\\Administrator\\HQR_Python_learning\\elephant_cam.jpg', superimposed_img)

在这里插入图片描述

通过梯度类激活热力图可以看到“非洲象”分类决策依据主要来自于图片中象的鼻部、嘴部、眼部、耳部等面部区域。

总结

各个丈量的含义
这种可视化方法回答了两个重要问题:
- $\color{red}网络为什么会认为这张图像中包含一头非洲象$ ?
- $\color{red}非洲象在图像中的什么位置$ ?

整体代码

## 指定入
from tensorflow.keras.applications.vgg16 import VGG16
from tensorflow.keras import backend as K
K.clear_session()
# 特别注意，在之前的实验中，我们都把顶层的分类器丢弃掉了，include_top = False
## 加载预训练模型
model = VGG16(weights='imagenet')

## 加载指定分类图片
from tensorflow.keras.preprocessing import image
from tensorflow.keras.applications.vgg16 import preprocess_input, decode_predictions
import numpy as np

# The local path to our target image
img_path = 'C:\\Users\\Administrator\\HQR_Python_learning\\creative_commons_elephant.jpg'

## 图片预处理
# `img` is a PIL image of size 224x224
img = image.load_img(img_path, target_size=(224, 224))

# 一转，`x` is a float32 Numpy array of shape (224, 224, 3)
x0 = image.img_to_array(img)

# 二扩，We add a dimension to transform our array into a "batch"
# of size (1, 224, 224, 3)
x1 = np.expand_dims(x0, axis=0)

# 三标，Finally we preprocess the batch
# (this does channel-wise color normalization)
x = preprocess_input(x1)

## 求梯度
import tensorflow as tf
tf.compat.v1.disable_eager_execution()

#获取非洲象预测输出
african_elephant_output = model.output[:,386]

#获取最后一个卷积层激活输出
last_conv_layer = model.get_layer('block5_conv3')
#求模型输出针对最后一个卷积层激活输出的梯度
#非洲象类别相对于 block5_conv3输出特征图的梯度
# grad is (None,14,14,512)
grads= K.gradients(african_elephant_output,
					last_conv_layer.output)[0]
# 均值化处理梯度
# 形状为 (512,) 的向量，每个元素是特定特征图通道的梯度平均大小
pooled_grads = K.mean(grads, axis=(0,1, 2))

#建立模型输出、最后一个卷积层激活输出、梯度均值三者之间的函数关系
#访问刚刚定义的量：对于给定的样本图像，pooled_grads 和 block5_conv3 层的输出特征图
# model.input:(None, 224, 224, 3);last_conv_layer.output[0]:(14, 14, 512)
iterate =K.function([model.input], [pooled_grads,last_conv_layer.output[0]])
# pooled_grads:(512,);conv_layer_output_value:(14, 14, 512)
pooled_grads_value,conv_layer_output_value =iterate([x])

## 乘梯度
import matplotlib.pyplot as plt
for i in range(512):
    # conv_layer_output_value[:, :, i]:(14*14);pooled_grads_value[i]:()
    conv_layer_output_value[:, :, i] *= pooled_grads_value[i]

# 得到的特征图的逐通道平均值即为类激活的热力图
# heatmap:(14*14)
heatmap = np.mean(conv_layer_output_value, axis=-1)
# 为了将热力图可视化，去除所有负数
heatmap = np.maximum(heatmap, 0)
# 归一化处理
heatmap /= np.max(heatmap)
# 展现
plt.matshow(heatmap)

## 渲染画布，可视化
import cv2
# 用 cv2 加载原始图像
# img:(600, 899, 3)
img = cv2.imread(img_path)
# 将热力图的大小调整为与原始图像相同
#heatmap为[0,1]之间的浮点数，特别注意：cv2.resize(img, (x轴向长度，y轴向长度))
# heatmap:(600, 899, 3)
heatmap = cv2.resize(heatmap, (img.shape[1], img.shape[0]))
# 将热力图应用于原始图像
heatmap = cv2.applyColorMap(heatmap, cv2.COLORMAP_JET)
# 将热力图转换为 RGB 格式
heatmap = np.uint8(255 * heatmap)
# 将热力图与原始图像叠加,0.5表示渲染强度，
# 有超出(0,255）范围的,如果需要可视化,则需要clip裁剪
superimposed_img = heatmap * 0.5 + img
cv2.imwrite('C:\\Users\\Administrator\\HQR_Python_learning\\elephant_cam.jpg', superimposed_img)

Paul-Huang

关注

3
点赞
踩
16

收藏

觉得还不错? 一键收藏
3
评论
《Python深度学习》第五章-6（可视化类激活图）读书笔记

《Python深度学习》第五章-6（可视化类激活图）读书笔记卷积神经网络学到的表示非常适合可视化，很大程度上是因为它们是视觉概念的表示\color{red}视觉概念的表示视觉概念的表示。接下来介绍3种可视化方法。事中\color{blue}事中事中：可视化卷积神经网络的中间输出（中间激活）\color{red}可视化卷积神经网络的中间输出（中间激活）可视化卷积神经网络的中间输出（中间激活）：有助于理解卷积神经网络连续的层如何对输入进行变换，也有助于初步了解卷积神经网络每个过滤器的含义。事前\colo
复制链接

扫一扫