卷积可视化（超详细，多图警告！）

最新推荐文章于 2024-04-29 18:15:17 发布

无妄无望

最新推荐文章于 2024-04-29 18:15:17 发布

阅读量7.9k

点赞数 44

文章标签：人工智能笔记计算机视觉神经网络 cnn pytorch 图像处理

本文链接：https://blog.csdn.net/PLANTTHESON/article/details/133833707

版权

人们常说，深度学习模型是“黑盒”，模型学到的东西很难理解。

1.是什么？

卷积可视化是指通过可视化卷积神经网络中的过滤器和特征图来理解网络的工作原理和学习到的特征。常用的卷积可视化方法包括：
1. 特征图可视化：将网络中某一层的特征图可视化出来，以便观察网络在不同层次上学到的特征。
2. 卷积核可视化：通过最大化某一层的某个过滤器的响应来可视化该过滤器所学到的特征。
3. 热力图可视化：将输入图像的每个像素与网络中某一层的每个过滤器的响应值相乘，并将结果相加，得到一个热力图，用于可视化网络对输入图像的响应。
4. 梯度可视化：通过计算输入图像对网络输出的梯度，可视化哪些区域对网络输出有较大的影响，以及网络对不同特征的敏感度。

2.为什么？

卷积可视化可以帮助深度学习研究者更好地理解卷积的概念和原理，从而更好地设计和优化卷积神经网络。通过可视化，研究者可以更清晰地看到卷积运算中的每一个步骤，包括输入、卷积核、卷积操作和输出，从而更好地理解卷积的本质和作用。此外，卷积可视化还可以帮助研究者更好地理解卷积神经网络中的高级概念，如池化、批量归一化等，从而更好地设计和优化深度学习模型。

3.怎么样？

3.1 特征图可视化

特征图可视化有两类方法，一类是直接将某一层的feature map映射到0-255的范围，变成图像，但这样。另一类是使用一个反卷积网络（反卷积、反池化）将feature map变成图像，从而达到可视化feature map的目的。
特征图的可视化，是指对于给定输入图像，展示模型处理后的各中间层（包括卷积层和池化层等）输出的特征图（各中间层的激活函数的输出代表该层特征图）。这让我们可以看到输入数据在网络中是如何被分解，不同滤波器分别聚焦于原始图像的什么方面的信息。我们希望在三个维度对特征图进行可视化：宽度、高度和深度（通道，channel）。每个通道都对应相对独立的特征。所以将这些特征图可视化的正确方法是将每个通道的内容分别会支持成二维图像。

3.1.1反卷积网络deconvnet

feature map可视化的另一种方式是通过反卷积网络从feature map变成图像。反卷积网络在论文《Visualizing and Understanding Convolutional Networks》中提出，论文中提出图像像素经过神经网络映射到特征空间，而反卷积网络可以将feature map映射回像素空间。

如下图所示，反卷积网络的用途是对一个训练好的神经网络中任意一层feature map经过反卷积网络后重构出像素空间，主要操作是反池化unpooling、修正rectify、滤波filter，换句话说就是反池化，反激活，反卷积。

反卷积网络特征可视化结果

3.1.2 导向反向传播

在论文《Striving for Simplicity：The All Convolutional Net》中提出使用导向反向传播（Guided- backpropagation），导向反向传播与反卷积网络的区别在于对ReLU的处理方式。在反卷积网络中使用ReLU处理梯度，只回传梯度大于0的位置，而在普通反向传播中只回传feature map中大于0的位置，在导向反向传播中结合这两者，只回传输入和梯度都大于0的位置，这相当于在普通反向传播的基础上增加了来自更高层的额外的指导信号，这阻止了负梯度的反传流动，梯度小于0的神经元降低了正对应更高层单元中我们想要可视化的区域的激活值。

使用导向反向传播与反卷积网络的效果对比

分析反卷积网络的对各层feature map可视化的结果可知，CNN中会学到图像中的一些主要特征，如狗头，鼻子眼睛,纹理，轮廓等内容。但对特征图可视化有个明显的不足，即无法可视化图像中哪些区域对识别具体某个类别的作用，这个主要是使用CAM系列的方法

3.2 卷积核可视化

卷积核，在网络中起到将图像从像素空间映射到特征空间的作用，可认为是一个映射函数，像素空间中的值经过卷积核后得到响应值，在特征提取网络中，基本都是使用最大池化来选择最大响应值进入下一层继续卷积，其余响应值低的都进入待定。也就是说，我们认定只有响应值大的才会对最终的识别任务起作用。

根据这个思路，给定一个已经训练好的网络，现在想要可视化某一层的某一个卷积核，我们随机初始化生成一张图（指的是对像素值随机取值，不是数据集中随机选一张图），然后经过前向传播到该层，我们希望这个随机生成的图在经过这一层卷积核时，它的响应值能尽可能的大，换句话说，响应值比较大的图像是这个卷积核比较认可的，是与识别任务更相关的。然后不断调整图像像素值，直到响应值足够大，我们就可以认为此时的图像就是这个卷积核所认可的，从而达到可视化该卷积核的目的。

3.2.1可视化各层输出的feature map

import os
import torch
import torchvision as tv
import torchvision.transforms as transforms
import torch.nn as nn
import torch.optim as optim
import argparse
import skimage.data
import skimage.io
import skimage.transform
import numpy as np
import matplotlib.pyplot as plt
import torchvision.models as models
from PIL import Image
import cv2
 
#提取某一层网络特征图
class FeatureExtractor(nn.Module):
    def __init__(self, submodule, extracted_layers):
        super(FeatureExtractor, self).__init__()
        self.submodule = submodule
        self.extracted_layers = extracted_layers
 
    def forward(self, x):
        outputs = {}
        for name, module in self.submodule._modules.items():
            if "fc" in name:
                x = x.view(x.size(0), -1)
            x = module(x)
            print(name)
            if (self.extracted_layers is None) or (name in self.extracted_layers and 'fc' not in name):
                outputs[name] = x
        # print(outputs)
        return outputs
 
 
def get_picture(pic_name, transform):
    img = skimage.io.imread(pic_name)
    img = skimage.transform.resize(img, (256, 256)) #读入图片时将图片resize成(256,256)的
    img = np.asarray(img, dtype=np.float32)
    return transform(img)
 
 
def make_dirs(path):
    if os.path.exists(path) is False:
        os.makedirs(path)
 
pic_dir = 'dataset/dogsvscats/train/cat.1700.jpg'
transform = transforms.ToTensor()
img = get_picture(pic_dir, transform)
# 插入维度
img = img.unsqueeze(0)
 
device = torch.device("cuda" if torch.cuda.is_available() else "cpu")
img = img.to(device)
 
net = models.resnet101(pretrained=True).to(device)
 
dst = './feautures'
therd_size = 256
 
myexactor = FeatureExtractor(submodule=net, extracted_layers=None)
output = myexactor(img)
#output是dict
#dict_keys(['conv1', 'bn1', 'relu', 'maxpool', 'layer1', 'layer2', 'layer3', 'layer4', 'avgpool', 'fc'])
 
for idx,val in enumerate(output.items()):
    k,v = val
    features = v[0]
    iter_range = features.shape[0]
    for i in range(iter_range):
        # plt.imshow(features.data.cpu().numpy()[i,:,:],cmap='jet')
        if 'fc' in k:  #不可视化fc层
            continue
 
        feature = features.data.cpu().numpy()
        feature_img = feature[i, :, :]
        feature_img = np.asarray(feature_img * 255, dtype=np.uint8)
 
        dst_path = os.path.join(dst, str(idx)+'-'+k)
 
        make_dirs(dst_path)
        feature_img = cv2.applyColorMap(feature_img, cv2.COLORMAP_JET)
        if feature_img.shape[0] < therd_size:
            tmp_file = os.path.join(dst_path, str(i) + '_' + str(therd_size) + '.png')
            tmp_img = feature_img.copy()
            tmp_img = cv2.resize(tmp_img, (therd_size, therd_size), interpolation=cv2.INTER_NEAREST)
            cv2.imwrite(tmp_file, tmp_img)
 
        dst_file = os.path.join(dst_path, str(i) + '.png')
        cv2.imwrite(dst_file, feature_img)

输入原图

因为到后期的图片会越来越小，所以我们有一个缩放操作，每张图片有一个输出的原图，还有一个放大后的图片

0-conv1

1-bn1

2-relu

3-maxpool

4-layer1

5-layer2

6-layer3

7-layer4

8-avgpool

可以看出，第一层的卷积层输出，特征图里面还可以看出猫的形状，到了后面卷积网络的输出特征图，看着有点像热力图，并且完全没有猫的样子，是更加抽象的图片表达

3.2.2 卷积核权重可视化

我们一个conv层，比如有64个filter，每个filter又是个三维的，要扫过R,G,B通道，这里可视化的时候只选择了每个filter的第一个channel来显示

import torch
import torchvision.models as models
import matplotlib.pyplot as plt
from PIL import Image
from torchvision import transforms
 
input_image = Image.open('dataset/dogsvscats/train/cat.1700.jpg')
preprocess = transforms.Compose([
    transforms.Resize(256),
    transforms.CenterCrop(224),
    transforms.ToTensor(),
    transforms.Normalize(mean=[0.485, 0.456, 0.406], std=[0.229, 0.224, 0.225]),
])
input_tensor = preprocess(input_image)
input_batch = input_tensor.unsqueeze(0) # create a mini-batch as expected by the model
 
 
model = models.alexnet(pretrained=True)
if torch.cuda.is_available():
    input_batch = input_batch.to('cuda')
    model.to('cuda')
with torch.no_grad():
    output = model(input_batch)
 
#卷积可视化
#将数据灌入模型后，pytorch框架会进行对应的前向传播，要对卷积核可视化，我们需要把卷积核从框架中提取出来。多谢torch提供的接口，我们可以直接把对应层的权重取出
for layer in dict(model.features.named_children()).keys():
    if layer not in ['0','3','6','8','10']: #只有conv层可以可视化，maxpooling层和relu层不能可视化
        continue
    filter = dict(model.features.named_children())[layer]
    filter = filter.weight.cpu().clone()
    print("total of number of filter : ", len(filter))
    num = len(filter)
    plt.figure(figsize=(20, 17))
    for i in range(1,64):
        plt.subplot(9, 9, i)
        plt.axis('off')
        plt.imshow(filter[i][0, :, :].detach(),cmap='gray')
    plt.show()

conv1

conv2

conv3

conv4

conv5

可以看出第一层卷积核人类还是可以比较容易理解，有些提取的是边缘，有些提取的是圆形，有些提取的是斑点等。
最后一层卷积层的卷积核就已经看不出来是提取的什么东西了，即卷积核提取的是更加抽象的特征。

3.3 热力图可视化

3.3.1 CAM

论文地址：https://arxiv.org/pdf/1512.04150.pdf

实现原理：一张图片在经过CNN特征提取网络后得到feature maps, 再对每一个feature map进行全局平均池化，变成一维向量，再经过全连接层与softmax得到类的概率。

假定在GAP前是n个通道，则经过GAP后得到的是一个长度为1x n的向量，假定类别数为m，则全连接层的权值为一个n x m的张量。（注：这里先忽视batch-size）

对于某一个类别C, 现在想要可视化这个模型对于识别类别C，原图像的哪些区域起主要作用，换句话说模型是根据哪些信息得到该图像就是类别C。

做法是取出全连接层中得到类别C的概率的那一维权值，用W表示，即上图的下半部分。然后对GAP前的feature map进行加权求和，由于此时feature map不是原图像大小，在加权求和后还需要进行上采样，即可得到Class Activation Map。

用公式表示如下：（k表示通道，c表示类别，fk(x,y)表示feature map）

效果图：

CAM的分析

CAM有个很致命的缺陷，它的结构是由CNN + GAP + FC + Softmax组成，也就是说如果想要可视化某个现有的模型，但大部分现有的模型没有GAP这个操作，此时想要可视化便需要修改原模型结构，并重新训练，相当麻烦，且如果模型很大，在修改后重新训练不一定能达到原效果，可视化也就没有意义了。因此，针对这个缺陷，其后续有了改进版Grad-CAM。

3.3.2 Grad-CAM

论文地址：https://arxiv.org/pdf/1610.02391v1.pdf

Grad-CAM的最大特点就是不再需要修改现有的模型结构了，也不需要重新训练了，直接在原模型上即可可视化。

原理：同样是处理CNN特征提取网络的最后一层feature maps。Grad-CAM对于想要可视化的类别C，使最后输出的类别C的概率值通过反向传播到最后一层feature maps，得到类别C对该feature maps的每个像素的梯度值，对每个像素的梯度值取全局平均池化，即可得到对feature maps的加权系数alpha，论文中提到这样获取的加权系数跟CAM中的系数几乎是等价的。接下来对特征图加权求和，使用ReLU进行修正，再进行上采样。

使用ReLU的原因是对于那些负值，可认为与识别类别C无关，这些负值可能是与其他类别有关，而正值才是对识别C有正面影响的。

用公式表示如下：