Selective Convolutional Descriptor Aggregation
今天做实验发现了一个非常奇怪的实验现象,查了文献后发现很早之前就有人注意到了这个现象,并且根据该现象发表了一系列成果。作者的实验设计思路简单有效,并且提出的方法也算新颖,给我很大启发。今天就结合自己的所思所想,缕一缕这两篇文章《Selective Convolutional Descriptor Aggregation》和《Part-based Mask-CNN》。都是很久之前的文章了,但是文章提及的思想很有启发性。在正式梳理之前,先进行知识铺垫,这会有助于后面的理解。
特征提取
把一张 224 * 224 的图片放入 VGG16 网络中,会经过 5 组卷积和 5 次 maxpool ,每次经过 maxpool 层都会得到不同尺寸大小的特征图,且特征图的通道数也不同。下图是 VGG 网络的配置图,其中高亮部分是 VGG16 网络的配置。
当图片经过层层卷积和 maxpool ,到达最后一层 maxpool 下采样层后会得到 7 * 7 且通道数为 512 的特征图。此处的特征图提取的是原图片中较为抽象的特征。至于每一层的特征图是什么样的,我们可以通过可视化的办法来观察。可视化方法如下:
卷积输出可视化
下面把一张猫的图片放入预训练的 VGG16 网络中去,并可视化每一层的特征图,通过特征图的响应区域来探究 VGG16 网络每层卷积的功能。可视化参考至CSDN博主「我是小蚂蚁」的原创文章,链接:https://blog.csdn.net/missyougoon/java/article/details/85645195。因为 VGG16 模型每一层通道比较多,这里就只使用了前 25 个通道特征图作为展示。
原始图片
第一层卷积提取的特征图
所有第一层特征图1:1融合后整体的特征图:
第二层:
所有第二层特征图1:1融合后整体的特征图:
第三层:
所有第三层特征图1:1融合后整体的特征图:
第四层:
所有第四层特征图1:1融合后整体的特征图:
第五层
第五层特征图1:1融合后整体的特征图:
可以看出浅层的卷积层获得的特征信息还比较多,特征数据与原始的图像数据很接近。随着层数越深,得到的有效特征越来越少,特征也变得越来越抽象。最浅层的卷积核倾向于学习点、颜色等基础特征;接下来开始学习到线段、边缘等特征。层数越深,学习到的特征就越具体越抽象。可视化的代码为:
# -*- coding:utf-8 -*-
import numpy as np
import tensorflow as tf
import time
from PIL import Image
import matplotlib.pyplot as plt
# VGG 自带的一个常量,之前VGG训练通过归一化,所以现在同样需要作此操作
VGG_MEAN = [103.939, 116.779, 123.68] # rgb 三通道的均值
class VGGNet():
'''
创建 vgg16 网络 结构
从模型中载入参数
'''
def __init__(self, data_dict):
'''
传入vgg16模型
:param data_dict: vgg16.npy (字典类型)
'''
self.data_dict = data_dict
def get_conv_filter(self, name):
'''
得到对应名称的卷积层
:param name: 卷积层名称
:return: 该卷积层输出
'''
return tf.constant(self.data_dict[name][0], name='conv')
def get_fc_weight(self, name):
'''
获得名字为name的全连接层权重
:param name: 连接层名称
:return: 该层权重
'''
return tf.constant(self.data_dict[name][0], name='fc')
def get_bias(self, name):
'''
获得名字为name的全连接层偏置
:param name: 连接层名称
:return: 该层偏置
'''
return tf.constant(self.data_dict[name][1], name='bias')
def conv_layer(self, x, name):
'''
创建一个卷积层
:param x:
:param name:
:return:
'''
# 在写计算图模型的时候,加一些必要的 name_scope,这是一个比较好的编程规范
# 可以防止命名冲突, 二可视化计算图的时候比较清楚
with tf.name_scope(name):
# 获得 w 和 b
conv_w = self.get_conv_filter(name)
conv_b = self.get_bias(name)
# 进行卷积计算
h = tf.nn.conv2d(x, conv_w, strides=[1, 1, 1, 1], padding='SAME')
'''
因为此刻的 w 和 b 是从外部传递进来,所以使用 tf.nn.conv2d()
tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu = None, name = None) 参数说明:
input 输入的tensor, 格式[batch, height, width, channel]
filter 卷积核 [filter_height, filter_width, in_channels, out_channels]
分别是:卷积核高,卷积核宽,输入通道数,输出通道数
strides 步长 卷积时在图像每一维度的步长,长度为4
padding 参数可选择 “SAME” “VALID”
'''
# 加上偏置
h = tf.nn.bias_add(h, conv_b)
# 使用激活函数
h = tf.nn.relu(h)
return h
def pooling_layer(self, x, name):
'''
创建池化层
:param x: 输入的tensor
:param name: 池化层名称
:return: tensor
'''
return tf.nn.max_pool(x,
ksize=[1, 2, 2, 1], # 核参数, 注意:都是4维
strides=[1, 2, 2, 1],
padding='SAME'