论文精读：Selective Convolutional Descriptor Aggregation

最新推荐文章于 2022-06-20 16:06:04 发布

王改改

最新推荐文章于 2022-06-20 16:06:04 发布

阅读量1.6k

点赞数 5

分类专栏：论文精读深度学习文章标签：深度学习 pytorch tensorflow 神经网络 cv

本文链接：https://blog.csdn.net/Day_20/article/details/109503121

版权

本文详细解读了《Selective Convolutional Descriptor Aggregation》论文，探讨了特征提取过程，尤其是通过卷积神经网络（如VGG16）的卷积输出可视化，展示了如何定义和选择Descriptor，并介绍了Descriptor的融合方法。通过实验，作者发现选择性地聚合Descriptor对于细粒度分类任务至关重要，提出了基于预训练模型的特征选择和融合策略。

摘要由CSDN通过智能技术生成

Selective Convolutional Descriptor Aggregation

今天做实验发现了一个非常奇怪的实验现象，查了文献后发现很早之前就有人注意到了这个现象，并且根据该现象发表了一系列成果。作者的实验设计思路简单有效，并且提出的方法也算新颖，给我很大启发。今天就结合自己的所思所想，缕一缕这两篇文章《Selective Convolutional Descriptor Aggregation》和《Part-based Mask-CNN》。都是很久之前的文章了，但是文章提及的思想很有启发性。在正式梳理之前，先进行知识铺垫，这会有助于后面的理解。

特征提取

把一张 224 * 224 的图片放入 VGG16 网络中，会经过 5 组卷积和 5 次 maxpool ，每次经过 maxpool 层都会得到不同尺寸大小的特征图，且特征图的通道数也不同。下图是 VGG 网络的配置图，其中高亮部分是 VGG16 网络的配置。

184902-875726

当图片经过层层卷积和 maxpool ，到达最后一层 maxpool 下采样层后会得到 7 * 7 且通道数为 512 的特征图。此处的特征图提取的是原图片中较为抽象的特征。至于每一层的特征图是什么样的，我们可以通过可视化的办法来观察。可视化方法如下：

卷积输出可视化

下面把一张猫的图片放入预训练的 VGG16 网络中去，并可视化每一层的特征图，通过特征图的响应区域来探究 VGG16 网络每层卷积的功能。可视化参考至CSDN博主「我是小蚂蚁」的原创文章，链接：https://blog.csdn.net/missyougoon/java/article/details/85645195。因为 VGG16 模型每一层通道比较多，这里就只使用了前 25 个通道特征图作为展示。

原始图片

20190102215831815

第一层卷积提取的特征图

所有第一层特征图1：1融合后整体的特征图：

第二层：

所有第二层特征图1：1融合后整体的特征图：

第三层：

所有第三层特征图1：1融合后整体的特征图：

第四层：

所有第四层特征图1：1融合后整体的特征图：

第五层

第五层特征图1：1融合后整体的特征图：

可以看出浅层的卷积层获得的特征信息还比较多，特征数据与原始的图像数据很接近。随着层数越深，得到的有效特征越来越少，特征也变得越来越抽象。最浅层的卷积核倾向于学习点、颜色等基础特征；接下来开始学习到线段、边缘等特征。层数越深，学习到的特征就越具体越抽象。可视化的代码为：

# -*- coding:utf-8 -*-

import numpy as np
import tensorflow as tf
import time
from PIL import Image
import matplotlib.pyplot as plt

# VGG 自带的一个常量，之前VGG训练通过归一化，所以现在同样需要作此操作
VGG_MEAN = [103.939, 116.779, 123.68]  # rgb 三通道的均值


class VGGNet():
    '''
    创建 vgg16 网络 结构
    从模型中载入参数
    '''

    def __init__(self, data_dict):
        '''
        传入vgg16模型
        :param data_dict: vgg16.npy (字典类型)
        '''
        self.data_dict = data_dict

    def get_conv_filter(self, name):
        '''
        得到对应名称的卷积层
        :param name: 卷积层名称
        :return: 该卷积层输出
        '''
        return tf.constant(self.data_dict[name][0], name='conv')

    def get_fc_weight(self, name):
        '''
        获得名字为name的全连接层权重
        :param name: 连接层名称
        :return: 该层权重
        '''
        return tf.constant(self.data_dict[name][0], name='fc')

    def get_bias(self, name):
        '''
        获得名字为name的全连接层偏置
        :param name: 连接层名称
        :return: 该层偏置
        '''
        return tf.constant(self.data_dict[name][1], name='bias')

    def conv_layer(self, x, name):
        '''
        创建一个卷积层
        :param x:
        :param name:
        :return:
        '''
        # 在写计算图模型的时候，加一些必要的 name_scope，这是一个比较好的编程规范
        # 可以防止命名冲突， 二可视化计算图的时候比较清楚
        with tf.name_scope(name):
            # 获得 w 和 b
            conv_w = self.get_conv_filter(name)
            conv_b = self.get_bias(name)

            # 进行卷积计算
            h = tf.nn.conv2d(x, conv_w, strides=[1, 1, 1, 1], padding='SAME')
            '''
            因为此刻的 w 和 b 是从外部传递进来，所以使用 tf.nn.conv2d()
            tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu = None, name = None) 参数说明：
            input 输入的tensor， 格式[batch, height, width, channel]
            filter 卷积核 [filter_height, filter_width, in_channels, out_channels] 
                分别是：卷积核高，卷积核宽，输入通道数，输出通道数
            strides 步长 卷积时在图像每一维度的步长，长度为4
            padding 参数可选择 “SAME” “VALID”

            '''
            # 加上偏置
            h = tf.nn.bias_add(h, conv_b)
            # 使用激活函数
            h = tf.nn.relu(h)
            return h

    def pooling_layer(self, x, name):
        '''
        创建池化层
        :param x: 输入的tensor
        :param name: 池化层名称
        :return: tensor
        '''
        return tf.nn.max_pool(x,
                              ksize=[1, 2, 2, 1],  # 核参数， 注意：都是4维
                              strides=[1, 2, 2, 1],
                              padding='SAME'