论文精读:Selective Convolutional Descriptor Aggregation

本文详细解读了《Selective Convolutional Descriptor Aggregation》论文,探讨了特征提取过程,尤其是通过卷积神经网络(如VGG16)的卷积输出可视化,展示了如何定义和选择Descriptor,并介绍了Descriptor的融合方法。通过实验,作者发现选择性地聚合Descriptor对于细粒度分类任务至关重要,提出了基于预训练模型的特征选择和融合策略。
摘要由CSDN通过智能技术生成

Selective Convolutional Descriptor Aggregation

今天做实验发现了一个非常奇怪的实验现象,查了文献后发现很早之前就有人注意到了这个现象,并且根据该现象发表了一系列成果。作者的实验设计思路简单有效,并且提出的方法也算新颖,给我很大启发。今天就结合自己的所思所想,缕一缕这两篇文章《Selective Convolutional Descriptor Aggregation》和《Part-based Mask-CNN》。都是很久之前的文章了,但是文章提及的思想很有启发性。在正式梳理之前,先进行知识铺垫,这会有助于后面的理解。

特征提取

把一张 224 * 224 的图片放入 VGG16 网络中,会经过 5 组卷积和 5 次 maxpool ,每次经过 maxpool 层都会得到不同尺寸大小的特征图,且特征图的通道数也不同。下图是 VGG 网络的配置图,其中高亮部分是 VGG16 网络的配置。

184902-875726

当图片经过层层卷积和 maxpool ,到达最后一层 maxpool 下采样层后会得到 7 * 7 且通道数为 512 的特征图。此处的特征图提取的是原图片中较为抽象的特征。至于每一层的特征图是什么样的,我们可以通过可视化的办法来观察。可视化方法如下:

卷积输出可视化

下面把一张猫的图片放入预训练的 VGG16 网络中去,并可视化每一层的特征图,通过特征图的响应区域来探究 VGG16 网络每层卷积的功能。可视化参考至CSDN博主「我是小蚂蚁」的原创文章,链接:https://blog.csdn.net/missyougoon/java/article/details/85645195。因为 VGG16 模型每一层通道比较多,这里就只使用了前 25 个通道特征图作为展示。

原始图片

20190102215831815

第一层卷积提取的特征图

2

所有第一层特征图1:1融合后整体的特征图:

3

第二层:

4

所有第二层特征图1:1融合后整体的特征图:

5

第三层:

6

所有第三层特征图1:1融合后整体的特征图:

7

第四层:

8

所有第四层特征图1:1融合后整体的特征图:

9

第五层

10

第五层特征图1:1融合后整体的特征图:

11

可以看出浅层的卷积层获得的特征信息还比较多,特征数据与原始的图像数据很接近。随着层数越深,得到的有效特征越来越少,特征也变得越来越抽象。最浅层的卷积核倾向于学习点、颜色等基础特征;接下来开始学习到线段、边缘等特征。层数越深,学习到的特征就越具体越抽象。可视化的代码为:

# -*- coding:utf-8 -*-

import numpy as np
import tensorflow as tf
import time
from PIL import Image
import matplotlib.pyplot as plt

# VGG 自带的一个常量,之前VGG训练通过归一化,所以现在同样需要作此操作
VGG_MEAN = [103.939, 116.779, 123.68]  # rgb 三通道的均值


class VGGNet():
    '''
    创建 vgg16 网络 结构
    从模型中载入参数
    '''

    def __init__(self, data_dict):
        '''
        传入vgg16模型
        :param data_dict: vgg16.npy (字典类型)
        '''
        self.data_dict = data_dict

    def get_conv_filter(self, name):
        '''
        得到对应名称的卷积层
        :param name: 卷积层名称
        :return: 该卷积层输出
        '''
        return tf.constant(self.data_dict[name][0], name='conv')

    def get_fc_weight(self, name):
        '''
        获得名字为name的全连接层权重
        :param name: 连接层名称
        :return: 该层权重
        '''
        return tf.constant(self.data_dict[name][0], name='fc')

    def get_bias(self, name):
        '''
        获得名字为name的全连接层偏置
        :param name: 连接层名称
        :return: 该层偏置
        '''
        return tf.constant(self.data_dict[name][1], name='bias')

    def conv_layer(self, x, name):
        '''
        创建一个卷积层
        :param x:
        :param name:
        :return:
        '''
        # 在写计算图模型的时候,加一些必要的 name_scope,这是一个比较好的编程规范
        # 可以防止命名冲突, 二可视化计算图的时候比较清楚
        with tf.name_scope(name):
            # 获得 w 和 b
            conv_w = self.get_conv_filter(name)
            conv_b = self.get_bias(name)

            # 进行卷积计算
            h = tf.nn.conv2d(x, conv_w, strides=[1, 1, 1, 1], padding='SAME')
            '''
            因为此刻的 w 和 b 是从外部传递进来,所以使用 tf.nn.conv2d()
            tf.nn.conv2d(input, filter, strides, padding, use_cudnn_on_gpu = None, name = None) 参数说明:
            input 输入的tensor, 格式[batch, height, width, channel]
            filter 卷积核 [filter_height, filter_width, in_channels, out_channels] 
                分别是:卷积核高,卷积核宽,输入通道数,输出通道数
            strides 步长 卷积时在图像每一维度的步长,长度为4
            padding 参数可选择 “SAME” “VALID”

            '''
            # 加上偏置
            h = tf.nn.bias_add(h, conv_b)
            # 使用激活函数
            h = tf.nn.relu(h)
            return h

    def pooling_layer(self, x, name):
        '''
        创建池化层
        :param x: 输入的tensor
        :param name: 池化层名称
        :return: tensor
        '''
        return tf.nn.max_pool(x,
                              ksize=[1, 2, 2, 1],  # 核参数, 注意:都是4维
                              strides=[1, 2, 2, 1],
                              padding='SAME'
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值