VGGNet

VGG 网络

VGG 网络的提出目的是为了探究在大规模图像识别任务中,卷积网络深度对模型精确度有何影响;VGG模型是2014年 ILSVRC 竞赛的第二名,第一名是 GoogLeNet。但是 VGG 模型在多个迁移学习任务中的表现要优于 googLeNet。而且,从图像中提取CNN特征,VGG 模型是首选算法。

网络结构

VGG 网络根据卷积核大小和卷积层数目的不同,可分为 A,A-LRN,B,C,D,E共 6 种配置,其中 D,E 比较常用,分别称为 VGG16VGG19,以下给出 VGG 的六种配置结构:
在这里插入图片描述

  • 从左到右每一列代表着深度增加的不同的模型,从上至下代表模型的深度
  • 其中:conv<滤波器大小>-<通道数>
  • 随着层数增加,参数增加的并不是很多,如下图
    在这里插入图片描述

以 VGG16 为例,VGG16:包含:

  • 13 个卷积层
  • 3 个全连接层
  • 5 个池化层,使用 maxpool

VGG16 特点

VGG16 突出的特点就是两个字:简单

1. 卷积层都使用相同大小的卷积核 (3x3)

使用 3 x 3 的卷积核,步幅 stride=1,padding=same,使每一个卷积层与前一层保持相同的高和宽;使用 3 个 3 x 3 的卷积核代替了一个 7 x 7 的卷积核,使参数数量从 49 x C 个降到了 27 X C 个,其中 C 代表通道数。

2. 池化层都使用相同大小的池化核 (2x2)

使用 2×2 的池化核,步幅 stride=2,使用 maxpooling,这样就能够使得每一个池化层的宽和高是前一层的二分之一

VGG16 示意图
在这里插入图片描述

3. 块结构

VGG16 的卷积层和池化层可以划分为不同的块,从前到后依次为 Block1~Block5,每一个块包含若干卷积层和一个池化层,如 Block4 包含:

  • 3 个卷积层,conv3-512
  • 1 个池化层,maxpool

并且在同一块内,卷积层的通道数是相同的,如下图给出按照块划分的 VGG16 的结构图
在这里插入图片描述

4. 权重参数

尽管 VGG 的结构简单,但包含的权重数目却很大,达到 138,357,544 个参数,包含卷积核权重和全连接层权重。

  • 例如,对第一层卷积,输入图通道数为 3,卷积核参数个数为 3 x 3 x 3,这样的卷积核有 64 个,总共的参数为 3 x 3 x 3 x 64=1728
  • 计算全连接层的权重参数:前一层节点数 x 本层的节点数,全连接层的参数分别为:
    • 7 x 7 x 512 x 4096 = 1027,645,444
    • 4096 x 4096 = 16,781,312
    • 4096 x 1000 = 4,097 000

李飞飞在 CS231 的课件中给出了整个网络的全部参数的计算过程(不考虑偏置),如下图所示:
在这里插入图片描述
图中蓝色表示计算权重参数数量;红色表示计算所需存储容量的部分。

VGG16 缺点

VGG16 参数规模巨大,可以预期它有很高的拟合能力;但缺点也很明显:

  • 训练时间过长,调参难度大
  • 需要的存储容量大,不利于部署。如存储 VGG16 权重文件的大小为 500 多 MB,不利于安装到嵌入式系统中。

VGGNet 实践

使用预训练好的 VGG19,查看网络各层对图像的特征提取

import scipy.io
import numpy as np
import os
import scipy.misc
import matplotlib.pyplot as plt
import tensorflow as tf
import cv2
%matplotlib inline
print("所有包载入完毕")

def net(data_path, input_image):
    layers = (
        'conv1_1', 'relu1_1', 'conv1_2', 'relu1_2', 'pool1',
        'conv2_1', 'relu2_1', 'conv2_2', 'relu2_2', 'pool2',
        'conv3_1', 'relu3_1', 'conv3_2', 'relu3_2', 'conv3_3',
        'relu3_3', 'conv3_4', 'relu3_4', 'pool3',
        'conv4_1', 'relu4_1', 'conv4_2', 'relu4_2', 'conv4_3',
        'relu4_3', 'conv4_4', 'relu4_4', 'pool4',
        'conv5_1', 'relu5_1', 'conv5_2', 'relu5_2', 'conv5_3',
        'relu5_3', 'conv5_4', 'relu5_4'
    )
    data = scipy.io.loadmat(data_path)
    mean_pixel = [103.939, 116.779, 123.68]
    weights = data['layers'][0]
    net = {}
    current = input_image
    for i, name in enumerate(layers):
        kind = name[:4]
        if kind == 'conv':
            kernels, bias = weights[i][0][0][0][0]
            # matconvnet: weights are [width, height, in_channels, out_channels]
            # tensorflow: weights are [heights, width, in_channels, out_channels]
            kernels = np.transpose(kernels, (1, 0, 2, 3))
            bias = bias.reshape(-1)
            current = _conv_layer(current, kernels, bias)
        elif kind == 'relu':
            current = tf.nn.relu(current)
        elif kind == 'pool':
            current = _pool_layer(current)
        net[name] = current
    assert len(net) == len(layers)
    
    return net, mean_pixel, layers

print("Network for VGG ready")

def _conv_layer(input, weights, bias):
    conv = tf.nn.conv2d(
        input, tf.constant(weights), strides=(1, 1, 1, 1), padding='SAME')
    return tf.nn.bias_add(conv, bias)


def _pool_layer(input):
    return tf.nn.max_pool(
        input, ksize=(1, 2, 2, 1), strides=(1, 2, 2, 1), padding='SAME')


def preprocess(image, mean_pixel):
    return image - mean_pixel


def unprocess(image, mean_pixel):
    return image + mean_pixel


def imread(path):
    return scipy.misc.imread(path).astype(np.float)


def imsave(path, img):
    img = np.clip(img, 0, 255).astype(np.uint8)
    scipy.misc.imsave(path, img)


print("Functions for VGG ready")

VGG_PATH = './data/imagenet-vgg-verydeep-19.mat'
IMG_PATH = './images/cat.jpg'
input_image = imread(IMG_PATH)
shape = (1,) + input_image.shape  # (h,w,nch) => (1,h,w,nch)
with tf.Session() as sess:
    image = tf.placeholder(tf.float32, shape=shape)
    nets, mean_pixel, all_layers = net(VGG_PATH, image)
    input_image_pre = np.array([preprocess(input_image, mean_pixel)])
    layers = all_layers
    
    for i, layer in enumerate(layers):
        print("[%d/%d] %s" %(i+1, len(layers), layer))
        features = nets[layer].eval(feed_dict={image: input_image_pre})
        
        print( " Type of 'features' is ", type(features))
        print( " Shape of 'features' is %s" % (features.shape,))
        # Plot response 
        print(features[0, :, :, 0].shape)
        if 1:
            plt.figure(i+1, figsize=(10, 5))
            plt.matshow(features[0, :, :, 0], cmap=plt.cm.gray, fignum=i+1)
            plt.title("" + layer)
            plt.colorbar()
            plt.show()

以下给出部分网络层的输出
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值