VGG 模型原理及 pytorch 代码

最新推荐文章于 2024-07-24 11:21:28 发布

ywm_up

最新推荐文章于 2024-07-24 11:21:28 发布

阅读量811

点赞数

分类专栏： CV 文章标签： pytorch 深度学习 cnn 图像分类

原文链接：https://arxiv.org/abs/1409.1556

版权

CV 专栏收录该内容

7 篇文章 0 订阅

订阅专栏

文章目录

VGG，使用重复元素的网络

VGG的组成规律是：连续使用多个相同的VGG块，即填充为1、窗口形状为 3 x 3 的卷积层后接一个步幅为2、窗口形状为 2 x 2 的最大池化层。卷积层保持输入的高和宽不变，而池化层则对其减半。

我们使用vgg_block函数来实现这个基础的VGG块，它可以指定卷积层的数量和输入输出通道数。

定义VGG块：

import time
import torch
from torch import nn, optim

import sys
sys.path.append("..") 
import d2lzh_pytorch as d2l
device = torch.device('cuda' if torch.cuda.is_available() else 'cpu')

def vgg_block(num_convs, in_channels, out_channels):
    blk = []
    for i in range(num_convs):
        if i == 0:
            blk.append(nn.Conv2d(in_channels, out_channels, kernel_size=3, padding=1))
        else:
            blk.append(nn.Conv2d(out_channels, out_channels, kernel_size=3, padding=1))
        blk.append(nn.ReLU())
    blk.append(nn.MaxPool2d(kernel_size=2, stride=2)) # 这里会使宽高减半
    return nn.Sequential(*blk)

VGG网络定义与实现：
构造一个VGG网络，它有5个卷积块，前2个块使用单卷积层，而后3块使用双卷积层。每一块的输入输出通道分别是1和64，之后每次对输出通道数翻倍，直到变为512。因为这个网络使用了8个卷积层和3个全连接层，所以经常被称为VGG-11

# 卷积层定义
conv_arch = ((1, 1, 64), (1, 64, 128), (2, 128, 256), (2, 256, 512), (2, 512, 512))# 经过5个vgg_block, 宽高会减半5次, 变成 224/32 = 7
fc_features = 512 * 7 * 7 # c * w * h
fc_hidden_units = 4096 # 任意


# 实现VGG
def vgg(conv_arch, fc_features, fc_hidden_units=4096):
    net = nn.Sequential()
    # 卷积层部分
    for i, (num_convs, in_channels, out_channels) in enumerate(conv_arch):
        # 每经过一个vgg_block都会使宽高减半
        net.add_module("vgg_block_" + str(i+1), vgg_block(num_convs, in_channels, out_channels))
    # 全连接层部分
    net.add_module("fc", nn.Sequential(d2l.FlattenLayer(),
                                 nn.Linear(fc_features, fc_hidden_units),  # 全连接层
                                 nn.ReLU(),
                                 nn.Dropout(0.5),
                                 nn.Linear(fc_hidden_units, fc_hidden_units),
                                 nn.ReLU(),
                                 nn.Dropout(0.5),
                                 nn.Linear(fc_hidden_units, 10)
                                ))
    return net

打印VGG网络结构：


Sequential(
  (vgg_block_1): Sequential(
    (0): Conv2d(1, 8, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU()
    (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (vgg_block_2): Sequential(
    (0): Conv2d(8, 16, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU()
    (2): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (vgg_block_3): Sequential(
    (0): Conv2d(16, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU()
    (2): Conv2d(32, 32, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (3): ReLU()
    (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (vgg_block_4): Sequential(
    (0): Conv2d(32, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU()
    (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (3): ReLU()
    (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (vgg_block_5): Sequential(
    (0): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (1): ReLU()
    (2): Conv2d(64, 64, kernel_size=(3, 3), stride=(1, 1), padding=(1, 1))
    (3): ReLU()
    (4): MaxPool2d(kernel_size=2, stride=2, padding=0, dilation=1, ceil_mode=False)
  )
  (fc): Sequential(
    (0): FlattenLayer()
    (1): Linear(in_features=3136, out_features=512, bias=True)
    (2): ReLU()
    (3): Dropout(p=0.5)
    (4): Linear(in_features=512, out_features=512, bias=True)
    (5): ReLU()
    (6): Dropout(p=0.5)
    (7): Linear(in_features=512, out_features=10, bias=True)
  )
)

为什么要用多个小的卷积核替代大的卷积核（小卷积核优势）

多个小卷积核连续卷积和单个大卷积核卷积的作用相同（感受野相同）

小卷积核的优势：

整合了多个非线性激活层，代替单一非线性激活层，增加了判别能力。
2. 减少了网络参数

以3个33的级联卷积代替1个77的卷积为例：可以减少77-33*3=22个参数，减少了45%的参数。
以2个33的级联卷积代替1个55的卷积为例：可以减少55-23*3=7个参数，减少了28%的参数。
3. 减少了计算量
以3个33的级联卷积代替1个77的卷积为例：可以减少77L-333L=22L次计算，减少了45%的计算量。
以2个33的级联卷积代替1个55的卷积为例：可以减少55L-233L=7L次计算，减少了28%的计算量。

总结

VGG-11通过5个可以重复使用的卷积块来构造网络。根据每块里卷积层个数和输出通道数的不同可以定义出不同的VGG模型。

参考文献：
[1] Simonyan, K., & Zisserman, A. (2014). Very deep convolutional networks for large-scale image recognition. arXiv preprint arXiv:1409.1556.

ywm_up

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
VGG 模型原理及 pytorch 代码

文章目录VGG，使用重复元素的网络为什么要用多个小的卷积核替代大的卷积核（小卷积核优势）总结VGG，使用重复元素的网络VGG的组成规律是：连续使用多个相同的VGG块，即填充为1、窗口形状为 3 x 3 的卷积层后接一个步幅为2、窗口形状为 2 x 2 的最大池化层。卷积层保持输入的高和宽不变，而池化层则对其减半。我们使用vgg_block函数来实现这个基础的VGG块，它可以指定卷积层的数量和输入输出通道数。定义VGG块：import timeimport torchfrom torch imp
复制链接

扫一扫

专栏目录