VGGNet网络结构简单介绍

最新推荐文章于 2024-08-18 22:00:00 发布

iownlucky

最新推荐文章于 2024-08-18 22:00:00 发布

阅读量1.5k

点赞数

文章标签：深度学习

本文链接：https://blog.csdn.net/iownlucky/article/details/107591000

版权

VGGNet简单概括

深度学习在数据处理和数据计算上最重要的就是卷积层和全连接层，VGGNet可以看成是加深版本的AlexNet，都是由卷积层、全连接层两大部分构成。2014年，牛津大学计算机视觉组（Visual Geometry Group）和Google DeepMind公司的研究员一起研发出了新的深度卷积神经网络：VGGNet，并取得了ILSVRC2014比赛分类项目的第二名（第一名是GoogLeNet，也是同年提出的）和定位项目的第一名。
由此可见，VGGNet的效果非常的好。VGGNet探索了卷积神经网络的深度与其性能之间的关系，成功地构筑了16~19层深的卷积神经网络，证明了增加网络的深度能够在一定程度上影响网络最终的性能，使错误率大幅下降，同时拓展性又很强，迁移到其它图片数据上的泛化性也非常好。目前为止，VGGNet依然被用来提取图像的特征。

VGGNet的特点

1.小卷积核和多卷积子层
卷积核的尺寸设置为(3x3)是因为这是捕获左/右，上/下，中心概念的最小尺寸。

使用1x1的卷积核目的是在不影响输入输出的维度情况下，对输入进行形变，再通过ReLU进行非线性处理，提高决策函数的非线性。1x1的卷积神经网络还可以用来替代全连接层。

使用小卷积核(3x3)和多卷积子层代替一个卷积核较大的卷积层的好处一是可以减少参数，二是相当于进行了更多的非线性映射，可以增加网络的拟合/表达能力。

相比于AlexNet中较大的卷积核尺寸（如11x11, 7x7），VGG通过降低卷积核的大小（3x3），增加卷积子层数来达到同样的性能（VGG：从1到4卷积子层，AlexNet：1子层）。

2.小池化核
相比AlexNet的3x3的池化核，VGG全部采用2x2的池化核。

3.通道数多
VGG网络第一层的通道数为64，后面每层都进行了翻倍，最多到512个通道，通道数的增加，使得更多的信息可以被提取出来。

4.层数更深、特征图更宽
由于卷积核专注于扩大通道数、池化专注于缩小宽和高，使得模型架构上更深更宽的同时，控制了计算量的增加规模。
概括：
VGGNET全部使用的卷积核和的池化核，通过不断加深网络深度来提升性能。两个卷积层的串联相当于1个的卷积层，3个的卷积层串联相当于1个7*7的卷积层，即3个卷积层的感受野大小相当于1个的卷积层。但是3个的卷积层参数量只有的一半左右，同时前者可以有3个非线性操作，而后者只有1个非线性操作，这样使得前者对于特征的学习能力更强。
VGGNet的卷积层有一个显著的特点：特征图的空间分辨率单调递减，特征图的通道数单调递增。

cifar10数据集代码实现

import torch.nn as nn


cfg = {
    'VGG11': [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
    'VGG13': [64, 64, 'M', 128, 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
    'VGG16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M'],
    'VGG19': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'M', 512, 512, 512, 512, 'M', 512, 512, 512, 512, 'M'],
}


class VGG(nn.Module):
    def __init__(self, vgg_name):
        super(VGG, self).__init__()
        self.features = self._make_layers(cfg[vgg_name])
        self.classifier = nn.Linear(512, 10)

    def forward(self, x):
        out = self.features(x)
        out = out.view(out.size(0), -1)
        out = self.classifier(out)
        return out

    def _make_layers(self, cfg):
        layers = []
        in_channels = 3
        for x in cfg:
            if x == 'M':
                layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
            else:
                layers += [nn.Conv2d(in_channels, x, kernel_size=3, padding=1),
                           nn.BatchNorm2d(x),
                           nn.ReLU(inplace=True)]
                in_channels = x
        layers += [nn.AvgPool2d(kernel_size=1, stride=1)]
        return nn.Sequential(*layers)


def VGG11():
    return VGG('VGG11')


def VGG13():
    return VGG('VGG13')


def VGG16():
    return VGG('VGG16')


def VGG19():
    return VGG('VGG19')