【CNN】VggNet——加深版的AlexNet

最新推荐文章于 2024-06-24 09:47:03 发布

lingchen1906

最新推荐文章于 2024-06-24 09:47:03 发布

阅读量259

点赞数

分类专栏： CNN # VggNet网络模型文章标签： cnn 深度学习

本文链接：https://blog.csdn.net/lingchen1906/article/details/127979178

版权

CNN 同时被 2 个专栏收录

12 篇文章 1 订阅

订阅专栏

VggNet网络模型

1 篇文章 0 订阅

订阅专栏

前言

2014年，牛津大学计算机视觉组（Visual Geometry Group）和Google DeepMind公司的研究员一起研发出了新的深度卷积神经网络：VGGNet，并取得了ILSVRC2014比赛分类项目的第二名（第一名是GoogLeNet，也是同年提出的）和定位项目的第一名。

VGGNet探索了卷积神经网络的深度与其性能之间的关系，成功地构筑了16~19层深的卷积神经网络，证明了增加网络的深度能够在一定程度上影响网络最终的性能，使错误率大幅下降，同时拓展性又很强，迁移到其它图片数据上的泛化性也非常好。到目前为止，VGG仍然被用来提取图像特征。

论文下载链接：https://arxiv.org/pdf/1409.1556.pdf%E3%80%82

一、VggNet模型

在这里插入图片描述
如上图所示是经典的Vgg16网络模型：

（1）模型接收的输入是彩色图像，数据存储的形状为（B, C, H, W) 分别代表（图像数量，图片色彩通道，图片高度，图片宽度）以上图实例中为（1，3，224，224）
（2）模型的特征提取阶段是不断重复堆叠卷积层和池化层实现的，一共经过5次下采样（图中红颜色的层结构），下采样方式为最大池化。注意：通过调整步长（strdie）和填充（padding），网络中的所有卷积操作都没有改变输入特征图的尺寸。
（3）在最后的顶层设计中，经过三个全连接层实现对图片的分类操作。注意：由于全连接层的存在，网络只能接收固定大小的图像尺寸。

二、网络贡献总结

1、结构简洁

VGG中的所有卷积层kernel size，stride和padding都相同，层与层之间使用max-pooling（最大化池）分开，所有隐层的激活单元都采用ReLU函数，最后接3层全连接层、softmax输出层构成。整个模型结构异常简单明了，这也是为什么直到今天VGG也依然被很多工作用于图像的特征提取器的原因：大道至简。

2、小卷积核

VGG中的所有卷积操作都是使用小卷积核（3x3）。相较于大卷积核，一方面可以减少参数；另一方面，省下的参数可以用于堆叠更多的卷积层，相当于进行了更多的非线性映射，可以增加网络的拟合，表达，特征提取能力。

小卷积核是VGG的一个重要特点，虽然VGG是在模仿AlexNet的网络结构，但没有采用AlexNet中比较大的卷积核尺寸（如7x7），而是通过降低卷积核的大小（3x3），增加卷积子层数来达到同样的性能

VGG的作者认为两个3x3的卷积堆叠获得的感受野大小，相当一个5x5的卷积；而3个3x3卷积的堆叠获取到的感受野相当于一个7x7的卷积。这样可以增加非线性映射，也能很好地减少参数（例如7x7的参数为49个，而3个3x3的参数为27）

3、小池化核

相比AlexNet的3x3的池化核，VGG全部采用2x2的池化核。

4、通道数多

VGG网络第一层的通道数为64，后面每层都进行了翻倍，最多达到512个通道。相比较于AlexNet和ZFNet最多得到的通道数是256，VGG 的通道数进行了翻倍，使得更多的信息可以被卷积操作提取出来。

5、层数更深、特征图更多

网络中，卷积层专注于扩大feature maps的通道数、池化层专注于缩小feature maps的宽和高，使得模型架构上更深更宽的同时，控制了计算量的增加规模。

三、代码实现（基于pytorch的python代码）

import torch.nn as nn
import torch
 
class VGG(nn.Module):
    def __init__(self, features, num_classes=1000, init_weights=False):
        super(VGG, self).__init__()
        self.features = features
        self.classifier = nn.Sequential(
            nn.Linear(512*7*7, 4096),
            nn.ReLU(True),
            nn.Dropout(p=0.5),
            nn.Linear(4096, 4096),
            nn.ReLU(True),
            nn.Dropout(p=0.5),
            nn.Linear(4096, num_classes)
        )
        if init_weights:
            self._initialize_weights()

    def forward(self, x):
        # N x 3 x 224 x 224
        x = self.features(x)
        # N x 512 x 7 x 7
        x = torch.flatten(x, start_dim=1)
        # N x 512*7*7
        x = self.classifier(x)
        return x

    def _initialize_weights(self):
        for m in self.modules():
            if isinstance(m, nn.Conv2d):
                # nn.init.kaiming_normal_(m.weight, mode='fan_out', nonlinearity='relu')
                nn.init.xavier_uniform_(m.weight)
                if m.bias is not None:
                    nn.init.constant_(m.bias, 0)
            elif isinstance(m, nn.Linear):
                nn.init.xavier_uniform_(m.weight)
                # nn.init.normal_(m.weight, 0, 0.01)
                nn.init.constant_(m.bias, 0)


def make_features(cfg: list):
    layers = []
    in_channels = 3
    for v in cfg:
        if v == "M":
            layers += [nn.MaxPool2d(kernel_size=2, stride=2)]
        else:
            conv2d = nn.Conv2d(in_channels, v, kernel_size=3, padding=1)
            layers += [conv2d, nn.ReLU(True)]
            in_channels = v
    return nn.Sequential(*layers)

# vgg_tiny(VGG11), vgg_small(VGG13), vgg(VGG16), vgg_big(VGG19)
cfgs = {
    'vgg11': [64, 'M', 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],   
    'vgg13': [64, 64, 'M', 128, 128, 'M', 256, 256, 'M', 512, 512, 'M', 512, 512, 'M'],
    'vgg16': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 'M', 512, 512, 512, 'M', 512, 512, 512, 'M'],
    'vgg19': [64, 64, 'M', 128, 128, 'M', 256, 256, 256, 256, 'M', 512, 512, 512, 512, 'M', 512, 512, 512, 512, 'M'],
}


def vgg11(num_classes): 
    cfg = cfgs["vgg11"]
    model = VGG(make_features(cfg), num_classes=num_classes)
    return model

def vgg13(num_classes):  
    cfg = cfgs["vgg13"]
    model = VGG(make_features(cfg), num_classes=num_classes)
    return model

def vgg16(num_classes):  
    cfg = cfgs["vgg16"]
    model = VGG(make_features(cfg), num_classes=num_classes)
    return model

def vgg19(num_classes):  
    cfg = cfgs['vgg19']
    model = VGG(make_features(cfg), num_classes=num_classes)
    return model

总结

Vgg证明了较深的层级结构可以帮助模型更好地提取特征，所谓的更好是指可以提取到蕴含语义信息更多的高级特征，这种高级语义的特征对分类任务很有帮助。

lingchen1906

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
打赏
0
评论
【CNN】VggNet——加深版的AlexNet

VGG中的所有卷积层kernel size，stride和padding都相同，层与层之间使用max-pooling（最大化池）分开，所有隐层的激活单元都采用ReLU函数，最后接3层全连接层、softmax输出层构成。整个模型结构异常简单明了，这也是为什么直到今天VGG也依然被很多工作用于图像的特征提取器的原因：大道至简。Vgg证明了较深的层级结构可以帮助模型更好地提取特征，所谓的更好是指可以提取到蕴含语义信息更多的高级特征，这种高级语义的特征对分类任务很有帮助。
复制链接

扫一扫