VGG16网络参数细节

最新推荐文章于 2025-03-21 11:52:28 发布

不完美的上帝

最新推荐文章于 2025-03-21 11:52:28 发布

阅读量4.4k

点赞数 2

文章标签： pytorch 深度学习神经网络

本文链接：https://blog.csdn.net/weixin_42534045/article/details/120121206

版权

本文详细介绍了VGG16网络结构，包括其由6个版本组成的系列，重点讲解了VGG16的具体配置，如卷积层、最大池化层的设置。VGG16在ILSVRC2014比赛中取得优异成绩，并因其简洁结构和良好的泛化能力常用于图像特征提取。文章还给出了Pytorch实现VGG16的代码示例，展示其全连接层的模拟过程。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

本篇将记录VGG16网络的基本结构信息，VGG16相关说明已经很多了，但是每层细节的介绍很少。VGG16网络是2014年牛津大学计算机视觉组和Google DeepMind公司研究员一起研发的深度网络模型。该网络一共有16个训练参数的网络，它的兄弟版本如下图所示，清晰的展示了每一级别的参数量，从11层的网络一直到19层的网络。VGG16网络取得了ILSVRC 2014比赛分类项目的第2名，定位项目的第1名。VGGNet网络结构简洁，迁移到其他图片数据上的泛化性能非常好。VGGNet现在依然经常被用来提取图像特征，该网络训练后的模型参数在其官网上开源了，可以用来在图像分类任务上进行在训练，即：提供了非常好的初始化权重，使用较为广泛。
网络结构：
在这里插入图片描述
一共有6个版本，其中VGG16应用比较广泛

详细说明：
1、一张原始图片被resize到(224,224,3)。
2、conv1两次[3,3]卷积网络，输出的特征层为64，输出为(224,224,64)，再2X2最大池化，输出net为(112,112,64)。
3、conv2两次[3,3]卷积网络，输出的特征层为128，输出net为(112,112,128)，再2X2最大池化，输出net为(56,56,128)。
4、conv3三次[3,3]卷积网络，输出的特征层为256，输出net为(56,56,256)，再2X2最大池化，输出net为(28,28,256)。
5、conv3三次[3,3]卷积网络，输出的特征层为256，输出net为(28,28,512)，再2X2最大池化，输出net为(14,14,512)。
6、conv3三次[3,3]卷积网络，输出的特征层为256，输出net为(14,14,512)，再2X2最大池化，输出net为(7,7,512)。
7、利用卷积的方式模拟全连接层，效果等同，输出net为(1,1,4096)。共进行两次。
8、利用卷积的方式模拟全连接层，效果等同，输出net为(1,1,1000)。
最后输出的就是每个类的预测。

更详细说明：
在这里插入图片描述
Pytorch 代码

from torch import nn

class VGG(nn.Module):
    def __init__(self, num_classes=1000):
        super(VGG, self).__init__()
        layers = []
        in_dim = 3
        out_dim = 64
        for i in range(13):
            layers += [nn.Conv2d(in_dim, out_dim, 3, 1, 1), nn.ReLU(inplace=True)]
            in_dim = out_dim
            if i==1 or i==3 or i==6 or i==9 or i==12:
                layers += [nn.MaxPool2d(2, 2)]
                if i!=9:
                    out_dim*=2
        self.features = nn.Sequential(*layers)
        self.classifier = nn.Sequential(
            nn.Linear(512 * 7 * 7, 4096),
            nn.ReLU(True),
            nn.Dropout(),
            nn.Linear(4096, 4096),
            nn.ReLU(True),
            nn.Dropout(),
            nn.Linear(4096, num_classes),
        )
        
    def forward(self, x):
        x = self.features(x)
        x = x.view(x.size(0), -1)
        x = self.classifier(x)
        return x