VGG网络论文简读及复现网络构建（Pytorch）

咏&志

已于 2022-08-04 11:15:19 修改

阅读量452

点赞数 2

分类专栏：深度学习成长日志文章标签：网络 pytorch 深度学习

于 2022-08-04 11:02:05 首次发布

本文链接：https://blog.csdn.net/qq_43163694/article/details/126154999

版权

深度学习成长日志专栏收录该内容

5 篇文章 0 订阅

订阅专栏

前言

本文中对论文的构建网络部分通读，训练部分暂时忽略，代码构建同样只做网络构建，不进行训练测试和预测（或许会另写一篇）。

理论

vgg相关论文-传送门

论述

卷积网络配置有A-E6种，权重层不断增加。

表二是不同配置的参数的数量。

网络结构

论文中的网络结构解析

2.1 ARCHITECTURE

输入224*224的RGB图片。
唯一的预处理是输入的图片的每个像素点减去训练集的平均RGB值。
使用3*3的过滤器。
在其中一个配置，甚至使用了1*1的过滤器。
卷积步幅是1个像素。
为了保持空间分辨率，3*3的过滤器使用1像素填充。
卷积层使用了5个池化（maxpool）。
maxpool使用了2*2尺寸，步幅为2。
所有的隐藏层都使用了ReLu函数。
没有使用规范化，因为没有提高精确度，反而消耗计算时间和内存。

名词解释

$output\_size=\lceil\frac{intput\_size}{stride}\rceil$
conv3-64：卷积核=3*3*n，n=输入通道数，有64个卷积核进行卷积
maxpool：最大池化层，尺寸=2*2，stride=2
“Max-pooling is performed over a 2 × 2 pixel window, with stride 2.”
FC-4096：全连接层-4096个神经元
soft-max：就是softmax函数

结构

这次选择了配置D，忽略ReLu

1	64个333的卷积核，padding=1，stride=1
	64个3364的卷积核，padding=1，stride=1
	maxpool，size=2*2，stride=2
2	128个3364的卷积核，padding=1，stride=1
	128个33128的卷积核，padding=1，stride=1
	maxpool，size=2*2，stride=2
3	256个33128的卷积核，padding=1，stride=1
	256个33256的卷积核，padding=1，stride=1
	maxpool，size=2*2，stride=2
4	512个33256的卷积核，padding=1，stride=1
	512个33512的卷积核，padding=1，stride=1
	maxpool，size=2*2，stride=2
5	512个33512的卷积核，padding=1，stride=1
	512个33512的卷积核，padding=1，stride=1
	maxpool，size=2*2，stride=2
6	全连接成4096个神经元
7	全连接成4096个神经元
8	全连接成1000个神经元
9	softmax

以上序号会对应相应的代码

实践

代码部分

import torch
import torch.nn as nn
import torchvision      
from tensorboardX import SummaryWriter

class vgg16(nn.Module):
    def __init__(self):
        super(vgg16, self).__init__()
        # 1
        self.layer1 = nn.Sequential(
            nn.Conv2d(in_channels=3, out_channels=64, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels=64, out_channels=64, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )
        
        # 2
        self.layer2 = nn.Sequential(
            nn.Conv2d(in_channels=64, out_channels=128, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels=128, out_channels=128, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )
        
        # 3
        self.layer3 = nn.Sequential(
            nn.Conv2d(in_channels=128, out_channels=256, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels=256, out_channels=256, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )
        
        # 4
        self.layer4 = nn.Sequential(
            nn.Conv2d(in_channels=256, out_channels=512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels=512, out_channels=512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )
        
        # 5
        self.layer5 = nn.Sequential(
            nn.Conv2d(in_channels=512, out_channels=512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.Conv2d(in_channels=512, out_channels=512, kernel_size=3, stride=1, padding=1),
            nn.ReLU(inplace=True),
            nn.MaxPool2d(kernel_size=2, stride=2)
        )
    
        self.conv=nn.Sequential(
                self.layer1,
                self.layer2,
                self.layer3,
                self.layer4,
                self.layer5
            )
        
        self.fc=nn.Sequential(
            # 6
            nn.Linear(512*7*7,4096),
            nn.ReLU(inplace=True),
            nn.Dropout2d(p=0.5,),
            # 7
            nn.Linear(4096,4096),
            nn.ReLU(inplace=True),
            nn.Dropout2d(p=0.5,),
            # 8
            nn.Linear(4096,1000),
            nn.ReLU(inplace=True)
        )
        
    def forward(self,x):
        x=self.conv(x)
        x = torch.flatten(x, 1)
        x = x.view(1, 512*7*7)
        x=self.fc(x)
        return x
    
vgg = vgg16()
data = torch.rand(1,3,224,224)

torch.onnx.export(vgg, data, 'D:/tmp/vgg_model2.onnx', export_params=True, opset_version=8)

with SummaryWriter(logdir="network_visualization2") as w:
    w.add_graph(vgg, data)