vgg16的复现

COOLRANEN

已于 2023-07-25 16:43:48 修改

阅读量181

点赞数

分类专栏：深度学习文章标签：深度学习人工智能

于 2023-06-29 12:44:16 首次发布

本文链接：https://blog.csdn.net/m0_57122465/article/details/131453872

版权

深度学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

前言

因为在faster rcnn 以及ssd算法中多次看见用vgg16作为backbone，所以专门再次学习一下这个经典的网络。

具体细节还需要仔细研究原论文

Very Deep Convolutional Networks for Large-Scale Image Recognition

[1409.1556] Very Deep Convolutional Networks for Large-Scale Image Recognition (arxiv.org)

本文只针对vgg16的网络结构以及输入输出做介绍

通过这两张图片我们就可以很清楚的明白vgg16的架构（图二vgg16为D组）

将图片resize为（224,224,3）作为输入

1.通过2次[3,3]的卷积层，输出为[224,224,64],在经过最大池化层（卷积核为2x2，stride为2）特征图长宽尺寸减半输出为[112,112,64]

2.通过2次[3,3]的卷积层，输出为[112,112,128],在经过最大池化层（卷积核为2x2，stride为2）特征图长宽尺寸减半输出为[56,56,128]

3.通过3次[3,3]的卷积层，输出为[56,56,256],在经过最大池化层（卷积核为2x2，stride为2）特征图长宽尺寸减半输出为[28,28,256]

4.通过3次[3,3]的卷积层，输出为[28,28,512],在经过最大池化层（卷积核为2x2，stride为2）特征图长宽尺寸减半输出为[14,14,512]

5.通过3次[3,3]的卷积层，输出为[14,14,512],在经过最大池化层（卷积核为2x2，stride为2）特征图长宽尺寸减半输出为[7,7,512]

6.然后将[7,7,512]的维度展平为7*7*512的一维，然后放入2层全连接层的分类器，输,出（1,1,4096），然后在接一个全连接层输出为(1，1,1000),最后接一个softmax层计算分类概率

以下是实现代码

from torch import nn
class vgg16(nn.Module):
    def __init__(self,num_classes=1000):
        super(vgg16,self).__init__()
        layers=[]
        in_channels=3
        out_channels=64
        #循环构造卷积层，一共有13个卷积层
        for i in range(13):
            layers+=[nn.Conv2d(in_channels,out_channels,kernel_size=3,stride=1,padding=1),
                     nn.ReLU(inplace=True)]
            in_channels=out_channels
            #在第2,4,7,10,13个卷积层后面增加池化层
            if i==1 or i==3 or i==6 or i==9 or i==12:
                layers +=[nn.MaxPool2d(kernel_size=2,stride=2)]
                #在第10个卷层后保持与前边通道数一致，都为512，其余加倍
                if i !=9:
                    out_channels*=2
        self.features = nn.Sequential(*layers)

        #vgg16的3个连接层，中间有ReLU与Dropout层
        self.classifier = nn.Sequential(
            nn.Linear(512*7*7,4096),
            nn.ReLU(True),
            nn.Dropout(),
            nn.Linear(4096,4096),
            nn.ReLU(True),
            nn.Dropout(),
            nn.Linear(4096,num_classes)
        )

    def forward(self,x):
        x=self.features(x)
        #经过特征提取后需要再进入线性层之前将特征图进行展平，将[1,512,7,7]变为[1,1，512*7*7]
        x=x.view(x.size(0),-1)
        x=self.classifier(x)
        return x

COOLRANEN

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
vgg16的复现

1.通过2次[3,3]的卷积层，输出为[224,224,64],在经过最大池化层（卷积核为2x2，stride为2）特征图长宽尺寸减半输出为[112,112,64]4.通过3次[3,3]的卷积层，输出为[28,28,512],在经过最大池化层（卷积核为2x2，stride为2）特征图长宽尺寸减半输出为[14,14,512]5.通过3次[3,3]的卷积层，输出为[14,14,512],在经过最大池化层（卷积核为2x2，stride为2）特征图长宽尺寸减半输出为[7,7,512]具体细节还需要仔细研究原论文。
复制链接

扫一扫