一位深度学习小萌新的学渣笔记(三）VGG网络介绍及代码详解

本文链接：https://blog.csdn.net/IntMain45/article/details/108240653

前言

继续学习霹雳大神的神经网络讲解视频

更新不易，希望大家可以去看原视频支持up主

VGG网络详解及感受野的计算
 使用pytorch搭建VGG网络

VGG网络结构详解与模型的搭建

简单介绍VGG

模型结构

在这里插入图片描述

经常用的是16层结构👆13层个卷积层以及3个全连接层

亮点

网络亮点：通过堆叠多个3x3 的卷积核来以替代大尺度卷积核（减少所需参数）

感受野

概念

在这里插入图片描述

例子

在这里插入图片描述

感受野计算公式

在这里插入图片描述
也就是说我们特征层3中的一个单元就相当于我们原图中的5*5的感受视野

为什么论文中说堆叠两个3x3的卷积核代替5x5的卷积核，堆叠三个3x3的卷积核替代7x7的卷积核？
在VGG网络中卷积核的步距（stride）是默认为 1 的
可以经过计算得到
在这里插入图片描述
目的：减少网络中训练参数的个数
同样可以通过计算证明

一个C是卷积核的深度就是有多层卷积，还有一个C是卷积核的个数，（因为这里假设的输入输出channel相同，所以输出的特征矩阵也是C

VGG16

参数使用

在这里插入图片描述

卷积层

通过这个参数设定的卷积层输出的高度和宽度不变：
由计算可以算得
在这里插入图片描述
我们设定的卷积核的大小就是 3*3
out =（ in - 3 + 2 ）/ 1 + 1 = in

下采样层

通过这个参数设定的下采样层输出的高度和宽度直接缩小为原来的一半：
out =（ in - 2 + 0 ）/ 2 + 1 = in / 2

基本结构

16 weight layers
Input （224x224 RGB images）

两层3x3的卷积核+ReLU
Maxpool最大下采样层

三层3x3的卷积核+ReLU
Maxpool最大下采样层

连接两个全连接层+ReLU
一层全连接层

加上一个soft-max处理进行激活
在这里插入图片描述
（2层）由于采用的卷积核conv3-64 的深度是64 所以输出的特征矩阵宽和高不变深度变成64
22422464
由于采用的下采样层maxpool 将特征矩阵宽和高缩减为原来的一半深度不变还是64 11211264
（2层）后面又是卷积核conv3-128的深度是128 所以输出的特征矩阵宽和高不变深度变成128
112112128
下采样层maxpool 将特征矩阵宽和高缩减为原来的一半深度不变还是128
5656128
（三层）卷积核conv3-256的深度是256 所以输出的特征矩阵宽和高不变深度变成256
5656256
下采样层maxpool 将特征矩阵宽和高缩减为原来的一半深度不变还是256
2828256
（三层）卷积核conv3-512的深度是512 所以输出的特征矩阵宽和高不变深度变成512
2828512
下采样层maxpool 将特征矩阵宽和高缩减为原来的一半深度不变还是512
1414512
（三层）卷积核conv3-512的深度是512 所以输出的特征矩阵宽和高不变深度变成512
1414512
下采样层maxpool 将特征矩阵宽和高缩减为原来的一半深度不变还是512
77512
（三层）全连接层
FC-4096（ReLU）
FC-4096（ReLU）
FC-1000

model.py中代码解读

提取特征网络结构

卷积层+下采样层

cfgs = {
   
    'vgg11': [64, 'M', 128, 'M', 256, 256, 'M', 512