前言
继续学习霹雳大神的神经网络讲解视频
更新不易,希望大家可以去看原视频支持up主
VGG网络详解及感受野的计算
使用pytorch搭建VGG网络
VGG网络结构详解与模型的搭建
简单介绍VGG
模型结构
- 经常用的是16层结构👆13层个卷积层以及3个全连接层
亮点
- 网络亮点:通过堆叠多个3x3 的卷积核来以替代大尺度卷积核(减少所需参数)
感受野
概念
例子
感受野计算公式
也就是说我们特征层3中的一个单元就相当于我们原图中的5*5的感受视野
为什么论文中说堆叠两个3x3的卷积核代替5x5的卷积核,堆叠三个3x3的卷积核替代7x7的卷积核?
在VGG网络中卷积核的步距(stride)是默认为 1 的
可以经过计算得到
目的:减少网络中训练参数的个数
同样可以通过计算证明
一个C是卷积核的深度就是有多层卷积,还有一个C是卷积核的个数,(因为这里假设的输入输出channel相同,所以输出的特征矩阵也是C
VGG16
参数使用
卷积层
通过这个参数设定的卷积层输出的高度和宽度不变:
由计算可以算得
我们设定的卷积核的大小就是 3*3
out =( in - 3 + 2 )/ 1 + 1 = in
下采样层
通过这个参数设定的下采样层输出的高度和宽度直接缩小为原来的一半:
out =( in - 2 + 0 )/ 2 + 1 = in / 2
基本结构
16 weight layers
Input (224x224 RGB images)
两层3x3的卷积核+ReLU
Maxpool最大下采样层
两层3x3的卷积核+ReLU
Maxpool最大下采样层
三层3x3的卷积核+ReLU
Maxpool最大下采样层
三层3x3的卷积核+ReLU
Maxpool最大下采样层
连接两个全连接层+ReLU
一层全连接层
加上一个soft-max处理进行激活
(2层)由于采用的卷积核conv3-64 的深度是64 所以输出的特征矩阵 宽和高不变 深度变成64
22422464
由于采用的下采样层maxpool 将特征矩阵 宽和高缩减为原来的一半 深度不变还是64 11211264
(2层)后面又是卷积核conv3-128的深度是128 所以输出的特征矩阵 宽和高不变 深度变成128
112112128
下采样层maxpool 将特征矩阵 宽和高缩减为原来的一半 深度不变还是128
5656128
(三层)卷积核conv3-256的深度是256 所以输出的特征矩阵 宽和高不变 深度变成256
5656256
下采样层maxpool 将特征矩阵 宽和高缩减为原来的一半 深度不变还是256
2828256
(三层)卷积核conv3-512的深度是512 所以输出的特征矩阵 宽和高不变 深度变成512
2828512
下采样层maxpool 将特征矩阵 宽和高缩减为原来的一半 深度不变还是512
1414512
(三层)卷积核conv3-512的深度是512 所以输出的特征矩阵 宽和高不变 深度变成512
1414512
下采样层maxpool 将特征矩阵 宽和高缩减为原来的一半 深度不变还是512
77512
(三层)全连接层
FC-4096(ReLU)
FC-4096(ReLU)
FC-1000
model.py中代码解读
提取特征网络结构
卷积层+下采样层
cfgs = {
'vgg11': [64, 'M', 128, 'M', 256, 256, 'M', 512