VGG网络模型详解以及代码实现

本文详细介绍了VGG网络模型,包括其由来、原理和与AlexNet的区别。重点解析了VGG-16和VGG-19的结构,并提供了详细的卷积层配置。此外,还展示了代码实现的概要,用于图像预测。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

一、背景

VGGNet是在2014年由Karen Simonyan和Andrew Zisserman提出的,网络模型包括VGG-11、VGG-13、VGG-16以及VGG-19,其中VGG-16和VGG-19在分类和定位任务上效果最好,因此作者在2014年ImageNet Challenge上获得分类第二和定位第一的网络。
论文地址:VERY DEEP CONVOLUTIONAL NETWORKS FOR LARGE-SCALE IMAGE RECOGNIT

1. VGG原理

VGG与AlexNet相比,它是将AlexNet模型中较大的卷积核(例如:11 x 11、7 x 7、5 x 5)换成连续几个3 x 3的卷积核。其目的是:减少网络参数量;由于参数量被大幅减小,于是可以用多个感受野小的卷积层替换掉之前一个感受野大的卷积层,从而增加网络的非线性表达能力。
例如:两个3x3的卷积层的感受野可以代替一个5x5的卷积层,三个3x3的卷积层可以代替一个7x7的卷积层,这样可以有效地减少参数计算成本。假设输入输出channel均为C,三个3x3参数个数为3x(3x3xCxC)=27xC²,一个7x7参数个数为7x7xCxC=49xC²,因此用三个3x3的卷积层代替一个7x7的卷积层可以节省近一半的参数计算量。

二、VGG网络模型详解及代码实现

1. VGG网络模型详解

在这里插入图片描述
VGG-16和VGG-19如上图的D和E所示:
VGG-16:包括16个隐藏层(13个卷积层和3个全连接层)
VGG-19:包括19个隐藏层(16个卷积层和3个全连接层)
以VGG-16为例,如下图所示:
在这里插入图片描述
详细过程为

block1:

  • Conv1
  1. 输入图像大小:224 * 224 * 3 (RGB图像)
  2. 卷积核(filter)大小:3 * 3
  3. 卷积核个数:64
  4. 步长(stride):1
  5. padding方式:SAME
  6. 输出featureMap大小:224 * 224 * 64
  • Conv2
  1. 输入图像大小:224 * 224 * 64
  2. 卷积核(filter)大小:3 * 3
  3. 卷积核个数:64
  4. 步长(stride):1
  5. padding方式:SAME
  6. 输出featureMap大小:224 * 224 * 64
  • Pool1
  1. 输入图像大小:224 * 224 * 64
  2. 采样大小:2 * 2
  3. padding方式:SAME
  4. 输出图像大小:112 * 112 * 64

block2:

  • Conv3
  1. 输入图像大小:112 * 112 * 64
  2. 卷积核(filter)大小:3 * 3
  3. 卷积核个数:128
  4. 步长(stride):1
  5. padding方式:SAME
  6. 输出featureMap大小:112 * 112 * 128
  • Conv4
  1. 输入图像大小:112 * 112 * 64
  2. 卷积核(filter)大小:3 * 3
  3. 卷积核个数:128
  4. 步长(stride):1
  5. padding方式:SAME
  6. 输出featureMap大小:112 * 112 * 128
  • Pool2
  1. 输入图像大小:112 * 112 * 128
  2. 采样大小:2 * 2
  3. padding方式:SAME
  4. 输出图像大小:56 * 56 * 128

block3:

  • Conv5
  1. 输入图像大小:56 * 56 * 128
  2. 卷积核(filter)大小:3 * 3
  3. 卷积核个数:256
  4. 步长(stride):1
  5. padding方式:SAME
  6. 输出featureMap大小:56 * 56 * 256
  • Conv6
  1. 输入图像大小:56 * 56 * 256
  2. 卷积核(filter)大小:3 * 3
  3. 卷积核个数:256
  4. 步长(stride):1
  5. padding方式:SAME
  6. 输出featureMap大小:56 * 56 * 256
  • Conv7
  1. 输入图像大小:56 * 56 * 256
  2. 卷积核(filter)大小:3 * 3
  3. 卷积核个数:256
  4. 步长(stride):1
  5. padding方式:SAME
  6. 输出featureMap大小:56 * 56 * 256
  • Pool3
  1. 输入图像大小:56 * 56* 256
  2. 采样大小:2 * 2
  3. padding方式:SAME
  4. 输出图像大小:28 * 28 * 256

block4:

  • Conv8
  1. 输入图像大小:28 * 28 * 256
  2. 卷积核(filter)大小:3 * 3
  3. 卷积核个数:512
  4. 步长(stride):1
  5. padding方式:SAME
  6. 输出featureMap大小:28 * 28 * 512
  • Conv9
  1. 输入图像大小:28 * 28 * 512
  2. 卷积核(filter)大小:3 * 3
  3. 卷积核个数:512
  4. 步长(stride):1
  5. padding方式:SAME
  6. 输出featureMap大小:28 * 28 * 512
  • Conv10
  1. 输入图像大小:28 * 28 * 512
  2. 卷积核(filter)大小:3 * 3
  3. 卷积核个数:512
  4. 步长(stride):1
  5. padding方式:SAME
  6. 输出featureMap大小:28 * 28 * 512
  • Pool4
  1. 输入图像大小:28 * 28 * 512
  2. 采样大小:2 * 2
  3. padding方式:SAME
  4. 输出图像大小:14 * 14 * 512

block5:

  • Conv11
  1. 输入图像大小:14 * 14 * 512
  2. 卷积核(filter)大小:3 * 3
  3. 卷积核个数:512
  4. 步长(stride):1
  5. padding方式:SAME
  6. 输出featureMap大小:14 * 14 * 512
  • Conv12
  1. 输入图像大小:14 * 14 * 512
  2. 卷积核(filter)大小:3 * 3
  3. 卷积核个数:512
  4. 步长(stride):1
  5. padding方式:SAME
  6. 输出featureMap大小:14 * 14 * 512
  • Conv13
  1. 输入图像大小:14 * 14 * 512
  2. 卷积核(filter)大小:3 * 3
  3. 卷积核个数:512
  4. 步长(stride):1
  5. padding方式:SAME
  6. 输出featureMap大小:14 * 14 * 512
  • Pool5
  1. 输入图像大小:14 * 14 * 512
  2. 采样大小:2 * 2
  3. padding方式:SAME
  4. 输出图像大小:7 * 7* 512

最后三层全连接层和AlexNet最后三层相同,可以参考博客:AlexNet模型详解及代码实现

2. 代码实现

import matplotlib.pyplot as plt

from keras.applications.vgg16 import VGG16
from keras.preprocessing import image
from keras.applications.vgg16 import preprocess_input, decode_predictions
impor
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值