深度学习图像处理之VGG网络模型 (超级详细)

最新推荐文章于 2025-05-02 23:31:28 发布

BigHao688

最新推荐文章于 2025-05-02 23:31:28 发布

阅读量4.1w

点赞数 29

文章标签：深度学习图像处理网络

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/BIgHAo1/article/details/121105934

版权

VGG网络由牛津大学VGG研究所提出，在ImageNet竞赛中取得了优异成绩。该文详细介绍了VGG网络的六种配置及常用的VGG-16结构，通过堆叠3×3卷积核代替大尺度卷积核，减少了参数量并保持了感受野。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

VGG介绍:

由牛津大学著名研究所VGG提出，斩获该年ImageNet竞赛中Localization Task（定位任务）第一名和Classification Task（分类任务）第二名。

VGG网络的配置：（VGG-16是许多模型中的主干网络）

在原论文中，作者给了6个VGG网络的不同配置，并且尝试了不同的深度（11、13、16、19层）以及是否采用LRN等。在实际使用过程中，我们一般都会采用D这个配置，即16层：13个卷积层以及最后3个全连接层。

VGG网络的亮点：

通过堆叠多个33的卷积核来代替大尺度卷积核（目的：减少所需参数）。在原论文中提到，可以通过堆叠2个33的卷积核替代55卷积核（使得2个33的卷积核与55的卷积核拥有相同的感受野）；堆叠3个33的卷积核替代77的卷积核（使得3个33的卷积核与7*7的卷积核拥有相同的感受野）。

概念扩展-CNN感受野（receptive field）：

在卷积神经网络中，决定某一层输出结果中一个元素所对应的输入层的区域大小，被称作感受野。通俗的来说就是，输出feature map 上的一个单元对应输入层上的区域大小。

简单例子：

如上图，最下层是一个991的特征矩阵，首先将其通过Conv1（大小为33，步距为1），通过计算公式，可以得到大小为441的特征矩阵；再将其通过最大池化下载量操作（大小为22，步距为2），得到一个221的大小。

接下来计算感受野：

Feature map(最后得到的特征图)：F=1

Pool1层：其输出的是22大小，其输入的是44大小，Ksize=2,Stride=2则F=（1-1）*2+2=2

Conv1：其输出的是44大小，其输入的是99大小，Ksize=3,Stride=2则F=（2-1）*2+3=5

VGG网络结构：

上面我们说过，我们常用的是D配置，即VGG-16，其过程为：①输入224大小的RGB图像②通过两层33的卷积核③通过maxpool(最大下载量)④通过两层33的卷积核⑤通过maxpool⑥通过三层33的卷积核⑦通过maxpool⑧通过三层33的卷积核⑨通过maxpool⑩通过三层3*3的卷积核、通过maxpool、通过三个全连接层、通过soft-max处理，得到概率分布。

补充：（通过3*3的卷积核，输入、输出尺寸不变；通过maxpool，将特征矩阵的高和宽直接缩小一半）。

结构图：（通过D这个模型进行绘制的）

说明：白色矩形框：代表卷积和激活函数

红色矩形框：代表最大池化下载量

蓝色矩形框：全连接层和激活函数

橙色矩形框：softmax处理

结构过程：（配置表和结构图一起观察）

1、首先输入一张2242243大小的图像，经过两个33的卷积层之后，所得到的特征图大小为224224*64（尺寸大小不变，因为采用的是64个卷积核，所以深度也为64）。

2、通过一个最大池化下载量层，得到的特征图为11211264（大小缩小一半，不改变深度）。

3、再通过两个33128的卷积层，得到的特征图为112112128（深度变为128）。

4、通过一个最大池化下载量层，得到的特征图为5656128（大小缩小一半，不改变深度）。

5、再通过三个33256的卷积层，得到的特征图为5656256（深度变为256）。

6、通过一个最大池化下载量层，得到的特征图为2828256（大小缩小一半，不改变深度）。

7、再通过三个33512的卷积层，得到的特征图为2828512（深度变为512）。

8、通过一个最大池化下载量层，得到的特征图为1414512（大小缩小一半，不改变深度）。

9、再通过三个33512的卷积层，得到的特征图为1414512（深度变为512）。

10、通过一个最大池化下载量层，得到的特征图为77512（大小缩小一半，不改变深度）。

11、再通过两个为4000个节点的全连接层以及激活函数，得到114096向量

12、再通过一个为1000个节点的全连接层（因为1000个类别），注意不需要激活函数，得到111000向量。

13、最后将通过全连接层得到的一维向量，输入到softmax激活函数，将预测结果转化为概率分布。

评论 2

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。