CV 经典主干网络 (Backbone) 系列: VGGNet
作者:Karen Simonyan 等
发表时间:2014
Paper 原文:Very Deep Convolutional Networks for Large-Scale Image Recognition
该篇是 CV 经典主干网络 (Backbone) 系列 下的一篇文章。
这个模型在当年的 ImageNet 挑战赛上分别取得了检测和分类任务的第一和第二名的成绩。论文中提出了一系列网络结构,用的较多的是 VGG16 和 VGG19,当然到了今天(2021年)都已经很少用了。
1. 网络结构
现在来看这个网络结构还是非常简单明了的。
在但是 VGGNet 主要的突破在于:
-
选用比较小的卷积核(3x3),而之前无论 AlexNet 还是 LeNet5 都是采用较大的卷积核,比如 11x11, 7x7。而采用小卷积核的意义主要有两点,一是在取得相同的感受野的情况下,比如两个3x3的感受野和一个5x5的感受野的大小相同,但是计算量却小了很多,关于这点原文中有很详细的解释,建议直接看原文;第二