1.1 VGG结构概要

最新推荐文章于 2023-08-25 20:07:09 发布

skywuuuu

最新推荐文章于 2023-08-25 20:07:09 发布

阅读量600

点赞数 1

分类专栏： CV的基础骨干神经网络（Backbone）论文解读文章标签：深度学习卷积

本文链接：https://blog.csdn.net/skywuuu/article/details/110914959

版权

CV的基础骨干神经网络（Backbone）论文解读专栏收录该内容

4 篇文章 0 订阅

订阅专栏

VGG结构概要

VGG论文原文链接

ABSTRACT

在工作中，研究者调查了CNN的深度在识别大规模图片的精度上的作用。主要的贡献是对提高深度和使用非常小（3×3）的卷积核进行了详尽的评估，发现在当时的技术下，当深度为16-19层时，网络性能有一个非常重大的提升。

INTRODUCTION

当CNN在计算机视觉的领域越来越有用，大量的在AlexNet (2012)基础上的改进出现了。比如用更小size和stride的卷积层。另一项提升涉及到在整个图像和多尺度上密集地训练和测试网络。在这片文章中，研究者强调了在CNN结构设计上的另一个重要方面，即深度。
在Section 2，研究者介绍了他们CNN的配置；Section 3是图像分类训练和评估（training and evaluation）的细节；Section 4是在ILSVRC分类任务上对比不同配置；Section 5总结全文。

2 CONVNET CONFIGURATIONS

在2.1会先描述通用的ConvNet配置；2.2是测试（evaluation）方面的特殊配置；2.3讨论了设计选择并且将其与当时的技术进行比较

2.1 ARCHITECTURE

在训练过程中，input是224×224的RGB image ([batch_size, 3, 224, 224])。研究者唯一的preprocessing是对每个像素都减去了在训练集上计算出来的平均RGB值。图像会经过一沓卷积层，其中卷积核都是3×3的。在其中一种配置中，研究者也使用了1×1的卷积核，这种配置可以被看做是对输入通道的线性变换（紧接着是非线性的）。卷积层的stride都是1，padding会使得原本的Height和Width不会改变。池化操作使用了5个max-pooling层，它们跟在一些卷积层后，但不是全部卷积层，max-pooling是2×2的，stride为2.
在一沓卷积层后是全连接层（FC layers），前两个是4096通道，第三个是1000通道（与ILSVRC分类的数量相对应），最后一层是soft-max层。对于所有的网络来说，全连接层的配置都是一样的。
所有的隐含层都用了ReLU，而且研究者发现了Local Response Normalisation（LRN）是没有用的（Section 4会讲）。LRN不会提升性能，反而会增加内存消耗和计算时间。

2.2 CONFIGURATIONS

Tabel 1是ConvNet的配置，从A到E深度越来越深（A有8卷积层+3全连接层=11层，E有16卷积层+3全连接层=19层）。通道数量从第一层的64开始在每个池化层后以两倍增长直到512（也就是64，128, …, 512）
Tabel 2中，研究者汇报了每个配置的参数数量。尽管深度很深，但是他们的网络的权重没有那些深度浅，卷积层的宽度更大，感受野更大（比如单层的7×7比单层的3×3感受野大）的网络参数量大。（ In spite of a large depth, the
number of weights in our nets is not greater than the number of weights in a more shallow net with
larger conv. layer widths and receptive fields）
在这里插入图片描述

2.3 DISCUSSION

用小的卷积核的好处

3层3×3的卷积核的感受野和7×7的感受野可以认为是等效的。那么为什么用3层3×3的卷积核而不是一层7×7的呢？
首先，增加了非线性。 研究者包含了3个非线性的rectification layer（可以简单理解为每个3×3后面都跟着一个ReLu）而不是只有一个，这会使得决策函数更有判断力。
第二，减小了参数量。 假设C是通道数，3层3×3的卷积核的参数量是 $3(3^2C^2)=27C^2$ ；一层7×7的卷积核的参数量是 $7^2C^2)=49C^2$
在这里插入图片描述

1×1的卷积核

1×1的卷积核是一种增加决策函数非线性而不影响卷积层的感受野的一种方式。即使在研究者当前的情况下1×1的卷积本质上是一个线性投影（输入通道数和输出通道数相同），但一个额外的非线性被rectification function引入了。

讲其它工作也用到小卷积核等等

skywuuuu

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
1.1 VGG结构概要

VGG结构概要VGG论文原文链接ABSTRACT在工作中，研究者调查了CNN的深度在识别大规模图片的精度上的作用。主要的贡献是对提高深度和使用非常小（3×3）的卷积核进行了详尽的评估，发现在当时的技术下，当深度为16-19层时，网络性能有一个非常重大的提升。INTRODUCTION当CNN在计算机视觉的领域越来越有用，大量的在AlexNet (2012)基础上的改进出现了。比如用更小size和stride的卷积层。另一项提升涉及到在整个图像和多尺度上密集地训练和测试网络。在这片文章中，研究者强调了
复制链接

扫一扫