VGGNet论文

最新推荐文章于 2023-12-29 16:01:40 发布

passion&patience

最新推荐文章于 2023-12-29 16:01:40 发布

阅读量565

点赞数

一、介绍
1、提升卷积神经网络原始架构性能的方法
1）使用更小的接受窗口(receptive window size)和对第一个卷积层使用更小的步幅(stride)
2）通过所有图像和多种规模平反地对训练网络和测试网络进行处理
3）(本文)聚焦网络的深度。首先固定网络架构中的其它参数，然后通过加入更多的卷积层来逐渐增加网络的深度。这个方案是可行的，因为在所有层中所使用的卷积过滤器都非常小（33
二、卷积网络的配置
1、架构
1）输入图像：224224 RGBimage
2）预处理：对训练集中图片的每个像素都及拿去RGB的平均值
3）过滤器尺寸：33、11（可被看作是输入信道的线性转换）
4）卷积的步幅：固定为1像素
5）填充(padding)：1像素
6）池化：5个22的最大池化层，步幅为2
7）全连接层(三层)：前两层4096个通道，第三层由于在ILSVRC上有1000个分类，故有 1000个通道
8）最后一层为softmax层
9）激活函数：ReLu
10）所有层都不包含局部响应正则化(Local Response Normalisation，LRN),该正则化不会提升网络在ILSVRC数据集上的性能，但是会产生存储消耗和计算时间。
2、配置
表一列出了网络深度的变化，表二列出了表一中各网络中所含的参数
结论：尽管网络非常深，网络的参数不会比带有大宽度卷积层和接收域的浅层网络多。
3、讨论
1）一叠两层的33卷积层（中间加着空间池化层）比一层55的卷积层有更有效的接受域，三层33的卷积层比一个77的卷积层有更有效的接受域。
2）使用1）所得结论，本文的收获：
首先，使用三个非线性的修正层来取代单个修正层，这使得决策函数更具有区分性。
其次，减少了参数的数量。如果，所有的输入和输出层都有一个三层的33的卷积层，设其有C个通道，则本次堆叠所含有的参数数量：3*(3²C²)=27C²个权值，同时《一个单层的77卷积过滤器需要7²C²=49C²个权值。
3）使用11的卷积层可以增加决策函数的非线性性，同时也不会影响卷积层的接收域。即使在本文中11本质上一种空间中同维的线性投影（输入与输出的通道数量相同）,但却通过修正函数增加了额外的非线性性。
三、分类框架
1、训练
1）mini_batch梯度下降来最优化多项式逻辑回归目标，batch的尺寸设置为256
2）momentum设置为0.9
3）权值衰减来正则化即L2正则化，罚项设置为5.10^-4
4）对前两个全连层使用dropout正则化(dropout率设为0.5)
5）初始学习率设为10^-2，然后当验证集上的准确率停止提升时通过除以10来减小学习率。学习率总共减小了三次，并且370K次迭代（74epochs）后学习停止。发现：因为网络深度的增加、更小的卷积过滤器尺寸和对某些层的预初始化所带来的隐含规则化，网络只需要更少的epoch便能收敛。
6）权重的初始化，首先训练表一中A的配置，足够浅的网络训练时使用随机初始化，当训练更深的网络结构时，用网络A的层初始化前四层卷积网络和最后三层全连接网络（中间的层随机初始化），开始时，对于预初始层不减少学习率，允许他们在学习中改变。对于随机初始化，从均值为0，方差为10^-2的正太分布中采样，bias设置为0。发现：可以不通过使用随机初始操作预训练来初始权重。
7）实现图片尺寸为224224，随机剪裁训练图像。为了增加训练数据集的数量剪裁方式为：翻转和随机RGB色彩转换。
训练图像尺寸：
S：训练图像等轴重调的最小边，卷积神经网络的输入图像通过它进行剪裁
当剪裁尺寸固定为224224时，规则S能接纳所有小于224的值。对于S=224，剪裁能捕获到整个图像数据，完全跨越训练集的最小边。对于S>>224，剪裁相当于图像的一小部分，包括小的物体或者物体的一部分。
设置S的两种方法：(1)固定S，这相当于单一规模的训练(采样剪裁的图像内容任然表示对规模图像数据)。本实验在两个S值下训练：256和384 .(2)S的设置是多规模的训练。每一训练图像在一定范围内(本文设置为：256-512)进行独立的随机重调。因为图像中物体的尺寸不同，将这一因素进行考虑非常有益。由于速度的原因，采用单规模模型预训练（S=384）调试好的层来训练多规模模型
2、测试
首先预先定义好测试最小图像边(Q)来等轴重调输入图像，Q可以不与S相等（对于每个S使用几个不同Q值可以带来性能的提升）。网络会被频繁应用于重调后的测试集，全连接层首先被转换为卷积层（第一层全连接层变为77的卷积层，最后两个全连接层变为11的卷积层）。以此产生的全连接-卷积网络会被应用到整个图像（未被剪裁）中，结果是一个分类分数图，它的通道数量等于类别数量，并且带有取决于输入图像尺寸的可变空间分辨率。最后，为了使图像的类别分数通过大小固定的向量进行表达，类别分数图会在空间上进行平均化。
因为全连接-卷积网络被应用与整个图像，那就没必要在测试时采集多个剪裁图像。同时，使用一大组剪裁图像能提升正确率，因为与全连接-卷积网络相比它能产生对输入图像的更好采样。
多剪裁评估是密集评估的补充，因为不同的卷积边界条件:当在一个剪裁上应用卷积网络时，卷积的特征地图被0填充，然而在密集评估中同样剪裁的填充自然是来自图像的附近部分（因为卷积和空间池化），这从本质上增加了整个网络的接受域，所以更多的环境被捕捉到了。
3、实现细节
使用多块GPU进行训练和测试
四、分类实验
数据集：ILSVRC-2012数据集，该数据集包括1000个类别，将数据集划分为三个子集：训练集（1.3M张图）,验证集（50K张图），测试集（100K张流出分类标签的图像）
评估标准:top-1(多类别分类误差,如错误分类图像的占比)，top-5(ILSVRC中主要评估标准，计算的是在top-5预测分类之外完全真实分类的图像的占比)
1、单规模评估
1）局部响应规范化没有提升模型的性能
2）D(网络全部使用33的过滤器)而C(使用了三个11 的过滤器)，尽管它们有相同的深度，但C的性能表现不如D好，这表明尽管额外的非线性确实有助于网络结构的改善（C比B好），但使用非零碎接受域的卷积过滤器来捕捉空间环境更重要。当深度达到19层时，网络结构的错误率达到了饱和，但是对于更大数据集来说，更深的网络结构会更有益。再将网络B与5*5的浅层卷积网络比较后，确信：小过滤器的深层神经网络比大过滤器的浅层神经网络性能表现更好。
3）在训练时实现尺度振荡（S为[256,512]）要比固定最小边（S=256 orS= 384)表现更好，即使在测试时使用单一规模，这表明：通过规模振荡来扩大训练集确实有助于捕获多尺度图像数据
2、多尺度评估
在多尺度重调后的测试图像上训练模型（相当于多个Q值），然后平均结果分类的后验。表四表明在测试时实现尺度振荡比固定尺度表现好
3、多剪裁评估
表五表明：使用多剪裁评估要比密集评估好一点，这两个方法实际上是互补的，它们的结合会比任意一个单独的表现好
4、卷积困惑

passion&patience

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
VGGNet论文

一、介绍1、提升卷积神经网络原始架构性能的方法1）使用更小的接受窗口(receptive window size)和对第一个卷积层使用更小的步幅(stride)2）通过所有图像和多种规模平反地对训练网络和测试网络进行处理3）(本文)聚焦网络的深度。首先固定网络架构中的其它参数，然后通过加入更多的卷积层来逐渐增加网络的深度。这个方案是可行的，因为在所有层中所使用的卷积过滤器都非常小（33二...
复制链接

扫一扫