神经网络论文研究-图像处理方向4-geoglenet

最新推荐文章于 2022-11-03 20:23:03 发布

丰。。

最新推荐文章于 2022-11-03 20:23:03 发布

阅读量343

点赞数 1

分类专栏：神经网络论文研读文章标签：网络卷积神经网络卷积神经网络大数据

本文链接：https://blog.csdn.net/CSDNXXCQ/article/details/115328568

版权

神经网络论文研读专栏收录该内容

38 篇文章 2 订阅

订阅专栏

该篇论文的亮点
提出了名为incept的卷积神经网络结构
效果:ILSVRC-2014分类和检测任务巅峰

加深和加宽了网络结构
更好地利用了网络结构内的计算资源，计算效率提升显著
基于赫布原则和多尺度观测

相比VGG参数量减少12倍

思考
如何提高深度神经网络的运行效果:
加深网络(增加层数)
加宽网络(增加一层内的卷积核数)

由此带来的副作用::
数据量不足时容易陷入局部最优解问题(过拟合)
增加了对计算机资源的要求

于是由此引出了问题

怎么才能改进深度神经网络呢
1引入稀疏性
2引入稀疏卷积结构，同时借助硬件密集矩阵运算

摘要
我们提出，一个深度的卷积神经网络结构代号为Inception.我们这样的设置在ImageNet Large-Scale Visual Recognition Challenge 2014
(ILSVRC14)的分类和目标检测比赛中取得了不俗的成绩.这个结构的主要特点在于改善了网络中计算资源的运用.这个精心设计的结构考虑到保持网络增长的深度和宽度同时所需的计算资源不变，
为了控制质量(保证这个结构的有效性)，这个结构的设计是基于赫本原则以及直觉(经验主义)的多层堆叠过程，一个特别的形式就被使用在我们在ILSVRC14的被称为goolenet的，一个22层深的网络中，同样的模型我们也提交到了分类与检测任务的比赛中

介绍
在最近(2014)三年中，主要是因为深度学习的优势,卷积神经网络[10]在物品识别与目标检测中有了戏剧性的增长。一个激励人的新闻就是大多数的这些进步都不仅仅是有着强有力的硬件，庞大的数据集和更大的模型，更加是新思路，新算法和神经网络改进的结果。并不是新数据的使用造成的，比如通过在ILSVRC2014比赛中分类数据集的前几项的目标检测比赛中，我们在ILSVRC2014中提交的卷积神经网络使用了在两年前赢得的krizhevsky比赛中有着12*更少的参数更高的准确率的模型。我们获得的最好的目标检测结果就是利用了深层或者更大的模型，以及深度结构与计算机分类的协同作用，像在girshick公式中的R-CNN算法

另一个值得注意的因素是在仍在进行的可移动的嵌入式的计算机技术的推动之下，我们算法的效率，特别是它们的电源和内存的使用获得了显著性的提高–在重点/特征提取方面，它是值得注意的,在这篇文章中，我们仔细考虑提出的一个深度的结构中的影响因子有着固定的准确率.在大多数实验中，这些模型被设计用于保持一个与计算机有关的"预算"大概在15亿的多层相加的推断的时间中，以至于它们不去结束一个纯粹的学术中的宝藏，而且可以被放入到现实世界中去使用，即使在规模庞大的数据集中，也能将其计算机资源的开销控制在合理范围内

在这篇论文中，我们会将会接触到一个高效的，层数深的，，用于计算机视觉的神经网络结构中，它的名字来源于Lin等人的网络论文[12]中的网络，结合著名的“我们需要更加深的网络”的网络传递[1]。在我们的情况下，单词"deep"有两种不同的含义，第一种情况，从这个意义上说，就是我们介绍的一种新的被称之为inception模组同时也是有更多直接增加网络深度(层数)的形式，另一种就是能够被视为inception模型得逻辑顶点同时从Arora等人的理论工作中得到启发和指导[2]。其有效性
在ILSVRC 2014分类和检测平台上对该体系结构的性能进行了实验验证
挑战，它在这方面的表现明显优于目前的技术水平.

相关的工作
从lenet-5模型开始，卷积神经网络有着典型的标准结构-堆叠几个卷积层(通过对比着的池化和正则化操作)再加上一个或多个全连接层，这些设计的基本变体是在分类问题和MNIST数据集里最好的结果。CIFAR和大多数在分类数据集中的挑战中，像imagenet中最近也是有增加网络层数的趋势，在dropout被提出到解决过拟合问题中时，这一现象更加明显。

尽管池化层得结果与准确率的空间损失值的信息有关，一样的卷积神经网络结构就像有着被成功地本地化地应用，目标检测和人类姿态预测。被神经科学模型中的灵长类视觉皮层启发之后，,出于控制多重规模的目的，Serre 等人使用了一系列的不同尺寸的Gabor滤波器即类似于名为Inception的模型。然而，相反的是，为了适应两层深的模型，所有的滤波器在inception模型中都是被学习的。此外，inception层也是要准备很多次的–引导一个22层深的像goolenet这样的模型

出于增加网络泛化能力的目的，lin等人提出了一种网络种的网络的解决方案。当卷积层被应用的时候，这种方法可以被视为一种11已经被修正的线性激活的卷积层。这个能够被简单地综合在现存的CNN传递中。我们在工作中大量使用这个结构。然而在我们的设置中，11的卷积有着两重目的，最关键的是，它们主要被用于模型维度的减少，以期达到移除计算瓶颈的目的。同时能限制我们网络的规模。这将允许神经网络深度的提高，而且我们的网络宽度没有明显的性能损失。

现存的领先的目标检测方法是使用卷积神经网络去检测区域，这种方法是girshick等人提出的。R-CNN将总体的检测问题分解为两个子问题:利用低水平的类似于颜色和超像素的一致性的提示，对于潜在性的类别不可知的目标提案问题以及使用CNN分类器去识别在这些位置上的目标种类。这样两个等级的问题利用了使用低级线索的物体边界的准确率，就像一个十分强有力的分类器的结构先进的CNN网络。在我们提交的目标检测解决方案中，我们使用了一个类似管道的CNN结构，但是我们已经探索了在这些阶段中的增强方案，比如为了使用更高的超像素的去检测物体边缘的多箱式预测的召回，为了更好地进行物体边缘检测地分类

灵感和高层次的考虑
提高深度神经网络性能最直接的方法是增加它们的规模。这包括增加网络和its的深度(层数)
宽度:每个关卡的单位数量。这是一种简单又安全的培训方法
模型，特别是考虑到可获得的大量标记训练数据。然而,这
简单的解决方案有两个主要缺点。
网络尺寸越大，参数的个数就越多，这就使得扩大后的网络更大
容易过度拟合，特别是在训练集中标记的样本数量有限的情况下。
这可能成为主要的瓶颈，因为创建高质量的训练集可能很棘手

在这里插入图片描述
图1:ILSVRC 2014分类挑战的1000个分类中有两个不同的分类。

而且价格昂贵，特别是如果需要专业的人类评分员来区分细粒度
如所示，ImageNet中的视觉分类(甚至在1000类ILSVRC子集中)
由图1所示。
统一增加网络规模的另一个缺点是大大增加了对计算机网络资源的使用。例如，在深度视觉网络中，如果两个卷积层被连接起来，
任何滤波器数目的均匀增加都会导致计算量的二次增加。如果
增加的容量被低效地使用(例如，如果大多数权重最终接近于零)，
这样就浪费了大量的计算资源。由于在实践中，计算预算总是有限的，因此
高效地分配计算资源比不加选择地增加规模更可取
当主要目标是提高结果的质量时。
解决这两个问题的根本途径将是最终从完全联系的方式转变
到稀疏连接的架构，甚至在卷积内部。除了模仿生物
系统，这也将有更坚实的理论基础的优势，由于基础 Arora等人[2]的突破性工作。他们的主要结果是，如果概率分布
数据集可以用一个大的、非常稀疏的深度神经网络来表示，然后是最优网络
通过分析激活的相关统计信息，可以一层一层地构造拓扑结构
最后一层和聚类神经元的高度相关输出。虽然严格的数学ematical证明需要非常强的条件，但事实是，这句话与井产生了共鸣
已知的Hebbian原理——神经元一起放电，连接在一起——暗示了潜在的
在实践中，即使在不那么严格的条件下，这个想法也是适用的。
缺点是，现在的计算基础设施在计算数字时效率非常低
非均匀稀疏数据结构的计算。即使算术运算的数量是
减少了100倍，查找和缓存未命中的开销占了主导地位，所以切换到稀疏
矩阵不会带来回报。随着使用不断改进的矩阵，
高度优化的数字库，允许非常快的密集矩阵乘法，利用ing底层CPU或GPU硬件的微小细节[16,9]。此外,非均匀稀疏
模型需要更复杂的工程和计算基础设施。最新的视觉
面向对象的机器学习系统利用em利用卷积来利用空间领域的稀疏性。然而，卷积被实现为密集连接的集合
到较早一层的补丁。卷积网络传统上使用随机和稀疏连接
表中自[11]以来的特征维数，为了打破对称性和提高学习，
为了更好地优化并行计算，trend恢复了与[9]的全连接。的
结构的均匀性和大量的过滤器和更大的批大小允许利用
高效密集的计算。
这就提出了一个问题，是否有希望实现下一个中间步骤:一个架构
它利用了额外的稀疏性，即使是在过滤水平，正如理论所暗示的那样，但利用我们的
目前的硬件利用密集矩阵的计算。关于稀疏矩阵的大量文献
计算(例如[3])表明聚类稀疏矩阵为相对密集的子矩阵
为稀疏矩阵乘法提供了最先进的实用性能。它不
认为类似的方法会被用于自动化建造似乎有些牵强
非均匀深度学习架构在不久的将来。
先启架构最初是第一作者评估假设的一个案例研究
一个复杂的网络拓扑构造演算法的输出，试图近似一个稀疏的
视觉网络中[2]隐含的结构，并通过密集、阅读ily可用组件覆盖假设结果。尽管这是一个高度投机性的事业，但只有在两次迭代之后
在对拓扑结构的精确选择上，我们已经可以看到相对于基于[12]的参考体系结构ture的适度收益。经过进一步的调整学习速度，超参数和改进训练
方法中，我们确定所得到的初始架构在
定位和目标检测上下文作为[6]和[5]的基础网络。有趣的是,虽然
大多数最初的架构选择都经过了彻底的质疑和测试，他们转向了
至少是局部最优的。
但必须谨慎:尽管提出的架构在计算机领域取得了成功
愿景，它的质量是否可以归因于指导原则仍然是值得怀疑的
引导它的建设。这需要更彻底的分析和验证:
例如，如果基于下面描述的原则的自动化工具会发现类似的，但是
更好的拓扑结构为视觉网络。最令人信服的证据是如果一个自动化的
系统将创建网络拓扑结构，从而在其他使用相同拓扑结构的领域中获得类似的收益
算法，但是全局架构看起来非常不同。至少，最初的成功
初始架构为这个方向上令人兴奋的未来工作提供了坚定的动力。

结构细节
inception结构地主要想法是基于:在能够被近似覆盖在现成的密集的卷积神经网络中，如何找出局部稀疏最优结构。我们提出了一个假设:平移不变式意味着我们的神经网络会被卷积块构建。所有我们所需要的就是去找到控制局部的结构并且将它重复的空间，Arora等人建议在一个应该分析相关的统计数据的最后一层和在群组单元里高度相关的一个层层相连的网络结构/集群。这些集群来单元与来自更早的一层对应这一些输入图像和这些在被分成滤波器组里的区域。这些集群的单元来自下一层并且与从前的层相连接，我们提出每个来自较早的响应层的单元的一些用于输入图像的区域和这些被打包的滤波器组，在更低的层级中(接近输入层的那个)，相关的单元会集中在局部地区。这就意味着，我们应该用很多集中的集群在一个单一的区域中结束，并且他们被下一个11的卷积层覆盖，就像[12]中提到的建议那样。然而，那个也能被期待在一个更小更多的空间传播外的集群中能够被更大的卷积所覆盖，并且那里将会减少大量的更大的区域与通道。为了避免补丁对齐问题，现存的典型的inception结构问题是将滤波器大小限制为11，33，55的，然而这个决定更多是基于方便而不是需要。那也意味着这些建议的结构是所有这些层级的连接，当他们朝外输出的滤波器的区域连接到一个简单的来自下一层的输出向量里，除此之外，自从池化层操作已经被认为是当前卷积神经网络的成功，这个就暗示了增加一层其他的平行的池化层在每个这样的阶段应该也是有着良好的效果(见图二，a)

当这些“初始模块”被堆叠在彼此之上时，它们的输出相关统计信息
一定会发生变化:当更高抽象的特征被更高层次捕捉时，它们的空间性
集中度预计会下降，这表明3×3和5×5的卷积的比例应该会下降
随着我们移动到更高的层次而增加。

以上模块的一个大问题是，至少在这种na¨ıve形式中是这样的，即使是中等数量的
5×5在带有大量数字的卷积层上，卷积运算的代价非常昂贵
的过滤器。一旦将共用单元添加到混合单元中，这个问题就会变得更加明显:
它们的输出滤波器的数目等于前一阶段滤波器的数目。的合并
池化层的输出与卷积层的输出将导致不可避免的结果

inception模块的介绍

在这里插入图片描述
上图为inception模块
注意上图的a部分
有11，33，5*5的卷积层，用concate连接
这样做会造成维度太高，增加了该网络的计算复杂度

于是就有了b部分
通过增加1*1的卷积降低维度
低维embeding信息量充足
在实践中从较高纬度开始叠加inception
降低计算量

从一个阶段到另一个阶段增加输出的数量。甚至这个架构可能覆盖
最优稀疏结构，它会做得非常低效，导致内部计算崩溃
几个阶段。
这就引出了所提议的体系结构的第二个想法:在计算需求会增加太多的地方，明智地应用降维和投影。
这是基于嵌入的成功:即使是低维度的嵌入也可能包含很多
关于一个较大的图像补丁的信息。然而，嵌入表示信息
密集、压缩的表单和压缩的信息更难建模。我们愿意留下
我们的表示在大多数地方是稀疏的(如[2]条件所要求的)，并压缩
只在需要全部聚集的时候才发送信号。也就是说，使用1×1卷积
在昂贵的3×3和5×5卷积之前计算缩减。除了作为还原剂使用外，它们还包括矫正线性激活的使用，这使它们具有双重用途。的
最终结果如图2(b)所示。
一般来说，先启网络是由上述类型的模块堆叠而成的网络
相互之间，偶尔使用stride 2的最大池层将网格的分辨率减半。为
由于技术原因(训练期间的内存效率)，开始使用Inception似乎是有益的
只在较高的层上模块，而以传统的卷积方式保持较低的层。
这并不是绝对必要的，只是反映了我们当前一些基础设施的低效
实现。
这个体系结构的一个主要好处是它允许增加
每个阶段的单元明显没有在计算复杂度中失控膨胀。
普遍使用的降维允许屏蔽大量的输入滤波器
到下一层的最后一步，在与一个大的卷积之前先缩小它们的维度
补丁的大小。这种设计的另一个实际有用的方面是，它与直觉一致
视觉信息应在不同的尺度上进行处理，然后进行聚合，以便进行下一阶段
可以同时从不同尺度提取特征。
改进的计算资源使用，可以同时增加每个阶段的宽度
以及不涉及计算困难的阶段数。另一种方法
利用先启体系结构是为了创建稍差的，但计算上更便宜的版本
。我们发现，所有包括旋钮和杠杆允许控制平衡
计算资源可以导致网络比类似的执行速度快2到3倍
然而，在这一点上，这需要仔细的人工设计。

geoglenet

讲inception引入到geoglenet中
基于b方案堆叠构建geoglenet
输入维度为2242243(RGB图像)
深度为22层(包含参数的层不包括池化的层)

中间输出计算损失，为了解决梯度消失或者梯度爆炸问题

我们使用googlenet作为我们在ILSVRC14比赛中的队伍名，这个名字是向YANN LECUNS 在Lenet5网络的致敬。我们也使用googlenet去指代一个特别的被我们在比赛中提交过的inception结构的化身，我们也使用了更深和更宽的inception网络结构，它的质量稍差，但加入了能够看起来稍稍有着更好的改进的结果。我们省略了那个网络的细节，自从我们的实验显示那额外的结构参数的影响的相关性是轻微的

在这里插入图片描述

这里，出于实证的目的，最成功的特别的例子(被称之为geoglenet)被描述在表1里。确切的说，是在我们的最终结果中使用了6到7个模型的拓扑结构(被不同样本的方法训练的)

所有的卷积，包括初始模块中的卷积，都使用矫正线性激活。
在我们的网络中，接收场的大小为224×224，采用RGB颜色通道，平均sub牵引。“#3×3 reduce”和“#5×5 reduce”代表reduce中1×1过滤器的数量
在3×3和5×5卷积之前使用的图层。在pool proj列中内置最大池之后，可以看到pro喷射层中1×1过滤器的数量。所有这些削减/投影
层使用矫正线性激活以及。

该网络在设计时考虑了计算效率和实用性，便于推理
可以在单个设备上运行，甚至包括那些计算资源有限的设备，内存占用较小。当只计算层数时，网络有22层
参数(或者27层，如果我们也算上池化层的话)。用于网络建设的总层数(独立构建ing块)约为100层。然而，这个数字取决于
使用的机器学习基础设施系统。在分类器之前使用平均池是
基于[12]，尽管我们的实现不同，因为我们使用了额外的线性层。这使
调整和微调我们的网络为其他标签集很容易，但它主要是方便和
我们不认为它会产生重大影响。人们发现，从完全连通的层移到
平均汇集法提高了第一名的准确率约0.6%，然而辍学率的使用仍然存在
即使在移除完全连接的层后也是必要的。

由于网络的深度相对较大，所以能够通过所有的网络传输梯度
有效地分层是一个问题。一个有趣的见解是，强劲的表现
在这个任务中，相对较浅的网络的特征表明
中间的网络应该是很有区别的。通过添加辅助分类器连接到
这些中间层次，我们希望鼓励歧视在较低的阶段
分类器，增加梯度信号得到的传播回来，并提供额外的正则化。这些分类器采取的形式，更小的卷积网络上的输出
Inception (4a)和(4d)模块。在训练中，他们的损失被加到
网络中添加了一个折扣权重(辅助分类器的损失加权为0.3)。在
推理时，这些辅助网络被丢弃。
包括辅助分类器在内的侧面额外网络的确切结构如下:
•一个平均池化层5×5过滤器大小和步长3，结果为4×4×512输出
(4a)， 4×4×528为(4d)阶段。

在这里插入图片描述
•1×1卷积与128个滤波器降维和矫正线性激活。
•一个完全连接的层，1024个单位和矫正线性激活。
•下降层与下降输出70%的比率。
•线性层与softmax损失作为分类器(预测相同的1000类
主分类器，但在推理时删除)。
结果网络的示意图如图3所示。

模型训练方法
我们的网络训练使用DistBelief[4]分布式机器学习系统，同时考虑模型量和数据并行性，但是我们仍然需要使用CPU
粗略估计，google网络可以用很少的人训练到收敛
高端gpu在一周内，主要的限制是内存的使用。我们的培训使用
异步随机梯度下降，0.9动量[17]，固定的学习速率计划(de每8个时代提高4%的学习速率)。波利克的场均[13]被用来创造了决赛
推理时使用的模型。
我们的图像采样方法在比赛前的几个月发生了很大的变化，
已经融合的模型也接受了其他选项的训练，有时还结合
改变了超参数，比如辍学率和学习率，所以很难给出明确的指导
训练这些网络最有效的方法。更复杂的是，一些
受[8]启发，这些模型主要针对较小的相对作物进行训练，其他模型针对较大的相对作物。
尽管如此，一种在比赛后被证实非常有效的处方包括取样
大小均匀分布在图像大小的8% ~ 100%之间
图像面积，宽高比随机选择在3/4 ~ 4/3之间。同时，我们发现
Andrew Howard[8]的光度失真在一定程度上有助于对抗过拟合。在
此外，我们开始使用随机插值方法(双线性，面积，最近邻和三次，
等概率)，相对晚调整大小，并结合其他超参数
所以我们不能确定最终的结果是否受到了他们的积极影响
使用。