高速公路网络HighwayNetwork翻译
摘要
有大量的理论和经验证据表明,神经网络的深度是其成功的关键因素。然而,随着深度的增加,网络训练变得更加困难,深度网络的训练仍然是一个悬而未决的问题。 在这个扩展的摘要中,我们介绍了一种旨在缓解非常深度网络的基于梯度的训练的新架构。 我们将具有此架构的网络称为高速公路网络,因为它们允许信息高速公路上的信息流在不同层之间畅通。 该体系结构的特点是使用门控单元学习通过网络来调节信息流。 可以使用随机梯度下降法和各种激活函数直接训练很多层高速公路网络,从而为研究极其深入和高效的架构开辟了可能性。
1、介绍
通过应用深度神经网络,监督机器学习最近取得了许多经验突破。网络深度(指连续计算层数)在这些成功中扮演了最重要的角色。 例如,拥有1000个类别的ImageNet图像数据集的top-5分类精度已经从~84%增加到〜95%在短短几年内就使用更深层次的体系结构和更小的接受领域。
在理论方面,众所周知的是,深网络可以比浅层更有效地表示某些函数类。正如Bengio等人所主张的那样,使用深度网络可以为复杂任务提供计算和统计效率。
但是,训练更深层次的网络并不像简单地添加图层那样简单。已经证明深度网络的优化比较困难,导致对以下三个方面的研究:初始化方案;多个阶段的网络训练技术;暂时伴随损失函数附加在某些层。
在这个扩展的摘要中,我们提出了一种新颖的架构,可以实现几乎任意深度的网络优化。这是通过使用学习门控机制来调节信息流,这是受长期短期记忆循环神经网络启发的。 由于这种门控机制,神经网络可以具有信息沿着其可以流过几个层而没有衰减的路径。 我们称这些路径信息高速公路,以及这样的网络高速公路网络。
在初步实验中,我们发现高达900层的高速公路网络可以使用带有动量的简单随机梯度下降(SGD)进行优化。 对于多达100层,我们将他们的训练行为与具有规范化初始化的传统网络进行比较。我们表明,高速公路网络的优化实际上与深度无关,而对于传统网络,随着层数的增加,它显然会遭受损失。 我们还展示了与Romero等最近提出的架构相当的架构,可以直接进行训练,以获得类似的CIFAR-10数据集的测试集精度,而无需预先训练的导师网络。
1.1符号
我们用粗体字母表示向量和矩阵,斜体大写字母表示转换函数。0和1分别表示0和1的向量,I表示单位矩阵。σ(x)表示Sigmoid激活函数。
2、Highway Network
一个简单的前馈神经网络通常由L层组成,其中第l层(l∈{1,2,...,L})在其输入x1上应用非线性变换H(由WH