Highway Network论文翻译

Highway Network:
1)问题来源:随着深度的增加,网络训练变得更加困难
2)特点:使用门控单元来学习如何通过网络来调节信息流,使信息畅通无阻地在信息高速公路的不同层之间流动,收敛更快。
3)结构:
在这里插入图片描述
其中x、y、H(x,W H)和T(x,W T)的维度必须匹配
在这里插入图片描述

Abstract

大量理论和经验证据表明,神经网络的深度是其成功的关键因素。然而,随着深度的增加,网络训练变得更加困难,非常深网络的训练仍然是一个悬而未决的问题。 在这个扩展的摘要中,我们介绍了一种新架构,用于缓解基于梯度的深度网络训练。 我们称此为高速公路网络,它们使信息畅通无阻地在信息高速公路的不同层之间流动。 该体系结构的特点是使用门控单元来学习如何通过网络来调节信息流。 可以使用随机梯度下降法和各种激活函数直接训练很多层高速公路网络,因此研究极深和高效的架构成为可能。

注:本研究的全文可在http://arxiv.org/abs/1507.06228找到,并附有参考文献、实验和分析。

1. Introduction

通过应用深度神经网络,监督机器学习最近取得了许多经验突破。网络深度(指连续计算层数)是成功的关键因素。 例如,在短短几年内,拥有1000个类别的ImageNet图像数据集的top-5分类精度已经从约84%(Krizhevsky et al., 2012)(AlexNet)增加到约95%(Szegedy et al., 2014;Simonyan & Zisserman, 2014)(googlenet;VGG),通过使用更深架构和更小的接受领域。

在理论方面,众所周知的是,深度网络可以比浅层更有效地表示某些函数类(e.g. the work of Hastad ˚(1987); Hastad & Goldmann ˚ (1991) and recently of Montufar et al. (2014))。正如Bengio et al. (2013)所说,使用深度网络可以为复杂任务提供计算和统计效率。

但是,训练更深层次的网络并不像简单地添加层那样简单直接。对深层网络的优化已经被证明是相当困难的,这导致了对初始化方案、多阶段训练网络的技术或在某些层上附加临时伴随损失函数的研究。

在这个扩展的摘要中,我们提出了一种新颖的架构,可以实现几乎任意深度的网络优化。这是通过使用学习门控机制来调节信息流实现的,该机制的灵感来自于长期短期记忆递归神经网络(Hochreiter & Schmidhuber, 1995)。 由于这种门控机制,神经网络可以获得一些路径,使得信息沿着这些路径可以流过几个层而没有衰减。 我们称这些路径为“information highways”,这样的网络为“highway networks”。

在初步实验中,我们发现高达900层的高速公路网络可以使用带有动量的简单随机梯度下降(SGD)进行优化。 对于多达100层,我们将他们的训练行为与具有归一化初始化(Glorot & Bengio, 2010; He et al., 2015)的传统网络进行比较。我们发现,高速公路网络的优化几乎与深度无关,而对于传统的网络,随着层数的增加,优化会受到很大的影响。 我们还表明,可以直接训练可与Romero等人(2014)最近提出的架构相媲美的架构,从而在CIFAR-10数据集上获得类似的测试集准确性,而不需要预训练。

1.1 Notation

我们用粗体字母表示向量和矩阵,斜体大写字母表示转换函数。0(粗)和1(粗)分别表示0和1的向量,I(粗)表示单位矩阵。σ(x)(斜)表示Sigmoid激活函数。
在这里插入图片描述

2. Highway Network

一个普通的前馈神经网络通常由L层组成,其中第l层(l∈{1,2,…,L})在其输入xl上应用非线性变换H(即W(H,l))以产生其输出 yl。 因此,x1是网络的输入,yl是网络的输出。 为了清晰起见省略层索引和偏差,
在这里插入图片描述
H通常是一个仿射变换,后跟一个非线性激活函数,但通常它可能采用其他形式。

对于高速公路网络,我们另外定义了两个非线性变换T(x,W T)和C(x,Wc)
在这里插入图片描述
我们将T表示为变换门,C表示carry门,因为它们分别表示通过变换输入和直接输入产生的输出有多少。为了简单起见,在本文中我们设定C = 1-T,即
在这里插入图片描述
为保证公式(3)的有效性,x、y、H(x,W H)和T(x,W T)的维度必须匹配。注意,层转换的这种重新参数化比式(1)灵活得多。 特别要注意的是
在这里插入图片描述
类似地,对于层变换的雅可比行列式,
在这里插入图片描述
因此,依赖于变换门的输出,高速公路层可以平滑地改变它在普通层和简单地通过其输入的层之间的行为。一个普通层由多个计算单元组成,例如第i个单元计算yi = Hi(x),一个高速公路网络由多个块组成,这样第i个块计算块状态Hi(x)和变换门输出Ti(x)。最后,它产生连接到下一层的块输出。
在这里插入图片描述

2.1 Constructing Highway Networks

如上所述,公式(3)要求x,y,H(x,WH)和T(x,WT)的维度相匹配。在需要改变表示大小的情况下,可以将x替换为通过适当的子抽样或补零x得到的x^。 另一种选择是使用普通层(无高速公路)来改变维度,然后继续堆叠高速公路层。这是我们在这项研究中使用的替代方法。

卷积高速公路层的结构类似于完全连接的层。 H和T变换都使用权重共享和本地接受域。 我们使用零填充来确保块状态和变换门特征映射的大小与输入相同。

2.2 Training Deep Highway Networks

对于普通深度网络,除非使用特定的权值初始化方案,以保持信号在前向和后向传播过程中的方差(Glorot & Bengio, 2010; He et al., 2015),否则SGD的训练在一开始就会停滞不前。这个初始化依赖于H的具体函数形式。

对于高速公路层,我们使用定义为
在这里插入图片描述
的变换门,其中WT是权重矩阵,bT是变换门的偏差矢量。这就提出了一种与H的性质无关的简单初始化方案:b T可以用负值(例如-1,-3等)初始化,使得网络最初偏向于carry行为。该方案受到了Gers等人(1999)的强烈启发,他们建议在长短时记忆递归网络中对门进行初始偏置,以帮助在学习的早期建立起长期的时间依赖关系。σ(x)∈(0,1),∀x∈R,所以方程(4)中的条件永远不可能是完全正确的。

在我们的实验中,我们发现负偏置初始化对于学习在非常深的网络中进行WH的各种零均值初始分布和H使用的不同激活函数是足够的。这是一个重要的属性,因为找到H的许多选择的有效初始化方案通常是不可能的。

3. Experiments

3.1 Optimization

即使使用保持方差的初始化方案形式,非常深的普通网络也很难优化(He et al., 2015)。 为了表明高速公路网络不会以同样的方式受到深度的影响,我们在MNIST数字分类数据集上运行一系列实验。我们测量了训练集上的交叉熵误差,以研究最优化问题,而不把它们与泛化问题混为一谈。

我们用相同的架构和不同的深度来训练普通网络和公路网。第一层始终是一个常规的全连接层,接着是9,19,49或99个全连接的普通层或高速公路层,以及一个softmax输出层。 每层的单元数量保持不变,高速公路为50,普通网络为71。 这样两个参数的数量大致相同。为了比较公平,我们对普通网络和高速公路网络进行40次随机搜索,以找到超参数的良好设置。我们优化了初始的学习速率,动量,学习速率衰减速率,H的激活函数(ReLU或tanh),以及高速公路网络中变换门偏差(-1和-10之间)的值。所有其他权值都是按照(He et al., 2015)提出的方案初始化的。

图1中可以看到每个深度网络性能最好的收敛图。而对于10层普通网络来说,它表现出非常好的性能,随着深度的增加,它们的性能显着下降。另一方面,高速公路网络似乎完全不受深度增加的影响。 100层高速公路网的最终结果比10层低一个数量级,并且与10层普通网络相当。 事实上,我们开始在CIFAR-100上训练类似的900层高速公路网络,到目前为止只有80个epoch,但迄今为止没有显示优化困难的迹象。同样值得注意的是,高速公路网络总是比普通网络收敛速度快得多。
在这里插入图片描述
图1:不同深度的普通网与高速公路网优化比较。所有网络均使用带动量的SGD进行优化。所示的曲线是使用随机搜索为每个配置获得的最佳超参数设置。随着深度的增加,普通网络越来越难以优化,而100层的高速公路网络仍然可以很好地优化

3.2 与FitNet的比较

深度公路网很容易优化,但在我们对测试集上的泛化性能感兴趣的情况下,它们对监督学习也有帮助吗?为了解决这个问题,我们将高速公路网络与Romero等人(2014)最近在CIFAR-10数据集上提出的、使用随机翻译增强的、被称为Fitnets的窄而深的架构进行了比较。结果见表1。
在这里插入图片描述
*表1:带有修正线性激活和sigmoid门的卷积高速公路网络在CIFAR-10测试集的准确率。为了比较,也显示了Romero等人(2014)使用maxout网络报告的结果。Fitnets的训练采用两步训练程序,使用来自预训练网络的软目标(使用反向传播进行训练)。我们使用反向传播直接训练所有的公路网。表示只在训练集中50K个样本中的40K个样本上训练过的网络。

Romero等人(2014)报告说,当参数的数量限制为∼250K,乘法的数量限制为∼30M时,使用普通反向传播的训练只可能用于深度高达5层的maxout网络。只有通过使用两阶段训练程序和增加由预先训练的浅层教师网络(基于提示的训练)产生的软目标,才能训练深层网络。类似地,使用基于hint的训练,只可能以250万参数的预算训练19层网络。

我们发现,直接使用反向传播来训练具有与fitnets相似参数和操作数量的高速公路网是很容易的。如表1所示,基于Fitnet 1和Fitnet 4架构的Highway 1和Highway 4分别在测试集上获得了相似或更高的精度。 我们还能够训练更窄更深的网络:一个具有〜1.4M参数的19层高速公路网络和一个具有〜1.25M参数的32层高速公路网络,其性能类似于Romero等人的teacher网络。

4. Analysis

在图2中,我们展示了在MNIST(顶行)和CIFAR-100(底行)上训练的最佳(通过对超参数的随机搜索获得,以最小化使用每种配置获得的最佳训练集误差)50个隐藏层全连接高速公路网络的内部工作情况。前三列显示对于每个变换门,偏差、10K随机样本的平均活动性和单个随机样本的活动性。同一单个样本的块输出显示在最后一列中。
在这里插入图片描述
图2:在MNIST(上一行)和CIFAR-100(下一行)上训练的最好的50个隐藏层公路网中,块的某些内部结构的可视化。第一个隐含层是一个普通层,它将表示的维数更改为50。每49个高速公路层(y轴)由50个块(x轴)组成。第一列显示了变换门偏差,分别初始化为-2和-4。在第二列中,描述了超过10,000个训练示例的转换门的平均输出。第三列和第四列显示了单个随机训练样本的转换门和块的输出

两个网络的变换门偏置分别初始化为-2和-4。有趣的是,与我们的预期相反,大多数偏差在训练期间实际上进一步减少。对于CIFAR-100网络,偏差随深度增加而形成梯度。奇怪的是,这个梯度与第二列中看到的转换门的平均活动呈负相关。这表明浅层的强负偏差不会用来关闭大门,而是使它们更具选择性。这一行为也是由于单个示例(列3)的转换门活动非常稀疏的事实而提出的。对于CIFAR-100网络,这种影响更为明显,但在MNIST网络中也可以观察到较小程度的影响。

图2的最后一列显示了块输出并清晰地显示了“information highways”的概念。 大多数输出在许多层上保持不变,形成条纹图案。 输出的大部分变化发生在早期层(MNIST≈10,CIFAR-100≈30)。我们推测这种差异是由于CIFAR-100数据集更高的复杂性。

总之,高速公路网络实际上利用门控机制通过多层几乎不变地传递信息。这种机制不仅可以作为简化训练的手段,还可以用于在训练有素的网络中发送信息。 我们观察到转换门的选择性很强,对当前输入模式的反应十分不同。

5. Conclusion

学习通过神经网络来传递信息,改善了credit assignment并使训练更简单,有助于扩大了它们在挑战性问题上的应用。即便如此,训练非常深的网络仍然很困难,尤其是没有显着增加整个网络的规模。

高速公路网络是一种新型的神经网络架构,可以使用简单的SGD来训练极深的网络。随着网络深度的增加,传统的简单神经网络架构越来越难以进行训练(即使使用方差保持初始化),但我们的实验表明,即使网络深度增加到一百层,高速公路网络的优化也不会受到阻碍。

训练非常深的网络的能力,有助于研究深度对复杂问题的影响而不受限制。各种激活函数可能更适合于特定问题,但对于这些问题,鲁棒的初始化方案是不可用的,可以用在深度高速公路网络中。今后的工作将致力于提高对高速公路网学习的认识。

  • 0
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值