Highway Networks

Abstract

  • 有大量的理论和经验证据表明,神经网络的深度是其成功的关键因素。但是,随着深度的增加,网络训练变得越来越困难,非常深层的网络训练仍然是一个悬而未决的问题。在这个扩展的摘要中,我们介绍了一种新的体系结构,旨在简化非常深层网络的基于梯度的训练。我们将具有这种架构的网络称为高速公路网络,因为它们允许在信息高速公路上的多个层次上畅通无阻的信息流。该体系结构的特点是使用门控单元,该门控单元学习通过网络来调节信息流。可以使用随机梯度下降法和具有多种激活功能的方法直接训练具有数百层的高速公路网络,开启了研究极深和高效架构的可能性。

Highway Networks

  • 通过使用深度神经网络,在有监督的机器学习中取得了许多最新的经验突破。网络深度(指连续计算层的数量)可能在这些成功中起了最重要的作用。例如,在1000类ImageNet数据集上,前5个图像的分类精度从〜84%(Krizhevsky等,2012)提高到了约95%(Szegedy等,2014; Simonyan&Zisserman,2014)。
  • 在短短几年内就使用了更深层次的结构和较小的接收场的合奏(Ciresan等,2011a; b;2012)。从理论上讲,众所周知,深层网络可以比浅层网络以指数方式更有效地表示某些功能类。 正如Bengio等人所言。 (2013年),深度网络的使用可以为复杂任务提供计算和统计效率。
  • 但是,训练更深层的网络并不像简单地添加层那样简单。 事实证明,深度网络的优化非常困难,因此导致了对初始化方案的研究(Glorot和Bengio,2010年; Saxe等人,2013年; He等人,2015年),多个阶段的网络训练技术(Simonyan和 Zisserman,2014年; Romero等人,2014年)或在某些图层上附加了临时伴随损失函数(Szegedy等人,2014年; Lee等人,2015年)。
  • 在这个扩展的摘要中,我们提出了一种新颖的体系结构,该体系结构能够优化几乎任意深度的网络。 这是通过使用受学习的门控机制来调节信息流来实现的,该机制受长期短期记忆循环神经网络的启发(Hochreiter&Schmidhuber,1995)。 由于这种选通机制,神经网络可以具有路径,沿着该路径信息可以在不衰减的情况下跨数层流动。 我们称此类路径为信息高速公路,也称此类网络为高速公路网络。
  • 在初步实验中,我们发现可以使用具有动量的简单随机梯度下降(SGD)来优化900层深度的高速公路网络。 对于多达100个层,我们将其训练行为与具有标准化初始化功能的传统网络的行为进行了比较(Glorot&Bengio,2010; He等人,2015)。 我们表明,高速公路网络的优化实际上与深度无关,而对于传统网络,优化随着层数的增加而受到很大影响。 我们还展示了与Romero等人最近提出的架构可比的架构。 (2014)可以直接训练以获得在CIFAR-10数据集上相似的测试集准确性,而无需预先训练的教师网络。
  • 如前所述,等式(3)要求x,y,H(x,WH)和T(x,WT)的维数相同。 在需要改变表示的尺寸的情况下,可以用通过适当地二次采样或零填充x获得的x 1代替x。 另一种选择是使用平原层(无高速公路)来更改尺寸,然后继续堆叠高速公路层。 这是我们在这项研究中使用的替代方法。 卷积公路层的构造类似于完全连接的层。 H和T变换均使用权重共享和局部接受域。 我们使用零填充来确保块状态和变换门特征图与输入的大小相同。
  • 对于普通的深层网络,除非使用特定的权值初始化方案,否则使用sgd进行的训练在开始时会暂停,这样在向前和向后传播期间的信号方差会在开始时保持不变(glorot&bengio,2010;he et al.,2015)。这个初始化依赖于h的精确函数形式。

Conclusion

  • 通过神经网络学习路由信息,通过改善学分分配和简化培训,有助于将其应用扩展到具有挑战性的问题上(Srivastava等,2015)。 即使这样,仍然很难训练非常深的网络,尤其是在不显着增加总网络规模的情况下。
  • 高速公路网络是新型的神经网络架构,可使用简单的SGD训练极深的网络。 尽管传统的简单神经体系结构越来越难以通过增加网络深度(甚至使用保留方差的初始化来进行训练),但我们的实验表明,即使网络深度增加到一百层,高速公路网络的优化也不会受到阻碍。
  • 训练极深网络的能力为研究深度不受限制地研究复杂问题的可能性提供了可能性。 可以在深层高速公路网络中使用各种激活功能,这些功能可能更适合特定问题,但无法使用健壮的初始化方案。 未来的工作还将尝试增进对高速公路网络学习的理解。

 

### 高速公路相关信息 #### 背景与定义 高速公路是一种专为快速交通设计的道路系统,通常具有多条车道、较高的限速以及严格的通行规则。在计算机科学领域,“高速路”这一概念也被引入到多个技术场景中,例如神经网络架构中的信息流通机制[^1]。 #### 技术应用:Highway Networks Highway Networks 是一种特殊的深度神经网络结构,旨在解决深层网络训练过程中遇到的梯度消失和收敛缓慢等问题。其核心思想是通过门控单元(gates)控制信息在网络各层之间的流动,从而实现更高效的参数更新和模型优化。具体来说,这种网络利用变换门 \( T \) 和携带门 \( C \),分别决定输入数据中有多少部分需要被转换以及有多少部分保持不变: \[ T = \sigma(W_T x + b_T), \quad C = 1 - T \] 最终输出可以表示为: \[ y = T \odot H(x, W_H) + C \odot x \] 这里 \( H(x, W_H) \) 表示一个非线性转换函数,\( \odot \) 表示逐元素乘法操作[^4]。 #### 实际案例:单向直通型城市高速公路 在一个假设的城市环境中,存在一条由北至南贯穿全城的一级单向高速公路。由于财政预算有限,该路段仅设置了一条行车道,这意味着任何车辆都无法超越前方较慢行驶的目标车体[^2]。此设定下,交通管理系统的重点在于合理调度进入道路的车辆顺序及其速度分布,以最大化整体流量效率并减少拥堵现象的发生概率。 #### 判断逻辑:车辆到达状态检测方法 针对特定模拟环境下的自动驾驶仿真平台,提供了一个用于判定某辆机动车是否已经成功驶离指定出口位置的方法 `has_arrived` 。它基于当前实体所处车道索引值 (lane_index) 及其实质空间坐标来完成验证过程[^3]: ```python def has_arrived(self, vehicle: Vehicle, exit_distance: float = 25) -> bool: return "il" in vehicle.lane_index[0] \ and "o" in vehicle.lane_index[1] \ and vehicle.lane.local_coordinates(vehicle.position)[0] >= exit_distance ``` 上述代码片段展示了如何结合字符串匹配技术和数值比较运算符共同构建复合条件表达式的技巧;当满足以下三个子条件时返回 True 值——即确认目标对象确实完成了既定行程任务: 1. 当前所在入口编号包含字符序列 `"il"`; 2. 出口标识符含有字母 `"o"` 成分; 3. 对应纵向距离超出预设阈值水平 (`exit_distance`)。 ---
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值