Highway Networks:一种可学习的门限机制,在此机制下,一些信息流没有衰减的通过一些网络层,适用于SGD法。
神经网络的深度是成功与否的重要因素,理论上来说,深层网络的表现要比浅层的好得多。然而,当深度的不断加深,训练也变得更加困难。
文章提出了一种新颖的结构,可以对任意深度的网络进行优化。这是通过一种控制穿过神经网络的信息流的闸门机制所实现的。
- 朴素卷积神经网络由L个层构成,用H将输入x,转换为输出y,忽略下标和截距:
y=H(x,WH) y = H ( x , W H ) 对于highway network,添加了两个非线性转换
y=H(x,WH)∗T(x,WT)+x∗C(x,WC) y = H ( x , W H ) ∗ T ( x , W T ) + x ∗ C ( x , W C )
式中,前一项表示输入信息被转换的部分,后一项原来信息中保留的部分为了简化,将C替换为1-T
y=H(x,WH)∗T(x,WT)+x∗(1−T(x,WT)) y = H ( x , W H ) ∗ T ( x , W T ) + x ∗ ( 1 − T ( x , W T ) )