这篇论文提出了著名的Highway Network,用于解决深层网络的训练问题。这个结构已经得到了广泛的应用,也有很多资料。我之所以阅读这篇五年前的论文,主要是看现在的资料觉得对网络的结构理解的还是比较浅,于是想看看发明者的思路,在这里对收获做了一些总结。
1.介绍
网络深度的增加会为网络带来更多的表现力,但网络深度同时也让网络很难去训练。在这篇论文之前,解决方案大致从这几个方面出发:
- 优化器:
- Training deep and recurrent networks with hessian-free optimization
- On the importance of initialization and momentum in deep learning
- Identifying and attacking the saddle point problem in high-dimensional non-convex optimization
- 初始化策略
- Understanding the difficulty of training deep feedforward neural networks
- Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification
- 激活函数
- Maxout networks.
- Compete to compute
- 层之间的Skip connections
- Deep learning made easier by linear transformations inperceptrons
- Generating sequences with recurrent neural networks
另外还有一种很清奇的思路,是用一些浅层网络(称为教师网络)来分阶段地辅助训练更深的学生网络( FitNets: Hints for thin deep nets)。学生网络去预测教师网络的参数。但这样的设计毕竟不如直接训练。
2. 模型和实验
作者从LSTM得到启发,发明了Highway Network。
在普通(plain)前馈网络中,一个典型的层结构(block)是:
y = H ( x , W H ) y = H(x, W_H) y=H(x,WH)
意为在参数 W H W_H WH参与下进行非线性变化 H H H。
而在Highway Network中,模型被定义如下: