Training Very Deep Networks论文笔记
作者及其所在团队在国内外相关领域所处水平:
Jürgen Schmidhuber:
LSTM之父、 深度学习元老, 瑞士人工智能实验室(IDSIA)的研发主任,被称为递归神经网络之父。 本人创立的公司Nnaisense正专注于人工智能技术研发。此前,他开发的算法让人类能够与计算机对话。
RupeshKumar Srivastav:
Jürgen Schmidhuber的学生
Klaus Greff:
Jürgen Schmidhuber的学生
个人主页:https://www.researchgate.net/profile/Klaus_Greff
问题解决:
神经网络的深度对网络性能有着至关重要的影响,文章提出Hightway network以缓解这个问题。
论文贡献:
文章提出了Hightway network,基于门机制引入了transform gate T(x.WT)和carry gate C(x,WT),使得训练更深的网络变为可能,并且加快了网络的收敛速度。
论文思想基础:
1.在前馈网络结构中传统非线性变换的叠加会导致激活和梯度的传播不良。
2.采用两个门transform gate 和 carry gate 来控制当前层的输出形式,输出形式来自两部分:当前层的直接输入和经过非线性映射后的部分。
论文工作:
受启发于LSTM,采用两个门transform gate 和 carry gate 来控制当前层的输出形式,使得更深的网络能够被训练。
传统网络:y=H(x,WH)
Highway network网络:定义了两个非线性变换T(x,WT)和C(x,Wc)。
y=H(x,WH)×T(x,WT)+x×C(x,Wc)
论文为了简单起见,仅仅设置C=1-T
T(x,WT)=θ(WT^T*x+bT)
WT是权重矩阵,bT为偏置矢量(一般设置为负值例如-1,-3,将其设置为负值能让网络高效学习),θ(x)∈(0,1)
作者将highway network和普通网络在10层和100层分别进行对比,发现在较小的网络中普通网络的性能较好,但在大型网络中highway network的性能更好并且收敛的更快。经过实验可以推断出,随着网络的增加,bT是会逐渐增加的,transform gate的平均输出会减少,因而设定大的负值偏置矢量会让更多的信息在网络中流通。
程序代码:
http://people.idsia.ch/~rupesh/very_deep_learning/
训练集及测试集:
CIFAR-10:http://www.cs.toronto.edu/~kriz/cifar.html
CIFAR-100:http://www.cs.toronto.edu/~kriz/cifar.html
MNIST:http://yann.lecun.com/exdb/mnist/
未来改进:
1.网络深度仍然无法太深。
2.超参数方面仍可以优化。