Training Very Deep Networks论文笔记

Training Very Deep Networks论文笔记

作者及其所在团队在国内外相关领域所处水平:

Jürgen Schmidhuber:

LSTM之父、 深度学习元老, 瑞士人工智能实验室(IDSIA)的研发主任,被称为递归神经网络之父。 本人创立的公司Nnaisense正专注于人工智能技术研发。此前,他开发的算法让人类能够与计算机对话。

RupeshKumar Srivastav:

Jürgen Schmidhuber的学生

Klaus Greff:

Jürgen Schmidhuber的学生

个人主页:https://www.researchgate.net/profile/Klaus_Greff

问题解决:

神经网络的深度对网络性能有着至关重要的影响,文章提出Hightway network以缓解这个问题。

论文贡献:

文章提出了Hightway network,基于门机制引入了transform gate T(x.WT)和carry gate C(x,WT),使得训练更深的网络变为可能,并且加快了网络的收敛速度。

论文思想基础:

1.在前馈网络结构中传统非线性变换的叠加会导致激活和梯度的传播不良。

2.采用两个门transform gatecarry gate 来控制当前层的输出形式,输出形式来自两部分:当前层的直接输入和经过非线性映射后的部分。

论文工作:

受启发于LSTM,采用两个门transform gate 和 carry gate 来控制当前层的输出形式,使得更深的网络能够被训练。

传统网络:y=H(x,WH)

Highway network网络:定义了两个非线性变换T(x,WT)和C(x,Wc)。

y=H(x,WH)×T(x,WT)+x×C(x,Wc)

论文为了简单起见,仅仅设置C=1-T

T(x,WT)=θ(WT^T*x+bT)

WT是权重矩阵,bT为偏置矢量(一般设置为负值例如-1,-3,将其设置为负值能让网络高效学习),θ(x)∈(0,1)

作者将highway network和普通网络在10层和100层分别进行对比,发现在较小的网络中普通网络的性能较好,但在大型网络中highway network的性能更好并且收敛的更快。经过实验可以推断出,随着网络的增加,bT是会逐渐增加的,transform gate的平均输出会减少,因而设定大的负值偏置矢量会让更多的信息在网络中流通。

程序代码:

http://people.idsia.ch/~rupesh/very_deep_learning/

训练集及测试集:

CIFAR-10:http://www.cs.toronto.edu/~kriz/cifar.html

CIFAR-100:http://www.cs.toronto.edu/~kriz/cifar.html

MNIST:http://yann.lecun.com/exdb/mnist/

未来改进:

1.网络深度仍然无法太深。

2.超参数方面仍可以优化。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值