【论文笔记】Highway Network: Training Very Deep Networks (2015)

本文深入解析2015年的Highway Network论文,探讨如何解决深层网络训练难题。通过引入转换门和携带门,Highway Network允许信息在层间灵活传递,改善了深度网络的训练效果。实验表明,Highway Network在MNIST和CIFAR数据集上表现出色,能够动态地根据输入调整信息路由,增强网络的表现力。
摘要由CSDN通过智能技术生成

这篇论文提出了著名的Highway Network,用于解决深层网络的训练问题。这个结构已经得到了广泛的应用,也有很多资料。我之所以阅读这篇五年前的论文,主要是看现在的资料觉得对网络的结构理解的还是比较浅,于是想看看发明者的思路,在这里对收获做了一些总结。

1.介绍

网络深度的增加会为网络带来更多的表现力,但网络深度同时也让网络很难去训练。在这篇论文之前,解决方案大致从这几个方面出发:

  1. 优化器:
  • Training deep and recurrent networks with hessian-free optimization
  • On the importance of initialization and momentum in deep learning
  • Identifying and attacking the saddle point problem in high-dimensional non-convex optimization
  1. 初始化策略
  • Understanding the difficulty of training deep feedforward neural networks
  • Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification
  1. 激活函数
  • Maxout networks.
  • Compete to compute
  1. 层之间的Skip connections
  • Deep learning made easier by linear transformations inperceptrons
  • Generating sequences with recurrent neural networks

另外还有一种很清奇的思路,是用一些浅层网络(称为教师网络)来分阶段地辅助训练更深的学生网络( FitNets: Hints for thin deep nets)。学生网络去预测教师网络的参数。但这样的设计毕竟不如直接训练。

2. 模型和实验

作者从LSTM得到启发,发明了Highway Network。

在普通(plain)前馈网络中,一个典型的层结构(block)是:
y = H ( x , W H ) y = H(x, W_H) y=H(x,WH)
意为在参数 W H W_H WH参与下进行非线性变化 H H H

而在Highway Network中,模型被定义如下:

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值