【论文笔记】Highway Network: Training Very Deep Networks (2015)

最新推荐文章于 2021-12-27 15:57:51 发布

mottled233

最新推荐文章于 2021-12-27 15:57:51 发布

阅读量638

点赞数

分类专栏： NLP 文章标签：论文笔记深度学习人工智能自然语言处理

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/mottled233/article/details/104375505

版权

本文深入解析2015年的Highway Network论文，探讨如何解决深层网络训练难题。通过引入转换门和携带门，Highway Network允许信息在层间灵活传递，改善了深度网络的训练效果。实验表明，Highway Network在MNIST和CIFAR数据集上表现出色，能够动态地根据输入调整信息路由，增强网络的表现力。

摘要由CSDN通过智能技术生成

这篇论文提出了著名的Highway Network，用于解决深层网络的训练问题。这个结构已经得到了广泛的应用，也有很多资料。我之所以阅读这篇五年前的论文，主要是看现在的资料觉得对网络的结构理解的还是比较浅，于是想看看发明者的思路，在这里对收获做了一些总结。

1.介绍

网络深度的增加会为网络带来更多的表现力，但网络深度同时也让网络很难去训练。在这篇论文之前，解决方案大致从这几个方面出发：

优化器：

Training deep and recurrent networks with hessian-free optimization
On the importance of initialization and momentum in deep learning
Identifying and attacking the saddle point problem in high-dimensional non-convex optimization

初始化策略

Understanding the difficulty of training deep feedforward neural networks
Delving deep into rectifiers: Surpassing human-level performance on ImageNet classification

激活函数

Maxout networks.
Compete to compute

层之间的Skip connections

Deep learning made easier by linear transformations inperceptrons
Generating sequences with recurrent neural networks

另外还有一种很清奇的思路，是用一些浅层网络（称为教师网络）来分阶段地辅助训练更深的学生网络（ FitNets: Hints for thin deep nets）。学生网络去预测教师网络的参数。但这样的设计毕竟不如直接训练。

2. 模型和实验

作者从LSTM得到启发，发明了Highway Network。

在普通（plain）前馈网络中，一个典型的层结构(block)是：
$y = H(x, W_H)$
意为在参数 $W_H$ 参与下进行非线性变化 $H$ 。

而在Highway Network中，模型被定义如下：

最低0.47元/天解锁文章

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。