Highway network——《Training Very Deep Networks》一些总结

本文介绍了Highway Networks如何通过transform gate和carry gate解决深度神经网络中的梯度消失问题,强调了单元状态在梯度流中的重要性。作者详细讨论了训练Highway Networks的技巧,如T(x)的负偏置初始化,以及网络在训练过程中展现出的特性,如transform gate的选择性和数据依赖性路由机制。Highway Networks虽简化了训练,但并未提高模型效率。
摘要由CSDN通过智能技术生成

最近在家里听斯坦福CS231n的课程,很系统的学习了一些深度学习的知识,很受启发。其中,我对深度学习中的梯度流的概念印象深刻。讲到RNN时,提到LSTM能够解决普通RNN的梯度消失和梯度爆炸的问题。LSTM包含两个隐状态,分别为单元状态和隐藏状态。其中,单元状态是梯度传播的主要路径。上一时刻和下一时刻单元状态的传播通过一个加法和一个逐元素的矩阵乘法操作。这两个操作降低了计算复杂度,同时也能避免梯度消失和梯度爆炸问题(主要是由于forget gate是变化的,避免梯度反复乘以相同的权重矩阵)。因此,该课程提到单元状态中的加法和逐元素乘法可为梯度提供一条类似ResNet的梯度高速公路。从某种程度说,通过加法连接和乘法门管理梯度流是很有用的。因此,我特意看了高速公路网络的论文《Training Very Deep Networks》,并且总结一下这篇论文。

普通神经网络:

highway networks:

其中,T(x)和C(x)分别对应transform gate和carry gate。

简化的highway networks:

  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值