Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

感想:由于看不懂官方代码的原因,自己这方面耽误了一段时间,一方面,在AI与经济学之间犹豫了许久,另一方面,工作 了半年,也没发工资,没空找培训代码的课程,所以停止更新了三四个月,现在想通了。路要一步一步的走。事情也要一点一点的去深耕细作。今天,AI又重新搞起来啦,先从研读论文开始吧!

摘要

*  RNNs中不同类型的循环单元。特别关注,实现门机制的复杂的单元。比如:LSTM、GRU。

传统的循环单元: tanh 单元

介绍

数据集: three polyphonic music datasets

               two internal datasets

背景:RNN

* RNN是传统前馈神经网络的拓展,传统前馈神经网络能够处理a variable-length sequence input

RNN处理变长序列,通过使用:a recurrent hidden state 循环隐藏状态

RNN更新循环隐藏状态 $h_t$

传统的循环隐藏状态更新方程:

$h_{t} = g(wx_{t }+ Uh_{t - 1})$

a smooth, bounded function(平滑有界函数)

一个生成式RNN的输出是一个序列下一个元素的概率分布。给定当前状态$h_{t}$ 生成时模型可以捕获可变长度的模型分布。只需用一个特别的输出标记一个序列的末尾就可以实现可变长度

RNN很难捕捉到长短时依赖(Long-term dependencies) : 梯度消失或梯度爆炸

解决方法: simple clipped gradient 裁剪的梯度。

                  设计比通常激励函数更复杂的激励函数。一个简单非线性元素级别的仿射变换

                  通过门单元实现的: LSTM单元、GRU单元

门循环神经网络

 Hochreiter and Schmidhuber(1997): 提出LSTM。

本文使用的:

the implementation of LSTM as used in Graves(2013)

 

 $o_t^j$是一个输出门。计算公式如下:

记忆单元:$c^j_t$

通过部分已经存在记忆部分来更新,增加一个新的记忆内容。 

遗忘门:$f^j_t$ 

门循环单元(GRU) 

每个循环单元可以自适应的捕捉不同时间刻度下的依赖。GRU具有调节信息流动的门单元,但是没有一个单独的记忆单元

讨论 

LSTM和GRU共有的特征从t时刻到t+1时刻的更新

实验

模型

LSTM units

, GRUs

tanh units

 

结果和分析 

论文思路 

在同一数据集上比较两个门单元:LSTM、GRU,并对其表现进行评价其优劣。

解决问题:训练RNN捕捉长期依赖时,经常出现梯度消失和梯度爆炸

报课之前,先自己总结论文写作思路以及解决问题,不但的积累!争取在老师的辅导下冲刺二区。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

big_matster

您的鼓励,是给予我最大的动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值