Empirical Evaluation of Gated Recurrent Neural Networks on Sequence Modeling

最新推荐文章于 2024-09-15 15:29:29 发布

big_matster

最新推荐文章于 2024-09-15 15:29:29 发布

阅读量1.1k

点赞数

分类专栏：论文写作思路总结文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/kuxingseng123/article/details/131604800

版权

论文写作思路总结专栏收录该内容

3 篇文章 1 订阅

订阅专栏

文章探讨了RNN在处理变长序列时遇到的挑战，特别是长期依赖问题，以及如何通过LSTM和GRU的门控机制来解决这些问题。LSTM和GRU都是为了解决传统RNN的梯度消失和梯度爆炸而设计的，它们各自有不同的记忆和信息流控制方式。实验比较了LSTM和GRU在捕捉长期依赖方面的性能，为后续的RNN模型训练提供了参考。

摘要由CSDN通过智能技术生成

感想：由于看不懂官方代码的原因，自己这方面耽误了一段时间，一方面，在AI与经济学之间犹豫了许久，另一方面，工作了半年，也没发工资，没空找培训代码的课程，所以停止更新了三四个月，现在想通了。路要一步一步的走。事情也要一点一点的去深耕细作。今天，AI又重新搞起来啦，先从研读论文开始吧！

摘要

* RNNs中不同类型的循环单元。特别关注，实现门机制的复杂的单元。比如：LSTM、GRU。

传统的循环单元： tanh 单元。

介绍

数据集： three polyphonic music datasets

two internal datasets

背景：RNN

* RNN是传统前馈神经网络的拓展，传统前馈神经网络能够处理a variable-length sequence input

RNN处理变长序列，通过使用:a recurrent hidden state 循环隐藏状态。

RNN更新循环隐藏状态 $h_t$

传统的循环隐藏状态更新方程：

$h_{t} = g(wx_{t }+ Uh_{t - 1})$

a smooth, bounded function（平滑有界函数)

一个生成式RNN的输出是一个序列下一个元素的概率分布。给定当前状态 $h_{t}$ 生成时模型可以捕获可变长度的模型分布。只需用一个特别的输出标记一个序列的末尾就可以实现可变长度。

RNN很难捕捉到长短时依赖（Long-term dependencies） : 梯度消失或梯度爆炸。

解决方法： simple clipped gradient 裁剪的梯度。

设计比通常激励函数更复杂的激励函数。一个简单非线性元素级别的仿射变换

通过门单元实现的： LSTM单元、GRU单元。

门循环神经网络

Hochreiter and Schmidhuber（1997）：提出LSTM。

本文使用的：

the implementation of LSTM as used in Graves（2013）

$o_t^j$ 是一个输出门。计算公式如下：

记忆单元： $c^j_t$

通过部分已经存在记忆部分来更新，增加一个新的记忆内容。

遗忘门： $f^j_t$

门循环单元（GRU）

每个循环单元可以自适应的捕捉不同时间刻度下的依赖。GRU具有调节信息流动的门单元，但是没有一个单独的记忆单元。

讨论

LSTM和GRU共有的特征从t时刻到t+1时刻的更新。

实验

模型

LSTM units

, GRUs

tanh units

结果和分析

论文思路

在同一数据集上比较两个门单元：LSTM、GRU，并对其表现进行评价其优劣。

解决问题：训练RNN捕捉长期依赖时，经常出现梯度消失和梯度爆炸。

报课之前，先自己总结论文写作思路以及解决问题，不但的积累！争取在老师的辅导下冲刺二区。

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
打赏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

big_matster CSDN认证博客专家 CSDN认证企业博客

码龄5年

257: 原创

103万+: 周排名

105万+: 总排名

30万+: 访问

: 等级

2883: 积分

124: 粉丝

236: 获赞

52: 评论

1178: 收藏

私信

关注

热门文章

分类专栏

最新评论

医疗实体及关系识别挑战赛
Bing激凌: 您好！同求数据集！一位学生找不碎掉了联系方式2233054933@qq.com
LSTM和双向LSTM讲解及实践
weixin_40901147: 写得是真的好，很清晰。细胞状态就纪录语境（主题）变迁的变量，隐藏状态就是纪录注意力信息的变量（语法，用词）。新的细胞状态由新输入状态和过去的细胞状态隐藏状态决定，就是要细致分辨主题的变化，这是遗忘门和输入门的合作原理。新的隐藏状态是由新的细胞状态（新主题）和新的输入状态决定，这是输出门的工作原理。这决定了此刻此句话的意思。一个圆形相当于一个LSTM块。双向LSTM就是，若干句话顺着读产生上文语境，反着读产生下文语境，分别有上文细胞状态列和下文细胞状态列，对应输入状态产生产生上文隐藏和下文隐藏状态，对应着上下文的特征。共同决定此处特征。
open-set recognition(OSR)开集识别
qq_37441443: UKCS(unknown known classed)该怎么理解,能给个具体的例子吗
LSTM和双向LSTM讲解及实践
境界面上的双曲线: 你可以去看一下CNN+LSTM的网络结构
医疗实体及关系识别挑战赛
qq_43894281: 博主，您有这个数据集麽？如果有的话，可以发我一份麽？我找了好久都没有找到

大家在看

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

big_matster 您的鼓励，是给予我最大的动力！

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。