lstm 来源结构参考文献浅谈

最新推荐文章于 2024-05-26 23:00:11 发布

deep_learninger

最新推荐文章于 2024-05-26 23:00:11 发布

阅读量5.6k

点赞数

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/u014114990/article/details/49948969

版权

Long Short Term网络一般叫做 LSTM，是一种 RNN 特殊的类型，可以学习长期依赖信息。LSTM 由 Hochreiter & Schmidhuber (1997) 提出，并在近期被 Alex Graves 进行了改良和推广。究竟如何实现LSTM

RNN误区

我感觉有一件很重要的事情一直未被大家充分强调过（而且这也是我为什么不能使用RNN做我想做的事情的主要原因）。RNN和前馈神经网络并没有很大不同。最容易实现RNN的一种方法就是像前馈神经网络使用部分输入到隐含层，以及一些来自隐含层的输出。在网络中没有任何神奇的内部状态。它作为输入的一部分。

RNN的整体结构与前馈网络的结构非常相似

LSTM回顾

本节内容将仅覆盖LSTM的正式定义。有很多其它的好博文，都详细地描述了你该如何设想并思考这些等式。

LSTM有多种变换形式，但我们只讲解一个简单的。一个Cell由三个Gate（input、forget、output）和一个cell单元组成。Gate使用一个sigmoid激活函数，而input和cell state通常会使用tanh来转换。LSTM 的cell可以使用下列的等式来定义：

Gates：

输入变换：

状态更新：

使用图片描述类似下图：

由于门控机制，Cell可以在工作时保持一段时间的信息，并在训练时保持内部梯度不受不利变化的干扰。Vanilla LSTM 没有forget gate，并在更新期间添加无变化的cell状态（它可以看作是一个恒定的权值为1的递归链接），通常被称为一个Constant Error Carousel（CEC）。这样命名是因为它解决了在RNN训练时一个严重的梯度消失和梯度爆炸问题，从而使得学习长期关系成为可能。

如果你有兴趣的话，下面还有几篇关于RNN的好论文：

deep_learninger

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
lstm 来源结构参考文献浅谈

Long Short Term网络一般叫做 LSTM，是一种 RNN 特殊的类型，可以学习长期依赖信息。LSTM 由 Hochreiter & Schmidhuber (1997) 提出，并在近期被 Alex Graves 进行了改良和推广。究竟如何实现LSTMRNN误区我感觉有一件很重要的事情一直未被大家充分强调过（而且这也是我为什么不能使用RNN做我想做的事情的主要原因
复制链接

扫一扫

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。