RNN 、LSTM、 GRU、Bi-LSTM 等常见循环网络结构以及其Pytorch实现

最新推荐文章于 2024-08-21 08:00:00 发布

MirrorN

最新推荐文章于 2024-08-21 08:00:00 发布

阅读量8.9k

点赞数 15

分类专栏： Pytorch 深度学习文章标签： rnn Pytorch

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/sinat_34328764/article/details/104957897

版权

本文详细介绍了循环神经网络的基础，包括RNN、LSTM、GRU和双向LSTM的概念及其在Pytorch中的实现。重点讲述了RNN的计算公式和特点，LSTM的门控结构，以及GRU的重置门和更新门。此外，还讨论了多层LSTM的结构和Bi-LSTM的优势。提供了相关代码示例和资源链接。

摘要由CSDN通过智能技术生成

这篇文章主要是对之前一段时间里接触到的循环神经网络的相关知识进行一些总结，包括个人觉得初学难理解或者需要注意的问题和如何使用Pytorch的相关函数。由于这些经典结构网上资料很多，所以一些通识不再陈述，偏重代码部分。

文章目录

- - 1.RNN
  - 2.LSTM
  - 3. GRU
  - 4. Multi-Layers-LSTM
  - 4. Bi-LSTM
  - 5.参考

1.RNN

很多问题都归结于序列信息的处理，例如 speech recognization，machine translation等等，RNN就是为了解决这类问题的结构，这里的RNN含义为循环神经网络（recurrent neural network）而非递归神经网络（recursive neural network）。序列信息可以看作是不同时间点输入相同格式的数据，那么使用一个结构循环处理不同时间点的数据，那么这也就是RNN网络了，所以很多介绍RNN的地方都会有那张经典的RNN展开的图了：

在这里插入图片描述

这一类介绍资源非常多，所以不再赘述。RNN的关键在于它的计算公式：
$s_t = f(U\cdot x_t + W\cdot s_{t-1}) \\ o_t = softmax(V\cdot s_t)$
说明：

$x_t$ 是某个时刻的输入信息，序列信息可以看作是不同时间的连续输入，所以每个时间点都会输入信息。
$s_t$ 表示隐藏信息，对于序列信息的处理，很重要的一点就是上文信息会影响到下文信息，所以需要有一个结构来储存之前的所有信息。
$o_t$ 表示某个时间点的输出信息。

RNN有几个特点：

每个时间点都会输出一个隐藏状态，但是显然我们并不需要全部的信息，例如在对文本进行分类的时候，我们往往只是使用最后一个时刻的隐藏状态，然后通过一个分类器即可。
权值共享，实际上是一个结构对不同时刻的信息进行处理，所以所有的权重实际上都是相同的。
RNN也使用BP算法来更新参数，但是与之前的神经网络不同的是，这里的梯度计算需要依赖于之前的所有步，然后将梯度累加，这被称为 BPTT（

最低0.47元/天解锁文章

关注

15
点赞
踩
159

收藏

觉得还不错? 一键收藏
1
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。