循环神经网络：从RNN到LSTM（学习笔记01）

最新推荐文章于 2021-10-09 22:56:39 发布

水满船头滑

最新推荐文章于 2021-10-09 22:56:39 发布

阅读量377

点赞数 1

分类专栏：学习笔记文章标签：循环神经网络 rnn lstm 深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/weixin_42847656/article/details/102841979

版权

本文介绍了循环神经网络（RNN）的基本原理，包括一对多、多对一、多对多等模式，并探讨了RNN在训练中面临的梯度消失问题。为解决这些问题，文章引入了LSTM（长短期记忆网络），详细解析了LSTM的结构和工作原理，阐述了其如何有效捕获时间序列中的长期依赖关系。

摘要由CSDN通过智能技术生成

人类不会每秒都从头开始思考，也不会像鱼一样，只有七秒钟的记忆。在阅读文章的时候，你会通过先前的每一个单词，每一句话，来了解和思考接下去的每一句话。

而在传统的神经网络中就不能解决这个问题，于是就有了循环神经网络。
下面是一个典型的循环神经网络：

这是一个循环神经网络按照时间展开的网络。我们可以看到，每一个时间迭代t时刻，每个神经元都能同时接收到输入向量x(i)和前一个时间迭代是输出量h(t-1)。

RNN可以有以下几种模式：
在这里插入图片描述

一对多：在第一个时间迭代给网络输入一个单词（其他时间迭代都是零），并让他出输一个序列的向量到序列网络。
多对一：提供网络一系列的输入并忽略除了最后一个之外的所有输出的序列到向量的网络。
多对多：同时获得输入序列并产生输出序列的序列到序列网络或者延迟的序列到序列网络。

当然，和其他深层的神经网络一样，RNN也会遇到梯度消失/爆炸问题。一般我们解决此类问题用的是良好的初始化参数，非饱和激活的方法，批次归一化，梯度剪切，更快的优化器等。但是最简单的方法还是在有限的时间迭代上展开RNN，这种方法被称之为时间截断反向传播。但是这也会带来诸如模型无法学习长期模式，会忽略掉长时间细粒度中的关键信息

最低0.47元/天解锁文章

水满船头滑

关注

1
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。