循环神经网络（RNN）

最新推荐文章于 2024-04-03 10:54:34 发布

VIP文章 Microstrong0305

最新推荐文章于 2024-04-03 10:54:34 发布

阅读量4.4k

点赞数 2

分类专栏：深度学习深度学习文章标签： RNN 循环神经网络深度学习 BPTT 梯度消失

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/program_developer/article/details/83720483

版权

微信公众号

本文同步更新在我的微信公众号里，地址：https://mp.weixin.qq.com/s/IPyI2Ee6Kzyv3wFAUN7NOQ

本文同步更新在我的知乎专栏里，地址：https://zhuanlan.zhihu.com/p/43190710

目录

1. 基本循环神经网络

2. 双向循环神经网络

2.1 双向循环神经网络的介绍

2.2 双向循环神经网络的训练

3. 深度循环神经网络

4. 循环神经网络的时间步长和参数共享

4.1 循环神经网络的time steps

4.2 循环神经网络的参数共享

5. 循环神经网络的训练算法（BPTT）

6. RNN的梯度消失和梯度爆炸

6.1 梯度消失

6.2 梯度爆炸

7. RNN的Long-Term依赖问题

8. RNN的几种架构

1. 基本循环神经网络

传统的神经网络模型是从输入层到隐含层再到输出层的全连接，且同层的节点之间是无连接，网络的传播也是顺序的，但这种普通的网络结构对于许多问题却显得无能为力。例如，在自然语言处理中，如果要预测下一个单词，就需要知道前面的部分单词，因为一个句子中的单词之间是相互联系的，即有语义。这就需要一种新的神经网络，即循环神经网络RNN，循环神经网络对于序列化的数据有很强的模型拟合能力。具体的结构为：循环神经网络在隐含层会对之前的信息进行存储记忆，然后输入到当前计算的隐含层单元中，也就是隐含层的内部节点不再是相互独立的，而是互相有消息传递。隐含层的输入不仅可以由两部分组成，输入层的输出和隐含层上一时刻的输出，即隐含层内的节点自连；隐含层的输入还可以由三部分组成，输入层的输出、隐含层上一时刻的输出、上一隐含层的状态，即隐含层内的节点不仅自连还互连。结构如图1所示。

图1：循环神经网络结构图

在图1中，可以看到隐含层节点间有消息的相互传递。为了更简单的理解，现在我们将RNN在时间坐标轴上展开成一个全神经网络，如图2所示。例如，对一个包含3个单词的语句，那么展开的网络便是一个有3层的神经网络，每一层代表一个单词。

图2：循环神经网络展开图标题

对于图2的网络，计算过程如下：

$x_t$ 表示第 $t$ 步(step)的输入。比如 $x_1$ 为第二个词的词向量( $x_0$ 为第一个词)；

最低0.47元/天解锁文章

Microstrong0305

关注

2
点赞
踩
16

收藏

觉得还不错? 一键收藏
0
评论
循环神经网络（RNN）

微信公众号本文同步更新在我的微信公众号里，地址：https://mp.weixin.qq.com/s/IPyI2Ee6Kzyv3wFAUN7NOQ本文同步更新在我的知乎专栏里，地址：https://zhuanlan.zhihu.com/p/43190710目录1. 基本循环神经网络2. 双向循环神经网络2.1 双向循环神经网络的介绍2.2 双向循环神经网络的训练...
复制链接

扫一扫

专栏目录

Microstrong0305

CSDN认证博客专家 CSDN认证企业博客

码龄10年

312: 原创

1万+: 周排名

111万+: 总排名

363万+: 访问

: 等级

1万+: 积分

6384: 粉丝

4432: 获赞

545: 评论

1万+: 收藏

私信

关注

热门文章

分类专栏

最新评论

神经网络中Epoch、Iteration、Batchsize相关理解和说明
m0_74276215: batch size是一个批次里输入样本的数量吗 number of batches是总样本所分成的批次份数吗
权重衰减（weight decay）与学习率衰减（learning rate decay）
DashingPig: 请问当使用权重衰减时，loss函数中w能收敛而不是无限减小的原因是w的梯度更新中，既有惩罚项即含lambda部分的导数必是正数(这决定了w是往减小方向变化)，又有原loss即含C部分的导数可正可负(这决定了当这部分为负时，w是往增大方向变化)吗？其实我想问的是这样一种情况，当有个参数beta和b的情况相反，惩罚项即正则项中包含它，而原loss部分不包含它，那在进行梯度更新时，是不是意味着beta会无限减小？谢谢
对图像处理中alpha matte的一点理解
qq_47965075: 于是I=F+（1-a）B这里少了alpha吧
深入理解LightGBM
Mike_Leigh: 这帖子绝了！什么叫专业，这就叫专业！
深入理解GBDT二分类算法
Eilady: 不错不错，看懂了

您愿意向朋友推荐“博客详情页”吗？

强烈不推荐
不推荐
一般般
推荐
强烈推荐

提交

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。