吴恩达深度学习笔记——循环神经网络（RNN）

最新推荐文章于 2022-08-19 23:27:05 发布

AngelaOrange

最新推荐文章于 2022-08-19 23:27:05 发布

阅读量1.5k

点赞数 1

分类专栏：深度学习笔记文章标签：深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_35175666/article/details/88673777

版权

本文详细介绍了循环神经网络（RNN）的原理和应用场景，包括RNN为何适合序列模型，数学符号表示，反向传播过程，不同类型的RNN，以及解决梯度消失问题的GRU和LSTM单元。此外，还讨论了双向RNN和深层RNN结构。

摘要由CSDN通过智能技术生成

目录

一、为什么使用序列模型（Why sequence models）

二、数学符号（Notation）

三、循环神经网络（Recurrent neural network）

四、通过时间的反向传播（Backpropagation through time）

五、不同类型的循环神经网络（Different types of RNNs）

六、语言模型和序列生成（Language model and sequence generation）

七、对新序列的采样（Sampling novel sequences）

八、循环神经网络的梯度消失（Vanishing gradients with RNNs）

九、GRU（Gated Recurrent Unit）

十、LSTM（long short term memory）

十一、双向RNN（Bidirectional RNN）

十二、深层循环神经网络（Deep RNNs）

一、为什么使用序列模型（Why sequence models）

输入和输出是序列，使用序列模型。应用很广泛，如下图：

二、数学符号（Notation）

尖括号表示序列中的词的位置编号，圆括号表示第i个样本。两种括号一起使用，表示第i个样本的位置t的词。

单词的表示方法：在词典中出现的位置编号，用one-hot编码。

三、循环神经网络（Recurrent neural network）

为什么不使用普通的神经网络处理句子等NLP问题？
有两个原因：
1、句子的长短是不一致的，即输入层的向量维度是不固定的。如果以最长的为准，其余的补零，也不是一种好方法。
2、没有在整个文本中共享信息。（类似CNN中权值共享的思想）

RNN的图示：

单向的RNN只与前面的词有关系，双向的RNN是与前后的词均有关系。

前向传播的公式：

为了表示方便，把 $W_{aa}$ 和 $W_{ax}$ 合写成 $W_{a}$ 。

四、通过时间的反向传播（Backpropagation through time）

反向传播过程：从右到左的计算，类似“穿越时空”，“时光倒流”。

一个元素上的损失函数：

整个序列的损失函数

五、不同类型的循环神经网络（Different types of RNNs）

在解决上述不同的场景时，需要用到不同的RNN结构。
如下图，

最低0.47元/天解锁文章

关注

1
点赞
踩
6

收藏

觉得还不错? 一键收藏
0
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。