循环神经网络（RNN）

最新推荐文章于 2024-05-16 18:18:12 发布

整得咔咔响

最新推荐文章于 2024-05-16 18:18:12 发布

阅读量1.3k

点赞数

分类专栏：深度学习文章标签：神经网络深度学习人工智能算法 python

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/qq_27388259/article/details/113449523

版权

深度学习专栏收录该内容

10 篇文章 10 订阅

订阅专栏

1.循环神经网络用于解决连续且长短不一的序列样本

2.RNN是一种时间序列模型，模型三个线性关系矩阵共享，体现“循环”思想

3.LSTM是RNN的一个特例，用于解决RNN梯度爆炸和梯度消失的问题

4.LSTM隐状态比RNN多了一层——细胞状态

5.LSTM由遗忘门、输入门、细胞更新和输出门构成

6.求解RNN模型依然采取前向传播与反向传播算法

多层感知机（MLP）是深度神经网络（DNN）的基础模型，通常DNN就是指多层感知机，在此基础上加入卷积层和池化层，就得到了卷积神经网络（CNN）。但这两类模型对于训练样本输入是连续且长短不一的序列比较难解决，比如一串语音或者一串文字，对于这类问题，循环神经网络（RNN）则比较擅长解决。我们这一篇就介绍该模型。

模型介绍

循环神经网络，英文是Recurrent Neural Networks ，简称RNN。通常用于自然语言处理的语音识别和机器翻译领域。下图是RNN的一种典型结构图：

它假设变量都是时间序列化的，其中：

x表示训练样本输入
h表示隐藏状态，t时刻的h状态由t时刻的x和t-1时刻的h决定
o表示模型输出，t时刻的输出o只与当前隐藏状态h决定
L表示损失函数
y表示训练样本的真实输出
W,U,V是模型三个线性关系参数的矩阵，它在整个RNN中共享，体现了“循环”思想

RNN模型传播算法

对于任意序列时刻t，隐藏状态h的公式：

激活函数一般为tanh。

此时模型输出o为：

t时刻最终预测输出为：

如果是识别分类模型，则该激活函数一般为softmax.

RNN的反向传播算法是基于时间序列，通常也称为BPTT(back-propagation through time).

每个时刻都有损失，所以最终的损失为：

为了简化计算,这里采取交叉熵损失,隐藏层激活函数为tanh函数,最终输出是softmax函数。因此求损失函数L对V,c的梯度为：

下面求解损失函数L对W,U,b的导数，类似DNN，定义一个迭代式子：

又因为：

所以：

最后得到梯度：

RNN改进——LSTM

RNN也会面临梯度消失的问题，天才数学家提出了它的改进模型——LSTM（Long Short-Term Memory），它可以避免RNN的梯度消失.

经典的RNN图结构如下（每层略去模型输出o,损失函数L,真实输出y）：

每个时刻t增多一个隐藏状态，我们称为细胞状态（Cell State），图中最上面的长横线部分；

引进遗忘门（forget gate），以一定的概率控制是否遗忘上一层的隐藏细胞状态:

它通过t-1时刻隐藏状态h和t时刻序列数据x，通过激活函数σ得到遗忘门的输出f，一般为sigmod函数，控制在[0,1]之间，用以表示概率：

输入门（input gate）负责当前时刻t序列的输入：

它由两部分组成，第一部分使用了sigmoid激活函数，输出为i；第二部分使用了tanh激活函数，输出为a, 两者的结果后面会相乘再去更新细胞状态：

然后到细胞更新过程：

前面的遗忘门和输入门的结果都会作用于细胞状态：

最后到输出门：

t时刻隐藏状态h由两部分组成，第一部分是输出模型o，由t-1时刻因此状态h和t时刻序列数据x，以及激活函数σ得到；第二部分由t时刻隐藏状态C与tanh激活函数得到：

LSTM模型传播算法

LSTM的前向传播

前向传播算法很简单，只需要求出每个时刻t的各种输出即可。

然后按照序列t不断向前更新即可。

LSTM的反向传播

类似于标准的RNN，我们要找到迭代公式，这里的的隐状态有h和C，所以要定义两个δ：

最后可以计算得到T时刻：

t时刻:

其中,

最后得到参数梯度：

其他参数梯度也可以同样得到。

这一篇只对RNN做个简要的介绍与推导，对RNN有个整体的认识，更多深入的细节与原理以后会再介绍。

整得咔咔响

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
打赏
0
评论
循环神经网络（RNN）

1.循环神经网络用于解决连续且长短不一的序列样本2.RNN是一种时间序列模型，模型三个线性关系矩阵共享，体现“循环”思想3.LSTM是RNN的一个特例，用于解决RNN梯度爆炸和梯度消失的...
复制链接

扫一扫

专栏目录

整得咔咔响 CSDN认证博客专家 CSDN认证企业博客

码龄9年

209: 原创

4万+: 周排名

98万+: 总排名

57万+: 访问

: 等级

3247: 积分

422: 粉丝

584: 获赞

92: 评论

3726: 收藏

私信

关注

热门文章

分类专栏

最新评论

概率图模型(总结篇)
m0_47993635: 博主我爱你
你真的理解【条件概率】吗
Oumpi: 我是这么理解：假设换门赢，意味着一开始要选错的；假设不换门赢，意味着一开始要选对的：也就是说换门-赢，实际上取决于第一次的选择，而第一次总是更容易选到错的，所以换门总归赢面更大。但是我总感觉怪怪的，抽奖这种行为怎么能用概率呢，概率不是重复无数次实验趋于稳定的一个值吗，抽奖这种事，就当作是独立事件吧。
分部积分
半缘浅: 好东西要一起分享
直面配分函数（Confronting Partition Function）
m0_74071811: 但是感觉马尔科夫链那里用配合书上的受限玻尔兹曼机更好
直面配分函数（Confronting Partition Function）
m0_74071811: 比花书上讲的详细

最新文章

目录

评论

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

打赏作者

整得咔咔响 你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20

扫码支付：¥1

获取中

扫码支付

您的余额不足，请更换扫码支付或充值

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。