课程笔记——Recurrent Neural Network

最新推荐文章于 2023-05-26 10:25:19 发布

mintminty

最新推荐文章于 2023-05-26 10:25:19 发布

阅读量205

点赞数

分类专栏：模型原理笔记

本文链接：https://blog.csdn.net/mintminty/article/details/94736419

版权

模型原理笔记专栏收录该内容

9 篇文章 0 订阅

订阅专栏

举例

如下图蓝色框为记忆区，当黄色输入=1时，绿色=1+1=2，橙色输出=2+2=4，同时将绿色框结果存储到蓝色记忆区。
在这里插入图片描述
此时蓝色记忆区=2，黄色输入=1时，绿色=1+1+2+2=6，橙色输出=6+6=12，同时将绿色框结果存储到蓝色记忆区。

以此类推，输入输出序列如下，故我们可知当输入序列顺序改变时，输出值会产生变化。

1.几个简单分类

Elman Network：将某时间点的hidden layer存起来，在下个时间点读入
Jordan Network：将某时间点的output存起来，在下个时间点读入
Bidirectional RNN（双向的）：同时训练一个正向的、逆向的，然后将某时间点的正逆两个结果输出 y^t

2.Long Short-term Memory(LSTM)

简单解释：

现有一个Memory Cell
Input Gate决定外界输入能否被保存到Memory Cell中，Output Gate决定外界能否从Memory Cell读出，至于Input Gate、Output Gate是打开/关闭是网络自己学习的
Forget Gate决定什么时候要把过去记的东西忘掉，也是自己学习的

详细解释：

现要被存入Input里面的是 $z$ ，操控Input Gate的是 $z_i$ （数值），操控Output Gate的是 $z_o$ （数值），操控Forget Gate的是 $z_f$ （数值）
三个门的激活函数通常为sigmoid函数，介于0-1，1：开启状态即可以输入。例如： $f(z_i)=0$ 时， $f(z_i)g(z)=0$ 也就没有输入了； $f(z_f)=1$ 时， $f(z_f)c=1$ 即原来存储什么还是什么，没有被遗忘（针对遗忘门，打开时代表记得，关闭时代表遗忘）
新的存在Memory Cell里面的值： $c'=g(z)f(z_i)+cf(z_f)$
输出门 $a=h(c')f(z_0)$
对比常规的神经网络，将上述框架看作是一个神经元，所以LSTM本质结构就是无数个上述结构的神经元相连。上文提到有四个输入过程，下图为解释：

3.关于误差

基于RNN的网络，通常不容易被学习，常常出现如下情况：
在这里插入图片描述
详细分析如下：
loss可能会发生非常剧烈的振荡，更糟糕的状况例如当处在中间交界处时，之前的梯度都很小所以将学习率调大，但当调整完后梯度突然增大再加上学习率变大，整个结果就会崩坏。

为什么会这样：
假设现在有个结构如下的网络，
绿色框中的 $w$ 有十分大的梯度，那么针对这种情况我们需要将学习率设小
黄色框中的 $w$ 有小的梯度，那么针对这种情况我们需要将学习率设小
故，当面对变化频繁的梯度，学习率也需要不断调整
在这里插入图片描述