多种类型RNN

最新推荐文章于 2024-06-26 19:42:33 发布

messi_james

最新推荐文章于 2024-06-26 19:42:33 发布

阅读量3.5k

点赞数 1

文章标签：深度学习

1.RNN

https://zhuanlan.zhihu.com/p/36101196?utm_source=qq&utm_medium=social&utm_oi=761548970097917952

（1）我们从基础的神经网络中知道，神经网络包含输入层、隐层、输出层，通过激活函数控制输出，层与层之间通过权值连接。激活函数是事先确定好的，那么神经网络模型通过训练“学“到的东西就蕴含在“权值“中。
（2）基础的神经网络只在层与层之间建立了权连接，RNN最大的不同之处就是在层之间的神经元之间也建立的权连接。
（3）RNN是最简单的循环神经网络，其实就是对神经网络展开k个step，所有step共享同一个神经网络模块S。

这是一个序列预测任务，可以看到在RNN中 W_s 和 W_x这两个参数是共享的，注意噢：这里也有个共享的W_o ，但不是包含在RNN中的，只是用于序列预测而已。

咦！没错，在step t下， o_t只和这个step的 W_o有关，和前面step的 W_o都没关系，所以 W_o的梯度对我们并没有什么威胁。
RRN还有这两个特点:
1.权值共享，图中的W全是相同的，U和V也一样。
2.每一个输入值都只与它本身的那条路线建立权连接，不会和别的神经元连接。
RNN有一个循环隐藏状态，这个状态每个时刻只依赖于前一时刻的激励。

RNN的变体

（1）双向RNN

双向RNN认为t层输出不仅依赖于序列之前的元素，也跟t之后的元素有关，这在序列挖掘中也是很常见的事实。

（2）深层双向RNN

在双向RNN的基础上，每一步由原来的一个隐藏层变成了多个隐藏层。

2.LSTM

这里写图片描述

上述图片参考https://blog.csdn.net/Jason160918/article/details/78295423

（1）原理

解决神经网络中的长期依赖问题，让记住长期信息成为神经网络的默认行为，而不是需要很大力气才能学会。

（2）过程

https://blog.csdn.net/menc15/article/details/71271566
这里写图片描述
在上面的图例中，每一条黑线传输着一整个向量，从一个节点的输出到其他节点的输入。粉色的圈代表按位 pointwise 的操作，诸如向量的和，而黄色的矩阵就是学习到的神经网络层。合在一起的线表示向量的连接，分开的线表示内容被复制，然后分发到不同的位置。

LSTM的关键是单元状态（cell state），即图中LSTM单元上方从左贯穿到右的水平线，它像是传送带一样，将信息从上一个单元传递到下一个单元，和其他部分只有很少的线性的相互作用。

LSTM 有通过精心设计的称作为“门”的结构来去除或者增加信息到细胞状态的能力。门是一种让信息选择式通过的方法。他们包含一个 sigmoid 神经网络层和一个按位的乘法操作。

LSTM通过“门”（gate）来控制丢弃或者增加信息，从而实现遗忘或记忆的功能。“门”是一种使信息选择性通过的结构，由一个sigmoid函数和一个点乘操作组成。sigmoid函数的输出值在[0,1]区间，0代表完全丢弃，1代表完全通过。一个LSTM单元有三个这样的门，分别是遗忘门（forget gate）、输入门（input gate）、输出门（output gate）。
…
遗忘门（forget gate）：遗忘门是以上一单元的输出ht−1和本单元的输入xt为输入的sigmoid函数，为Ct−1中的每一项产生一个在[0,1]内的值，来控制上一单元状态被遗忘的程度。

输入门（input gate）：输入门和一个tanh函数配合控制有哪些新信息被加入。tanh函数产生一个新的候选向量Ct~，输入门为Ct~中的每一项产生一个在[0,1]内的值，控制新信息被加入的多少。至此，我们已经有了遗忘门的输出ft，用来控制上一单元被遗忘的程度，也有了输入门的输出it，用来控制新信息被加入的多少，我们就可以更新本记忆单元的单元状态了，

输出门（output gate）：输出门用来控制当前的单元状态有多少被过滤掉。先将单元状态激活，输出门为其中每一项产生一个在[0,1]内的值，控制单元状态被过滤的程度。

（3）LSTM解决梯度问题

详细过程参考https://blog.csdn.net/Jason160918/article/details/78295423

RNN问题就出在W不断连乘积的问题上，所以我们要避免W不断相乘，所以我们把memory复制到下一阶段的方式改成不断相加的方式，同时forget gate大多数情况下是接近1的（偏置设大些），允许add来避免y过小。来解决这一个问题。而梯度爆炸不是个严重的问题，我们可以通过clip（梯度）来限制梯度过大。
加强学习请看http://www.cnblogs.com/pinard/p/6519110.html

3.RRN两个问题

RNN很难进行训练并捕捉到长短时依赖（long-term dependencies），因为梯度要么消失（到多数情况）了要么就爆炸（很少）了，这使得基于梯度的优化方法很难优化模型。不是因为在梯度刻度方面的变化，而是由于长时的依赖（long-term dependencies）效果被短时的依赖（short-termdependencies）隐藏了。
梯度消失原因：如果上一层的梯度本来已经很小，那么在这一层进行相乘，会导致这一层的梯度也很小。所以如果网络层比较深，那么在链式求导的过程中，越是低层的网络层梯度在连乘过程中可能会变得越来越小，导致梯度消失。
…
sigmoid函数激活值本身已经是一个比较小的数了，其倒数对于两个小于1的数相乘会变得更小，就可能会造成梯度消失。
梯度爆炸原因：如果权重很大，也可能会导致相乘后的梯度也比较大。（梯度爆炸不是问题，做个梯度裁剪就行了，对梯度乘以一个缩放因子，我们主要考虑的是梯度消失问题）
两种解决方法:
1. 设计一个比简单的随机梯度下降（SGD）更好的学习算法，例如使用一个简单的裁剪的梯度（simple clipped gradient），裁剪的梯度中梯度向量的范数被裁剪；或者使用二阶方法，但如果二次导数的增长形式跟一阶导数一样，这种方法可能对这个问题不怎么敏感。
2. 这种方法是这篇文章特别关注的，即设计比通常激励函数更复杂的激励函数（activation function），包括一个简单非线性元素级别的仿射变换，这通过使用门单元（gating units）实现的。最初在激励函数或者一个循环单元的尝试提出了LSTM单元（long short-term memory），最近，研究者提出了另一种类型的循环单元，GRU单元。RNN在需要捕获长短时依赖的任务上表现出色，当然，这些任务不限于语音识别，机器翻译，还有很多其他序列任务。

4.GRU

https://blog.csdn.net/w5688414/article/details/78079335
GRU（Gated Recurrent Unit）是LSTM最流行的一个变体，比LSTM模型要简单。
这里写图片描述

GRU是2014年提出来使的每个循环单元可以自适应的捕捉不同时间刻度下的依赖（adaptively capture dependencies of different time scales.）。与LSTM单元相似，GRU具有调节信息流动的门单元，但是，没有一个单独的记忆单元（memory cells）。

LSTM和GRU对比

(a) i, f and o are the input, forget and output gates, respectively. c and ˜ c denote the memory cell and the new memory cell content.
LSTM单元，首先输入是IN,输入包括input x和这层t-1时刻的值h，我们就经过双曲正切函数tanh，得到c~,紧接着我们就可以计算c,c是c~和c在t-1时刻的加权和，得到c以后，我们就可以计算单元的输出OUT,c经过双曲正切函数tanh，然后和o相乘就得到OUT,o的计算是输入x，这个单元t-1时刻的输出值，以及c的值的加权和。
(b) r and z are the reset and update gates, and h and ˜ h are the activation and the candidate activation.
GRU单元，首先是IN,首先计算t时刻的候选激励h~,它是由t时刻的输入x，该层t-1时刻的值和重置门rt相乘的权重和；紧接着我们计算更新门z,z是由t时刻的输入x,t-1时刻的h值的权重和的激励，然后我们就可以计算h了，h是t时刻t时刻的1-z和t-1时刻的h值相乘，然后更新门z和候选激励h~相乘，两者相加即得到t时刻的h了，最后通过out输出。
区别:
LSTM有三扇门，输入，输出，遗忘门，而GRU有两扇门:重置门和更新门。
与LSTM相比，GRU将输入门和遗忘门融合成单一的更新门，并且融合了记忆单元和隐层单元，所以结构上比LSTM更简单一些。

（1）相同点

1.它们共有的最主要的特征是从t时刻到t+1时刻的更新，这是传统的循环单元所没有的，传统的循环单元一直用一个新的值来替换激励或者一个单元的内容。这个值是由输入和先前的隐藏状态计算得来的。
2.LSTM和GRU都会保存现有的内容（existing content）并且会增加新的内容（new content）。这样做有两个优点：
a) 在一个很长序列步（a long series of steps）的输入流中，每个单元很容易记得现有的一些特定的特征。任何重要的特征，要么由LSTM的遗忘门决定要么由GRU的更新门更新，它不会被重写，只是去维护更新。
b) 可能更重要的是，这个额外的单元有效的创造了跨越多个时间步的快捷路径，这些路径很容易使错误反向传播，不至于迅速消失（门单元将近饱和为1），这是因为我们穿过了多个，有界非线性单元。结果减少了由于梯度消失带了的困难。

（2）不同点

1.LSTM单元的一个特征控制记忆内容的暴露（exposure of the memory content），这个GRU没有。在LSTM单元中，记忆内容的数量是由输出门控制的，但GRU是把所有的内容都暴露出来，没有进行控制。
2.另一个区别是输入门（input gate）的位置，或者与之对应的重置门（reset gate）的位置。LSTM单元计算新的记忆内容的时候，它没有控制从上一时间步传来的信息的数量，而是控制有多少新的内容被添加到记忆单元（memory cell），记忆单元和遗忘门是分开的。另一方面，当计算新的，候选的激励的时候，GRU控制着从前一个激励的信息流动，它不是控制着有多少的候选激励被添加。

从这些区别和相似点，很难得出哪个门单元更好，有研究者报告说，根据他们先前的实验，这两个单元在机器翻译上的性能不相上下。

5.IndRNN

传统 RNN 因为在时间上参数共享，所以会出现梯度消失/爆炸问题。传统 RNN 由于层内神经元相互联系，难以对神经元的行为进行合理的解释。
LSTM/GRU 在解决层内梯度消失/爆炸问题时，梯度仍然会在层间衰减，所以 LSTM/GRU 难以做成多层网络。并且，LSTM/GRU 也存在着无法捕捉更长的时序信息的问题。

（1）IndRNN亮点

将 RNN 层内神经元解耦，使它们相互独立，提高神经元的可解释性。
有序列表能够使用 Relu 等非饱和激活函数，解决层内和层间梯度消失/爆炸问题，同时模型也具有鲁棒性。
有序列表比 LSTM 能处理更长的序列信息。

（2）IndRNN优点

•可以调节随时间的梯度反向传播，以有效地解决梯度消失和爆炸问题。
•IndRNN可以保留长期记忆以处理长序列。实验证明，IndRNN可以很好地处理超过5000步的序列，而LSTM只能处理少于1000步。
•IndRNN可以很好地处理非饱和功能，例如relu作为激活功能，并且可以进行稳健的训练。
•可以有效地堆叠多层IndRNN，尤其是层上的残差连接，以增加网络的深度。在用于语言建模的实验中证明了21层-IndRNN的示例。
•由于每层神经元的独立性，每层中IndRNN神经元的行为易于解释。

（3）初始化（IRNN）

Hinton 于 2015 年提出在 RNN 中用 Relu 作为激活函数。Relu 作为激活函数用在 RNN 中的弊端在前面已经说明了。为了解决这个问题，IRNN 将权重矩阵初始化为单位矩阵并将偏置置 0（IRNN的 I 因此得名——Identity Matrix）。
此后，基于 IRNN，有人提出了改进，比如将权重矩阵初始化为正定矩阵，或者增加正则项。但 IRNN 对学习率很敏感，在学习率大时容易梯度爆炸。

（4）梯度截断

在反向传播中，梯度消失/爆炸前会有一个渐变的过程。梯度截断的意思就是，在渐变过程中，人为设定只传递几步，即人为设定对角矩阵连乘几次，然后强行拉回正常值水平，再进行梯度下降。该方法对解决梯度问题比较有效，但总有人为的因素，且强行拉回的值不一定准确。

（5）隐状态计算

IndRNN隐状态
权重系数从矩阵 U 变成了向量 u 。⊙ 表示矩阵元素积。也即在 t 时刻，每个神经元只接受此刻的输入以及 t-1 时刻自身的状态作为输入。

（6）梯度分析

而传统 RNN 在 t 时刻每一个神经元都接受 t-1 时刻所有神经元的状态作为输入。
在 t 时刻，IndRNN每个神经元只接受此刻的输入以及 t-1 时刻自身的状态作为输入，所以 IndRNN中的每个神经元可以独立地处理一份空间 pattern，可视化也就变得可行了。与传统 RNN的梯度作对比，可以发现此时的连积操作不再是矩阵操作，而是将激活函数的导数与循环权重系数独立起来，使用 Relu作为激活函数也就顺理成章了。至此，梯度问题完美解决（作者在论文里有详细的推导过程）。
神经元之间的相互连接依赖层间交互来完成。也就是说，下一层的神将元会接受上一层所有神经元的输出作为输入（相当于全连接层）。

http://www.elecfans.com/d/648575.html可以看看

messi_james

关注

1
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
多种类型RNN

1.RNNhttps://zhuanlan.zhihu.com/p/36101196?utm_source=qq&amp;amp;amp;amp;amp;amp;amp;amp;utm_medium=social&amp;amp;amp;amp;amp;amp;amp;amp;utm_oi=761548970097917952 （1）我们从基础的神经网络中知道，神经网络包含输入层、隐层、输出层，通过激活函数控制输出，层与层之间通过权值连接。激活函数是事先确定好的，那么神经网络模型
复制链接

扫一扫