RNN改进模型

最新推荐文章于 2024-03-12 21:03:03 发布

weixin_40200315

最新推荐文章于 2024-03-12 21:03:03 发布

阅读量1.3k

点赞数

分类专栏：深度学习理论文章标签： RNN 神经网络模型

深度学习理论专栏收录该内容

7 篇文章 0 订阅

订阅专栏

https://blog.csdn.net/heyongluoyao8/article/details/48636251

Simple RNNs(SRNs)[2]
SRNs是RNNs的一种特例，它是一个三层网络，并且在隐藏层增加了上下文单元，下图中的yy便是隐藏层，uu便是上下文单元。上下文单元节点与隐藏层中的节点的连接是固定(谁与谁连接)的，并且权值也是固定的(值是多少)，其实是一个上下文节点与隐藏层节点一一对应，并且值是确定的。在每一步中，使用标准的前向反馈进行传播，然后使用学习算法进行学习。上下文每一个节点保存其连接的隐藏层节点的上一步的输出，即保存上文，并作用于当前步对应的隐藏层节点的状态，即隐藏层的输入由输入层的输出与上一步的自己的状态所决定的。因此SRNs能够解决标准的多层感知机(MLP)无法解决的对序列数据进行预测的任务。
SRNs网络结构如下图所示：
在这里插入图片描述

Bidirectional RNNs[3]
Bidirectional RNNs(双向网络)的改进之处便是，假设当前的输出(第tt步的输出)不仅仅与前面的序列有关，并且还与后面的序列有关。例如：预测一个语句中缺失的词语那么就需要根据上下文来进行预测。Bidirectional RNNs是一个相对较简单的RNNs，是由两个RNNs上下叠加在一起组成的。输出由这两个RNNs的隐藏层的状态决定的。如下图所示：
在这里插入图片描述

Deep(Bidirectional)RNNs[4]
Deep(Bidirectional)RNNs与Bidirectional RNNs相似，只是对于每一步的输入有多层网络。这样，该网络便有更强大的表达与学习能力，但是复杂性也提高了，同时需要更多的训练数据。Deep(Bidirectional)RNNs的结构如下图所示：
在这里插入图片描述

Echo State Networks[5]
ESNs(回声状态网络)虽然也是一种RNNs，但是它与传统的RNNs相差很大。ESNs具有三个特点：

它的核心结构时一个随机生成、且保持不变的储备池(Reservoir)，储备池是大规模的、随机生成的、稀疏连接(SD通常保持1%～5%，SD表示储备池中互相连接的神经元占总的神经元个数N的比例)的循环结构；
其储备池到输出层的权值矩阵是唯一需要调整的部分；
简单的线性回归就可完成网络的训练。
从结构上讲，ESNs是一种特殊类型的循环神经网络，其基本思想是：使用大规模随机连接的循环网络取代经典神经网络中的中间层，从而简化网络的训练过程。因此ESNs的关键是中间的储备池。网络中的参数包括：WW为储备池中节点的连接权值矩阵，WinWin为输入层到储备池之间的连接权值矩阵，表明储备池中的神经元之间是连接的，WbackWback为输出层到储备池之间的反馈连接权值矩阵，表明储备池会有输出层来的反馈，WoutWout为输入层、储备池、输出层到输出层的连接权值矩阵，表明输出层不仅与储备池连接，还与输入层和自己连接。WoutbiasWbiasout表示输出层的偏置项。
对于ESNs，关键是储备池的四个参数，如储备池内部连接权谱半径SR(SR=λmax=max{|W的特征指|}SR=λmax=max{|W的特征指|}，只有SR <1时，ESNs才能具有回声状态属性)、储备池规模N(即储备池中神经元的个数)、储备池输入单元尺度IS(IS为储备池的输入信号连接到储备池内部神经元之前需要相乘的一个尺度因子)、储备池稀疏程度SD(即为储备池中互相连接的神经元个数占储备池神经元总个数的比例)。对于IS，如果需要处理的任务的非线性越强，那么输入单元尺度越大。该原则的本质就是通过输入单元尺度IS，将输入变换到神经元激活函数相应的范围(神经元激活函数的不同输入范围，其非线性程度不同)。
ESNs的结构如下图所示：

在这里插入图片描述

Gated Recurrent Unit Recurrent Neural Networks[6]
GRUs也是一般的RNNs的改良版本，主要是从以下两个方面进行改进。一是，序列中不同的位置处的单词(已单词举例)对当前的隐藏层的状态的影响不同，越前面的影响越小，即每个前面状态对当前的影响进行了距离加权，距离越远，权值越小。二是，在产生误差error时，误差可能是由某一个或者几个单词而引发的，所以应当仅仅对对应的单词weight进行更新。GRUs的结构如下图所示。GRUs首先根据当前输入单词向量word vector已经前一个隐藏层的状态hidden state计算出update gate和reset gate。再根据reset gate、当前word vector以及前一个hidden state计算新的记忆单元内容(new memory content)。当reset gate为1的时候，new memory content忽略之前的所有memory content，最终的memory是之前的hidden state与new memory content的结合。
在这里插入图片描述

LSTM Netwoorks[7]
LSTMs与GRUs类似，目前非常流行。它与一般的RNNs结构本质上并没有什么不同，只是使用了不同的函数去去计算隐藏层的状态。在LSTMs中，i结构被称为cells，可以把cells看作是黑盒用以保存当前输入xtxt之前的保存的状态ht−1ht−1，这些cells更加一定的条件决定哪些cell抑制哪些cell兴奋。它们结合前面的状态、当前的记忆与当前的输入。已经证明，该网络结构在对长序列依赖问题中非常有效。LSTMs的网络结构如下图所示。对于LSTMs的学习，参见 this post has an excellent explanation

在这里插入图片描述

LSTMs解决的问题也是GRU中所提到的问题，如下图所示：

LSTMs与GRUs的区别如图所示[8]：

从上图可以看出，它们之间非常相像，不同在于：

new memory的计算方法都是根据之前的state及input进行计算，但是GRUs中有一个reset gate控制之前state的进入量，而在LSTMs里没有这个gate；
产生新的state的方式不同，LSTMs有两个不同的gate，分别是forget gate (f gate)和input gate(i gate)，而GRUs只有一个update gate(z gate)；
LSTMs对新产生的state又一个output gate(o gate)可以调节大小，而GRUs直接输出无任何调节。
Clockwork RNNs(CW-RNNs)[9]
CW-RNNs是较新的一种RNNs模型，其论文发表于2014年Beijing ICML。在原文[8]中作者表示其效果较SRN与LSTMs都好。
CW-RNNs也是一个RNNs的改良版本，是一种使用时钟频率来驱动的RNNs。它将隐藏层分为几个块(组，Group/Module)，每一组按照自己规定的时钟频率对输入进行处理。并且为了降低标准的RNNs的复杂性，CW-RNNs减少了参数的数目，提高了网络性能，加速了网络的训练。CW-RNNs通过不同的隐藏层模块工作在不同的时钟频率下来解决长时间依赖问题。将时钟时间进行离散化，然后在不同的时间点，不同的隐藏层组在工作。因此，所有的隐藏层组在每一步不会都同时工作，这样便会加快网络的训练。并且，时钟周期小的组的神经元的不会连接到时钟周期大的组的神经元，只会周期大的连接到周期小的(认为组与组之间的连接是有向的就好了，代表信息的传递是有向的)，周期大的速度慢，周期小的速度快，那么便是速度慢的连速度快的，反之则不成立。现在还不明白不要紧，下面会进行讲解。
CW-RNNs与SRNs网络结构类似，也包括输入层(Input)、隐藏层(Hidden)、输出层(Output)，它们之间也有向前连接，输入层到隐藏层的连接，隐藏层到输出层的连接。但是与SRN不同的是，隐藏层中的神经元会被划分为若干个组，设为gg，每一组中的神经元个数相同，设为kk，并为每一个组分配一个时钟周期Ti∈{T1,T2,…,Tg}Ti∈{T1,T2,…,Tg}，每一个组中的所有神经元都是全连接，但是组jj到组ii的循环连接则需要满足TjTj大于TiTi。如下图所示，将这些组按照时钟周期递增从左到右进行排序，即T1<T2<…<TgT1<T2<…<Tg，那么连接便是从右到左。例如：隐藏层共有256个节点，分为四组，周期分别是[1,2,4,8]，那么每个隐藏层组256/4=64个节点，第一组隐藏层与隐藏层的连接矩阵为6464的矩阵，第二层的矩阵则为64128矩阵，第三组为64*(364)=64192矩阵，第四组为64*(464)=64256矩阵。这就解释了上一段的后面部分，速度慢的组连到速度快的组，反之则不成立。
CW-RNNs的网络结构如下图所示：
在这里插入图片描述
在传统的RNN中，按照下面的公式进行计算：

为了使表达不混淆，将WinWin写成WinWin。并且执行的组所对应的oo才会有输出。处于非执行状态下的隐藏层组仍保留着上一步的状态。下图是含五个隐藏层组在t=6t=6时的计算图：
在这里插入图片描述
在CW-RNNs中，慢速组(周期大的组)处理、保留、输出长依赖信息，而快速组则会进行更新。CW-RNNs的误差后向传播也和传统的RNNs类似，只是误差只在处于执行状态的隐藏层组进行传播，而非执行状态的隐藏层组也复制其连接的前面的隐藏层组的后向传播。即执行态的隐藏层组的误差后向传播的信息不仅来自与输出层，并且来自与其连接到的左边的隐藏层组的后向传播信息，而非执行态的后向传播信息只来自于其连接到的左边的隐藏层组的后向传播数据。
下图是原文对三个不同RNNs模型的实验结果图：
在这里插入图片描述
上图中，绿色实线是预测结果，蓝色散点是真实结果。每个模型都是对前半部分进行学习，然后预测后半部分。LSTMs模型类似滑动平均，但是CW-RNNs效果更好。其中三个模型的输入层、隐藏层、输出层的节点数都相同，并且只有一个隐藏层，权值都使用均值为0，标准差为0.1的高斯分布进行初始化，隐藏层的初始状态都为0，每一个模型都使用Nesterov-style
momentum SGD(Stochastic Gradient Descent，随机梯度下降算法)[10]进行学习与优化。

weixin_40200315

关注

0
点赞
踩
5

收藏

觉得还不错? 一键收藏
0
评论
RNN改进模型

https://blog.csdn.net/heyongluoyao8/article/details/48636251Simple RNNs(SRNs)[2] SRNs是RNNs的一种特例，它是一个三层网络，并且在隐藏层增加了上下文单元，下图中的yy便是隐藏层，uu便是上下文单元。上下文单元节点与隐藏层中的节点的连接是固定(谁与谁连接)的，并且权值也是固定的(值是多少)，其实是一个上下文节...
复制链接

扫一扫

专栏目录