LSTM和GRU

最新推荐文章于 2024-06-11 00:45:26 发布

攀攀的跟屁虫

最新推荐文章于 2024-06-11 00:45:26 发布

阅读量524

点赞数

分类专栏：自然语言处理

自然语言处理专栏收录该内容

15 篇文章 0 订阅

订阅专栏

摘自

《基于递归神经网络的文本分类研究》

https://www.cnblogs.com/taojake-ML/p/6272605.html

http://www.sohu.com/a/197204613_115128

递归神经网络RNN。可以对序列数据进行很好的建模，能够充分地利用序列信息。由于RNN是依次对文本中的每个单词进行语义合成，因此它可以适应变长的句子，即不要求文本长度的统一，对长文本和短文本皆可以学习。图1给出了一个传统的递归神经网络结构。

图 1 中， xt 是第 t 步的输入单元，在文本中，它代表第 t 个单词的词向量; ht 是第 t 步的隐藏状态;ot 表示第 t 步的输出，通常这一步输出是一个 softmax 分类器，该输出是否选用可根据模型的需要确定; U，V 和 W 是网络的权重参数，需要在模型中学习得到。如图 1 所示，虚线方框内是第 t 个单元的计算过程，具体如下

这里变量 bh 和 bo 表示偏置项。由公式( 1) 可知，递归神经网络的每个隐藏状态由当前的输入词和前一步的隐藏状态决定。如果在特定的任务中，不需要对每个合成步骤都附加分类器，则 ot 可不输出。传统递归神经网络的缺点是随着文本长度的增加，网络的层数逐渐加深，网络在信息合成的过程中损失比较大，往往偏重于记忆最后阶段内容的学习，因此对长文本学习效果欠佳。

LSTM

LSTM 和 GRU 节点的优势是可以在合成的过程中设置一些门来控制当前合成步骤中应当对前面信息接收多少，遗忘多少，并且向后面传递多少信息。通过这些门域的控制，ＲNN 对长文本具有很好的学习能力。LSTM 与 GＲU 不同之处在于 LSTM 具有更多的参数， GＲU 参数较少，因而具有更快的计算速度。因此，对于大数据学习而言， LSTM 节点具有更强的学习能力。

在 LSTM 节点中， i， f， o 分别是输入门、忘记门和输出门，这些门控制着信息通过的比例。

g 是候选的隐藏状态，与传统ＲNN 中计算隐藏状态的方式类似;

ct 是内部记忆，由 t-1步的记忆ct-1和 g 通过记忆门和输入门加权构成;

ht 为真实的输出状态，是内部记忆 ct 在输出门输出的信息量。

GRU

z 是更新门，决定是否忽略当前词xt。类似于LSTM中的输入门it， zt可以判断当前词xt对整体意思的表达是否重要。当zt开关接通下面的支路时，我们将忽略当前词xt，同时构成了从ht-1到ht的”短路连接”，这梯度得已有效地反向传播。和LSTM相同，这种短路机制有效地缓解了梯度消失现象，这个机制于highwaynetworks十分相似。

r是重置门，用于控制前一时刻隐层单元ht-1对当前词xt的影响。如果ht-1对xt不重要，即从当前词xt开始表述了新的意思，与上文无关，那么rt开关可以打开，使得ht-1对xt不产生影响。