详细讲解RNN+LSTM+Tree_LSTM（Tree-Long Short Term Memory）基于树状长短期记忆网络

最新推荐文章于 2024-05-20 09:42:42 发布

敷衍zgf

最新推荐文章于 2024-05-20 09:42:42 发布

阅读量4.7k

点赞数 18

分类专栏：文本挖掘自然语言处理NLP

本文链接：https://blog.csdn.net/qq_45556665/article/details/127339533

版权

自然语言处理NLP 同时被 2 个专栏收录

45 篇文章 9 订阅

订阅专栏

文本挖掘

26 篇文章 3 订阅

订阅专栏

14天阅读挑战赛

详细讲解RNN+LSTM+Tree_LSTM（Tree-Long Short Term Memory）基于树状长短期记忆网络

一、RNN

要讲解Tree_LSTM，这必须得从RNN开始说起，那要讲解循环神经网络RNN，我们得先看看简单神经网络长个什么样子，如下图所示
在这里插入图片描述
简单神经网络是这样的，输入层x进入隐藏层s，在经过输出产生最后的结果y。通过调整权重W_in和W_out就可以达到学习的效果。
通常情况下，深度神经网络都是水平方向延申的，例如卷积神经网络CNN，隐层数量很多，但是由于没有考虑到单个隐层在时间上、时序上的变化，这在识别不同图片的应用中可能对结果没有影响，但要将其放在识别文字的应用中，没有办法结合上下文语义，就不太适用了。
RNN的定义是：一种以序列数据做为输入来进行建模的深度学习模型。
RNN关注隐层的每个神经元在时间维度上的不断成长和变化，如下图，网络结构没有发生变化，没有添加新的神经元，但是沿着时间轴的重复，建立了时序上的关联，这里的层级拓展并非神经元数量的增加，而是标识隐层在不同时刻的状态，并在隐层之间建立关联。
在这里插入图片描述

如果用W_s表示层级间的权重矩阵，那么RNN通常会假定不同的层级(时刻)共享一个W_s，从而达到减少训练参数的效果。

在神经元模型中，隐藏层输出公式的矩阵表达 : S = f ( UX + b )
对于RNN : S_t = f (UX_t + WS_t-1 + b ) b是偏置项，多了一项WS_t-1，这样建立起隐层在不同时刻的迭代关系。
最终的 O_t = g(VS_t) 这里的g()【sigmoid】和f()【tanh】都是激活函数
换而言之，就是让神经网络具有了某种记忆的能力。

当然，你也可能会看到以下这样的RNN图，其实意思都一样，只不过表示方式不同。在这里插入图片描述

那么通过以上描述，应该对RNN稍微有一些了解了，接下来说说RNN的缺陷。
虽然RNN在时序上建立起了联系，有一定的记忆性，当根据研究表明，当词项长度超过500时，RNN的识别效果就会变得很差。
同时，由于RNN在所有隐层共享同一组W权值矩阵，梯度在反向传播过程中，数值不是越来越小(若干零点几的小数相乘最终趋于0)，就是越来越大(若干大于1的数相乘最终趋于很大的数)，从而导致梯度消失或者梯度爆炸，这是RNN的缺点。

二、LSTM 长短期记忆网络

和RNN相比，LSTM在RNN的基础上添加了一条新的时间链，记录long-term memory，用c表示，同时增加了两条链之间的关联关系。
在这里插入图片描述
将原本的平面图形旋转成3D图形，再次观察其特点。
以计算t时刻为例，计算隐层状态S_t时，除了输入和前一时刻，还要包含当前时刻的C_t。

我们将LSTM模型关联结构放大，将S_t和C_t的一条线拆分成三条，其中包含了两条更加细致的操作f₁和f₂。
f₁相当于一块橡皮，根据上一时刻的记忆S_t-1和当前输入X_t，决定要删除和修改哪些记录（公式中，矩阵元素相乘时会抹掉0元素，也就相当于选择性遗忘了部分记忆）被称之为遗忘门。
f₂相当于一支铅笔，根据上一时刻的记忆S_t-1和当前输入X_t，决定添加哪些记录，将上一时刻和此刻发生的进行梳理和归纳被称之为输入门。

那么最终的C_t = f₁ * C_t-1 + f₂
计算得到的C_t除了会继续向下传递，还会被用来更新当前短期记忆S_t，最后计算输出y_t，输出门，同时保持短期记忆链S_t和长期记忆链C_t，并且相互更新。
这就是LSTM的本质原理啦！！！
在这里插入图片描述
我们在资料中看到的这样的图，其实和上面的描述一样，只不过表示方式不同。

遗忘门

σ其实就是sigmoid函数，将整体映射到0~1之间，这样我们可以规定一个值（例如0.5）大于0.5可以通过，小于不能通过。
输入门
在这里插入图片描述

输出门

那么，掌握了遗忘门、输入门和输出门之后，我们对LSTM就基本了解了。
接下来我们聊聊LSTM的缺点
上面说到，RNN在词项超过500时，识别效果会较差，而在RNN基础上改进的LSTM，经过实践证明，当词项长度超过700时，效果也并不理想。
同时无法学习到树状结构层次上的特征。

那么针对LSTM，后来有很多学者提出了改进版本，例如Bi-LSTM（双向长短期记忆网络），那么在一定程序上降低了梯度消失和梯度爆炸的程序，但还是无法解决长序列问题。
如何有效的学习语法语境是否和句子结构的关系？？

三、Tree-LSTM 基于树状长短期记忆网络

有学者提出通过构建短语结构语法树来描述如何自顶向下的生成一个句子，反过来，句子也可以用短语结构语法来递归分解。如下图
在这里插入图片描述
那么如果我们通过原本的RNN或者LSTM模型仅仅从顺序上去学习信息就无法学习到这种树状结构层次上的特征；另外，对于句子间不仅仅存在层级关系，还存在依存关系。
依存语法理论认为：词与词之间存在主从关系，这是一种二元不等价关系，在句子中，若一个词修饰另外一个词，则称修饰词为从属词（dependent），被修饰词为支配词(head)，两者之间的语法关系称为依存关系(dependency relation)。
在这里插入图片描述

在这里插入图片描述
参考这篇文献 《Improved Semantic Representations From Tree-Structured Long Short-Term Memory》

链式LSTM网络

具有任意分支结点的树形LSTM网络
空白框表示LSTM的一个单元，文本序列为{x₁，x₂，x₃，x₄，x₅，x₆}
x做为输入序列，y是每个x输入后经过LSTM的一个时间片段的预测输出（y₄的产生依赖于x₄的输入；y₅的产生依赖于x₅的输入；y₆的产生依赖于x₆的输入；y₂的产生依赖于x₂的输入；y₃的产生依赖于y₄y₅y₆的输入；y₁的产生依赖于y₂x₁y₃的输入；）
那么如何计算呢？
我们先找到y₂y₄y₅y₆的产生依赖于x₂，x₄，x₅，x₆都已经存在，那么就可以通过x₂，x₄，x₅，x₆分别通过自己的隐层，得到对应的y₂y₄y₅y₆；类似的y₃也能够产生；最终计算出y₁。

作者针对上述句子间关系对应的两种类型：层级关系和依存关系，提出了Tree-LSTM对应的两种类型
在这里插入图片描述
图中为作者提出的树状长短期记忆网络结构，与标准LSTM单元一样，每个Tree-LSTM单元包含输入和输出门i_j和o_j，一个记忆单元c_j和隐藏状态h_j。标准LSTM单元和Tree-LSTM单元之间的区别在于门控向量和记忆单元更新依赖于所有与之相关子单元状态。此外，TreeLSTM单元不是单一的遗忘门，而是为每个子结点k包含一个遗忘门fjk。这允许Tree-LSTM单元有选择地从子结点中获取信息。

（一）Child-Sum Tree-LSTMs (Dependency Tree-LSTMs)

顾名思义，适用于子节点个数不定或者子节点乱序的树结构。该模型是将子节点的隐藏层都求和然后再去更新父节点的隐藏层
在这里插入图片描述
对于Child-Sum Tree-LSTMs结构，由于它的单元更新依赖于之前与之相关的所有子单元，所以我们要对子单元隐藏层的输出进行求和，做为当前输入的一部分。同样对于遗忘门的输出值，由于每一个子单元都有一个遗忘门，所以要对子单元的遗忘门输出值进行求和。