Improved Semanic Representations From Tree-Structured Long Short-Term Memory Networks

在这里插入图片描述

论文阅读前期

前期知识储备

在这里插入图片描述

学习目标

在这里插入图片描述

论文导读

论文研究背景、成果及意义

监督学习模型
在这里插入图片描述
循环神经网络
解决任意长度句子i问题
在这里插入图片描述
真实情况下,循环神经网络对于长度太长(500-600词)的句子来讲,分类效果会大大降低。
长短期记忆网络
一定程度上降低梯度消失和爆炸的程度
在这里插入图片描述
Bi-Lstm用来提取序列上的特征。Bi-lstm并不能解决长序列的问题,输入一句话,前向的读一遍,反向的读一遍,最后将从前往后得到的特征与从后往前得到的特征进行汇总,汇总的方式有很多,比如相加或拼接。
【问题】根据以上的深度学习模型,可以很好的学习句子前后之间的关系,但如何有效的学习语法语境是否和句子结构的关系?

句法分析

语言 具备自定而下的层级关系,固定数量的语法结构能够生成无数句子。比如,仅仅利用 两个语法规律,我们就能生成所有名词短语。

  • 名词短语可以由名词和名词短语组成。
  • 名词短语还可以由名词和名词组成。

短语结构树

短语结构语法描述了如何自顶而下的生成一个句子,反过来,句子也可以用短语结构语法来递归的分解。层级结构其实是一种树形结构,例如这句话“上海 浦东 开发 与 法制 建设 同步”,分解成如下图的短语结构树:
在这里插入图片描述
IP-HLN : 单句-标题;NP-SBJ:名词短语-主语;NP-PN:名词短语-代词;NP:名词短语;VP:动词短语
通过RNN或LSTM这些模型,如何从句子里面学习到像这个树里面的结构层次上面的特征,只从顺序上面去学这种信息,很难学习到这种层级的关系,作者认为要通过一种树型结构来获取相关信息。从句子上面讲,除了层级的关系,还存在依存这种关系,即句子与句子之间是有一定的联系的,例如下图中的“大 梦想”之间的关系。
在这里插入图片描述

依存句法树

依存语法理论认为词与词之间存在主从关系,这是一种二元不等价的关系。在句子中,如果一个词修饰另一个词,则称修饰词为从属词(dependent),被修饰的词语称为支配词(head),两者之间的语法关系称为依存关系(dependency relation)。比如句子“大梦想”中形容词“大”与名词“梦想”之间的依存关系。
在这里插入图片描述
现代依存语法中,语言学家Robinson对依存句法树提了4个约束性的公理:

  • 有且只有一个词语(ROOT,虚拟根节点,简称虚根)不依存于其他词语。
  • 除此之外所有单词必须依存于其他单词。
  • 每个单词不能依存于多个单词。
  • 如果单词A依存于B,那么位置处于A和B之间的单词C只能依存于A、B或AB之间的单词。
    这4条公理分别约束了依存句法树(图的特例)的根节点唯一性、连通、无环和投射性。这些约束对语料库的标注以及依存句法分析器的设计奠定了基础。
    RNN对于学习语法表征还有一定的欠缺,无法学习层级关系,因此作者对结构进行一定的修改。
    在这里插入图片描述
    假设有6个词,构成的序列为x1,x2,x3,x4,x5,x6, 通过语法的分析,构建语法树,语法的分析可以借助一定的工具,例如斯坦福的corenlp包做层次结构的解析,然后再通过树状的LSTM来学习相关的特征。句子先被解析成树状结构,再利用树型lstm做进一步的处理。

论文泛读

论文结构

在这里插入图片描述

摘要

摘要核心

  • 论文的主要工作就是丰富了LSTM的拓扑结构,由我们所熟悉的线性LSTM结构衍生出了树型LSTM结构,从而更方便地结合依存关系、短语构成等语法特性,使得语义表达更加准确。论文在预测两个句子的语义相关性(SICK)和情感分类(Stanford Sentiment Treebank)两个任务上做了实验,验证了新LSTM模型的效果。

文本特征不仅仅是序列上的特征,还有层次结构上的特征。

论文精读

论文算法模型总览

在这里插入图片描述

RNN结构

在这里插入图片描述
RNN的优点是对于时间序列类别数据的强大信息提取能力,也被称为能力,常常被用于不同长度句子的特征提取,另外由于隐藏层实际上是时间维度上的展开,所以RNN在计算每个时间步的时候,需要先完成上一个时间步的计算,所以相比于其他模型,它的运行速度相对较慢,另外,由于这种循环的结构,所以每个时间步需要上一个时间步的输出作为本时间步的输入,这样很容易造成梯度消失和梯度爆炸(自己课后学习一下相关知识)。

LSTM结构

在这里插入图片描述
在这里插入图片描述

BI-LSTM结构

在这里插入图片描述

多层LSTM结构

在这里插入图片描述

论文算法模型细节

细节一

TreeLSTM结构
在这里插入图片描述
两种计算方式:①根据入度为0时触发节点lstm;②遍历计算,一层一层的计算
不同的计算方式,batch的组成有一定的区别。

Child-Sum Tree-LSTMs

在这里插入图片描述
在这里插入图片描述
Dependency Tree-LSTMs
在这里插入图片描述

细节二

N-ary Tree-LSTM

它的每一个单元的子单元个数最多是N个,这个N元的树状结构能够学习到更多子节点上面更细粒度的信息。
在这里插入图片描述
Forget gate parameterization
在这里插入图片描述
Constituency Tree-LSTMs(短语结构树)
在这里插入图片描述

实验设置及结果分析

在这里插入图片描述

情感分类

数据集:Stanford Sentiment Treebank(SST)
任务介绍:两个分类任务,一个是二分类的数据,另一个 更细粒度的五分类。
具体步骤:对于每一个节点 j 来说,用softmax分类器对给定输入x做label预测,最终会通过Tree LSTM的结构转化为标签。
在这里插入图片描述
在这里插入图片描述
损失
在这里插入图片描述
在这里插入图片描述

句子相似度计算

在这里插入图片描述
数据集:Sentences Involving Conpositional Knowledge(SICK) Y∈[1,5]
任务介绍:给定一个句子pair对,来预测他们的相似度得分。y表示相似程度,1表示相似程度很低,5表示相似程度很高。
评价指标:Pearson系数、Spearman相关系数、MSE
模型结构
在这里插入图片描述
在这里插入图片描述

超参与训练

在这里插入图片描述

实验结果

在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

可视化分析

在这里插入图片描述

论文总结

关键点:

  • 树长短期记忆网络-----TreeLSTM
  • 短语结构树-----Constituency tree N-ary Tree LSTM
  • 依存树-----Dependency tree Child-Sum Tree
    创新点:
  • 树结构LSTM
  • 门的改进
    启发点:
  • 语义结构编码

This suggests that unlike sequential LSTMs,Tree-LSTMs are able to encode semantically-useful structural information in the sentence representations that they compose.

词与词之间不仅有依赖关系,还有层次的变化关系

  • 缓解长序列问题

One hypothesis to explain the empirical strength of Tree-LSTMs is that tree structures help mitigate the problem of preserving state over long sequences of words.

  • TreeLSTM in this paper, we introduced a generalization of LSTMs to tree-structured network topologies. The Tree-LSTM architecture can be applied to trees with arbitrary branching factor.

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值