一、《TransS-Driven Joint Learning Architecture for Implicit Discourse Relation Recognition》
【内隐话语关系识别的跨驱动联合学习架构】
1、用到了多层encoder
(1)把Discourse关系转化为低维向量表示,这样可以挖掘关系参数实例的潜在的几何结构信息
(2)探索参数的语义特征以帮助理解Discourse
(3)把(1)和(2)同时学习,相互提升
2、模型包括四部分:embedding层、多层encoder(BI-Lstm+attention)、潜在几何结构学习、语义特征学习。通过优化discourse argument表示以提高性能
总结:使用潜在结构信息和语义特征优化discourse argument的表示,以增强隐含关系的语义理解。
二、《Two are Better than One: Joint Entity and Relation Extraction with Table-Sequence Encoders》
1、设计两个不同的encoder进行联合学习,提出了新的table-sequence encoders(table encoder和sequence encoder),sequence representations 和 table representations分别用于实体识别和关系抽取,在模型中使用BERT的attention权重去学习table表示
2、NER为序列标注问题(BIO),RE作为一个表格填充问题, table encoder和sequence encoder相互利用各自的输出当做自己输入的一部分,这样相互改进
3、用LSTM得到word embeddings和character embeddings,使用BERT得到contextualized word embeddings,拼接经过一个线性映射,得到最终的输入embedding,连接序列中的任意两个向量进入一个全连接层,然后进入GRU,最终使用两层GRU
总结: table-sequence encoders使用table encoder和sequence encoder分别学习sequence representations 和 table representations用于实体识别和关系抽取,这两个encoder都会将另外一个的输出当做自己输入的一部分,以增强两者之间的交互性。
三、《ZeroShotCeres: Zero-Shot Relation Extraction from Semi-Structured Webpages》
1、半结构化网页数据,以前都是通过手动标记或从该模板进行远程监督的数据来学习特定于给定模板的提取模型。本文提出了一种“zero-shot” 开放领域关系抽取,从以前未见过的网页,其中包括与远程监管的现有知识资源很少重叠的网站以及全新主题领域的网站。使用了图神经网络GAT实现
2、学习一个新的模型可以应用到新的网页中,然后提出图神经网络模型ZeroShotCeres,其可以编码训练集网页上语义文本和可视化的模式,并可以泛化到其他新的主题网页上
2、图中的节点是文本区域,边是他们在网页上的布局关系,这样抽象了细节,但保持了网页中的可视化结构,图神经网络用于产生每个节点的新的表示,这些表示用于提取文档中的实体和关系,subject是网页的主题,object是包含subject的文本区域,假设subject已经知道,要推测object和relation,zero-shot有两种训练方法:训练的时候不使用当前的网页,而是使用其垂直领域的网页;两种网页都不使用。
总结:结合GAT实现了可以泛化到其他网页中的半结构化网页关系抽取方法
四、《Geom-gcn: Geometric Graph Convolutional Networks》
1、原来的Message-passing neural networks(MPNN)有两个缺点:不能捕获节点间的结构信息、不能捕获长距离的依赖信息。为了克服这两个缺点,提出一个在图神经网络上的几何聚集方案,背后的基本思想是,图上的聚合可以受益于图下方的连续空间。聚集方案包括三个模块:node embedding, structural neighborhood, and bi-level aggregation。把这个策略应用到GCN,得到了Geom-GCN。
2、网络几何旨在通过揭示网络下面的潜在连续空间来理解网络,该网络假定节点是从潜在连续空间中离散采样的,并且根据它们的距离来建立边。 在潜在空间中,可以保留图形中复杂的拓扑模式并以直观的几何图形形式显示,例如子图、community 、hierarchy。
3、几何聚集策略:通过节点向量把一个图映射到连续的潜在空间,用在潜在空间中的几何关系构建用于聚集的结构邻居。然后在结构邻居上定义了一个两级的聚集运算去更新图神经网络中的节点表示。设计特定的几何关系,分别在欧几里得和双曲嵌入空间中建立结构邻域。 选择不同的嵌入方法,以将图形映射到适合不同应用的合适的潜在空间。
五、《Improving Cross-Domain Performance for Relation Extraction via Dependency Prediction and Information Flow Control 》
1、目前的深度学习模型都是按照依赖树的结构引导模型的计算过程,这样可能会阻止模型捕获句法信息之外的文本信息,不利于交叉领域的泛化。原先的模型的数据流动被控制在树结构中,除了树结构之间的信息,其他的文本信息捕获不到。此篇论文使用依赖树进行关系抽取,同时预测依赖关系和实体之间的关系。提出了新的机制控制模型中信息的流动。不是直接的使用依赖树,而是间接的使用依赖树得到针对依赖和语义关系更一般化的表示。
2、首先使用self-attention学习句子的表示,然后同时预测句子中每对词之间的依赖关系,这样句子表示就可以吸收句子的语义和句法特征。Self-attention产生一个语义邻接矩阵,依赖关系预测的时候会调节这个矩阵,使其和依赖树产生的句法邻接矩阵相似。因为self-attention可以捕获文本信息,那么这样就解决了依赖树不能捕获文本信息的缺点。把依赖树变为依赖关系预测,这样就可以扩展到其他领域。新的机制为:移除和关系预测不相关的信息,具体过程为用两个实体的向量表示计算一个语义控制向量,将其作为和关系抽取最相关的信息。
3、具体实现:
(1)句子进入双向LSTM,得到隐层表示(h1…hn),再进入self-attention(LSTM不能捕获长距离信息)(h1’…..hn’)
(2)用self-attention的输出计算两个词之间是否在依赖树上有依赖边
(3)经过LSTM输出的两个实体的向量表示,经过一个非线性变换得到控制向量p,p与上面的(h1…hn)计算内积,得到hi横,由公式计算出c(相当于p),同理得到hi’横,
(4)得到最终的表示o,进入两层全连接层做预测。
总结:间接的使用依赖树预测词之间的依赖关系和实体之间的关系,从而利于捕获句法信息之外的文本信息和交叉领域的泛化。【ACE05】【SemEval 2010 Task 8】