一、《Distilling Knowledge from Well-Informed Soft Labels for Neural Relation Extraction》
1、采用软标签的形式
2、(1)从整个语料库获得类型限制条件进而得到soft rules(2)teacher网络结合soft rules进而针对每个实例得到比较好的软标签
3、两个实体的类型组成一个pattern,首先计算patterns和关系的共现次数,并且归一化数据,每个pattern在所有关系上都会有一个分布,pattern和关系构建一个二部图,节点pattern与节点关系之间的边为pattern为这个关系的概率,一个pattern对所有关系的分布就可以当做把一个关系赋予实体的soft rule
4、总共包括三部分
(1)encoder:一个双向LSTM+GCN,先把句子输入双向LSTM,然后用依存树得到邻接矩阵(无向图),输入GCN,然后经过maxpool(f函数),得到最终的hsent,hs,ho,然后拼接,得到hbase。
(2)The Teacher Network:pattern表示为p,其对每个关系的概率分布为G(p)(可以看做global knowledge, encoder输出的hbase可以看做local knowledge ),综合两方面得到htea,其中F为线性映射函数,输出的维度为关系的种类数,r有三种不同的计算方式,分别表示为rs(固定的常数),rv(可训练的向量),rr(和正确的关系有关系的可训练向量)。(得到软标签)
(3)The Student Network:增加了multi-aspect attention (MAA),从不同的角度考虑每个词的贡献进而得到句子表示,这里定义了四个方面,分别为位置编码P、NER标签、q(上面的hbase)、上面的Hgcn,最后进入F(全连接层)
二、《Exploiting the Syntax-Model Consistency for Neural Relation Extraction》
1、输入的句子向量包括:预训练的词向量、位置向量、实体标记向量(BIO)。模型分为三部分:CEON-LSTM模块(计算每个词基于模型的分数)、syntax-model一致性模块、相似度模块(计算整体句子和最短依赖路径上)。
2、 CEON-LSTM模块: ON-LSTM引入了新的两个门(master forget gate和master input gate),原来的LSTM假设所有的神经元在所有的隐藏向量中是同等重要的,所有神经元在句子的每个词(时间点)都是活跃的,而ON-LSTM认为所有的神经元在每一个时间点不是都活跃,cumax(x)输出为0或1代表是否活跃,把隐藏向量进入master forget gate计算每个词的重要性得分,第t个词wt的得分为modt。 ON-LSTM只考虑了当前的词xt和这个词前面的状态,但其可能还需这个词右边的词的信息,所以先将所有词进入一个函数,得到x’,那么这个x’包括了这个句子的信息(包括左边和右边),那么在计算过程中就不用了xt,而用xt’,那么用了x’的模型为CEON-LSTM。
3、 syntax-model一致性模块:用句法依赖树得到基于句法的得分synt,为了使基于模型的得分和基于句法的得分保持一致性,用最小化KL散度(Limport)来实现。Synt的计算过程:得到依存树上两个实体的最短依赖路径DP和依赖树上任意两个单词之间的最长路径长度T,计算T与DP中wt与其他词的最短路径长度的差距,就作为wt的基于句法的得分synt。
4、相似度模块( Sentence-Dependency Path Similarity):整个句子W和DP上的词分别对应进入CEON-LSTM的隐藏状态,进入maxpooling得到RW和RDP,然后计算两者的余弦值,求负数作为损失函数,然后最大化这个损失函数Lpath。
5、预测:综合前面得到的所有向量表示V,然后将V进入全连接和softmax做最后的预测,并取负对数得到一个新的损失Llabel,进而得到整个实验的损失函数为L
三、《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》
1、模型有三层组成:
(1)word embeddings 层:句子的向量表示(vw)、词性标签POS(vp)、依赖特征(vd,父类的依赖特征)、实体标签 (ve)
(2)基于LSTM-RNN的词序列层:预测实体,进入模型的是句子的向量表示和词性标签POS连接后的向量,预测实体用的标签为BILOU,经过双向LSTM-RNN后得到两个隐藏状态,将其连接st和前一个预测出的实体标签再拼接,作为输入到2层全连接层进行预测实体标签,
(3)基于LSTM-RNN的依赖子树层:预测实体之间的关系,主要集中在两个实体在依赖树中的最短路径,使用的依赖树为自底向上和自上向下两种,依赖树类型包括基于两个实体之间最短路径的依赖树(SPTree)、两个实体之间的最短公共祖先的依赖树(SubTree)、整颗依赖树(FullTree)。提出树结构的LSTM-RNN相同类型的孩子节点共享参数U,并且可以接受不同个数的孩子节点, SPTree使用一个节点类型, SubTree和FullTree使用两个节点类型(一个代表最短路上的,一个代表其他的)。这一层的输入为xt。依赖层的输出进入两层全连接和一个softmax(和预测实体标签一样)做最后的预测(没有关系的预测为负例)
2、通过在双向序列结构的LSTM-RNNs上堆叠双向树结构的LSTM-RNNs,可以捕获词序列信息和依赖树结构信息,模型中加入两个新的东西:实体预训练、定期采样(以一定的概率用真实标签替换掉预训练预测的实体标签)。使用BPTT算法更新参数
3、关系标签认为是类型和方向组成(负例没有方向)
四、《Relation Extraction with Convolutional Network over Learnable Syntax-Transport Graph》
1、之前用依存树转化为图的时候都是转为全连接图,忽略了树中结构信息。本论文考虑了结构信息
2、模型包括两个:
(1)syntax-transport GCN (ST-GCN):依赖树转化为有向带自环的图,节点是词,边是词在依赖树上的依赖路径,边权重是两个词在依赖树上信息转移的比例,对角线上的值代表这个点的重要性,
(2)可学习的syntax-transport GCN (LST-GCN):有向无环图,邻接矩阵可以学习,ei、ej为实体的向量表示,prij两个实体在依赖树上的关系向量,oj第j个词经过双向LSTM的输出,最终邻接矩阵由上述计算,如果在依赖树上i和j是有向连接,则其值为0到1之间的数,否则为0,
3、每一层后面都加一个maxpooling,然后做attention,得到vs,作为句子的新的表示,最后进入一个softmax做最后的预测
五、《Graph Neural Networks with Generated Parameters for Relation Extraction 》
1、参数是在传播组件,例如是一个以原始句子为输入,用一个生成器生成的用于信息传递的转移矩阵。可以实现关系推理。在人工标注数据集和远程监督数据集做了实验,提取一句话中每一对实体之间的关系,而不是给定的实体对。
2、由句子建立完全图,分为三个组件
(1)encoding组件:使边吸收足够的信息。节点向量和位置向量(代表token属于第一个实体还是第二个实体还是都不属于)拼接,进入BILSTM和多层MLP,得到矩阵A
(2)传播组件:在不同的节点之间传播信息。使用公式得到h
(3)分类组件:通过节点表示做最后的预测。每个实体都会有向量表示,所有实体的向量表示拼接,得到r,进入一个MLP和softmax做最终的分类。