关系抽取论文笔记【研一上】02

最新推荐文章于 2023-01-10 15:57:14 发布

爱工作的小小酥

最新推荐文章于 2023-01-10 15:57:14 发布

阅读量450

点赞数

文章标签：自然语言处理 pytorch 深度学习

本文链接：https://blog.csdn.net/qq_42393368/article/details/120402817

版权

一、《Distilling Knowledge from Well-Informed Soft Labels for Neural Relation Extraction》

1、采用软标签的形式

2、（1）从整个语料库获得类型限制条件进而得到soft rules（2）teacher网络结合soft rules进而针对每个实例得到比较好的软标签

3、两个实体的类型组成一个pattern，首先计算patterns和关系的共现次数，并且归一化数据，每个pattern在所有关系上都会有一个分布，pattern和关系构建一个二部图，节点pattern与节点关系之间的边为pattern为这个关系的概率，一个pattern对所有关系的分布就可以当做把一个关系赋予实体的soft rule

4、总共包括三部分

（1）encoder：一个双向LSTM+GCN，先把句子输入双向LSTM，然后用依存树得到邻接矩阵（无向图），输入GCN，然后经过maxpool（f函数），得到最终的hsent,hs,ho,然后拼接，得到hbase。

（2）The Teacher Network：pattern表示为p，其对每个关系的概率分布为G(p)（可以看做global knowledge， encoder输出的hbase可以看做local knowledge ），综合两方面得到htea，其中F为线性映射函数，输出的维度为关系的种类数，r有三种不同的计算方式，分别表示为rs（固定的常数），rv（可训练的向量），rr（和正确的关系有关系的可训练向量）。（得到软标签）

（3）The Student Network：增加了multi-aspect attention (MAA)，从不同的角度考虑每个词的贡献进而得到句子表示，这里定义了四个方面，分别为位置编码P、NER标签、q（上面的hbase）、上面的Hgcn，最后进入F（全连接层）

二、《Exploiting the Syntax-Model Consistency for Neural Relation Extraction》

1、输入的句子向量包括：预训练的词向量、位置向量、实体标记向量（BIO）。模型分为三部分：CEON-LSTM模块（计算每个词基于模型的分数）、syntax-model一致性模块、相似度模块（计算整体句子和最短依赖路径上）。

2、 CEON-LSTM模块： ON-LSTM引入了新的两个门（master forget gate和master input gate），原来的LSTM假设所有的神经元在所有的隐藏向量中是同等重要的，所有神经元在句子的每个词（时间点）都是活跃的，而ON-LSTM认为所有的神经元在每一个时间点不是都活跃，cumax(x)输出为0或1代表是否活跃，把隐藏向量进入master forget gate计算每个词的重要性得分，第t个词wt的得分为modt。 ON-LSTM只考虑了当前的词xt和这个词前面的状态，但其可能还需这个词右边的词的信息，所以先将所有词进入一个函数，得到x’，那么这个x’包括了这个句子的信息（包括左边和右边），那么在计算过程中就不用了xt，而用xt’，那么用了x’的模型为CEON-LSTM。

3、 syntax-model一致性模块：用句法依赖树得到基于句法的得分synt，为了使基于模型的得分和基于句法的得分保持一致性，用最小化KL散度（Limport）来实现。Synt的计算过程：得到依存树上两个实体的最短依赖路径DP和依赖树上任意两个单词之间的最长路径长度T，计算T与DP中wt与其他词的最短路径长度的差距，就作为wt的基于句法的得分synt。

4、相似度模块（ Sentence-Dependency Path Similarity）：整个句子W和DP上的词分别对应进入CEON-LSTM的隐藏状态，进入maxpooling得到RW和RDP，然后计算两者的余弦值，求负数作为损失函数，然后最大化这个损失函数Lpath。

5、预测：综合前面得到的所有向量表示V，然后将V进入全连接和softmax做最后的预测，并取负对数得到一个新的损失Llabel，进而得到整个实验的损失函数为L

三、《End-to-End Relation Extraction using LSTMs on Sequences and Tree Structures》

1、模型有三层组成：

（1）word embeddings 层：句子的向量表示（vw）、词性标签POS（vp）、依赖特征（vd，父类的依赖特征）、实体标签（ve）

（2）基于LSTM-RNN的词序列层：预测实体，进入模型的是句子的向量表示和词性标签POS连接后的向量，预测实体用的标签为BILOU，经过双向LSTM-RNN后得到两个隐藏状态，将其连接st和前一个预测出的实体标签再拼接，作为输入到2层全连接层进行预测实体标签，

（3）基于LSTM-RNN的依赖子树层：预测实体之间的关系，主要集中在两个实体在依赖树中的最短路径，使用的依赖树为自底向上和自上向下两种，依赖树类型包括基于两个实体之间最短路径的依赖树（SPTree）、两个实体之间的最短公共祖先的依赖树（SubTree）、整颗依赖树（FullTree）。提出树结构的LSTM-RNN相同类型的孩子节点共享参数U，并且可以接受不同个数的孩子节点， SPTree使用一个节点类型， SubTree和FullTree使用两个节点类型（一个代表最短路上的，一个代表其他的）。这一层的输入为xt。依赖层的输出进入两层全连接和一个softmax（和预测实体标签一样）做最后的预测（没有关系的预测为负例）