SSAN 关系抽取论文笔记

最新推荐文章于 2022-11-13 21:29:12 发布

weixin_ry5219775

最新推荐文章于 2022-11-13 21:29:12 发布

阅读量918

点赞数

文章标签：自然语言处理知识图谱深度学习

原文链接：https://blog.csdn.net/li_jiaoyang/article/details/113975711

版权

20210621

https://zhuanlan.zhihu.com/p/353183322
[KG笔记]八、文档级(Document Level)关系抽取任务

在这里插入图片描述

共指id嵌入一样
但是实体嵌入的时候可能是不同的表述所以取上述的方式

抽取全局信息

我们通常可以把句子内部（intra-sentence）的特征信息称之为局部特征，而把跨句子（inter-sentence）的、篇章级的特征信息称之为全局信息。

对于局部信息的抽取基本等同于句子级别关系抽取的encoding model，比如可以使用Word2Vec/ GloVe+Bi-LSTM，BERT等。可以得到与token序列等长的特征序列。

在编码方面，现在的方法基本比较统一：使用GloVe或BERT得到token level embedding，使用可训练权重对token的类别(实体类别，无类别等)进行映射得到type embedding，使用可训练权重对相对位置映射得到relative position embedding。总体上来说token level的信息源就是自身语义、类型及相对位置信息。

由于sigmoid输出存在一个阈值选择的问题，文献[14]使用了一种特殊的任务构建方式实现了sigmoid输出层的自适应阈值。

^ Zhou W, Huang K, Ma T, et al. Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling[J]. arXiv preprint arXiv:2010.11304, 2020.

Relation Fact Alignment 问题

消息传播(Message Passing)就是每个节点的邻居所携带的信息通过一定的规则传播的该节点上。

依存关系分析，又称依存句法分析（dependency syntactic parsing），简称依存分析(denpendency parsing)，作用是识别句子中词与词之间的相互依存关系。

依存关系用一个有向弧表示，叫做依存弧。依存弧的方向为由从属词指向支配词

https://zhuanlan.zhihu.com/p/369851456
本文主要是复现论文《Named Entity Recognition as Dependency Parsing》
重点

在这里插入图片描述

实体构造
考虑以下两种结构

共现结构：两个词是否在同一个句子中
共指结构：两个提及是否指向同一个实体
这两种结构都可以TRUE FALSE来描述

对于共现结构，我们将文档分割成句子，并将它们作为显示提及交互的最小单元。我们分别表示它们是内部的和句子间的。

在共指结构中，“True”表示两种提及指的是同一个实体，因此需要一起进行研究和推理;“False”意味着在某些谓词下可能相互关联的一对不同的实体。
我们将它们分别表示为coref和relate。
综上所述，这两种结构是相互正交的，导致了四种不同的无向依赖关系，如表1所示。
在这里插入图片描述
除了提及之间的依赖关系之外，我们进一步考虑实体提及与其句子内非实体词之间的另一种依赖关系。我们称它为intraNE。
对于其他句子间的非实体词，我们假设不存在关键依赖关系，并将其归类为NA。
因此，整个结构被表述为一个以实体为中心的邻接矩阵，其所有元素来自一个有限依赖集：（问题邻接矩阵中的元素不是0,1吗怎么这里有几种状态）
{intra+coref, inter+coref, intra+relate, inter+relate, intraNE, NA}

SSAN
SSAN继承了Transformer 编码器的架构，它是一堆相同的块，用前馈网络、残差网络和层归一化包裹起来。作为其核心组成部分，我们提出了带有两个可选的转换模块的结构化的自我注意机制。
（这里的结构性是指规定的几种实体减的关系类别）

基于这些输入和实体结构，我们计算非结构化注意分数和结构化注意偏向，然后将它们聚合在一起来指导最终的自我注意流。

非结构化注意分数是由Q-K在标准自注意力产生。

在这里插入图片描述
使用一个额外的模块，建模Q-K之间的结构性依赖。

在这里插入图片描述
这里的transformation 是什么意思下面有解释

公式中，这三项分别代表：

基于Q向量的偏差
基于K向量的偏差
早期偏差
结构化自注意力的整体计算公式为：

在这里插入图片描述
根据上下文，由于Transformation层自适应地对结构性依赖进行建模，我们不会在不同的层或不同的注意头之间共享它们。

早期，Transformer提出输入token对的相对位置信息模型。
他们首先将相对距离映射到embedding中，然后将它们与K向量相加，然后计算注意力得分。
从技术上讲，这种设计可以看作是我们所分解的线性变换的简化版本，只包含查询条件偏差。

SSAN for Relation Extraction
该模型以文档文本为输入，在整个编码阶段的实体结构指导下构建其上下文表示。

在这里插入图片描述

模型用交叉熵损失训练模型。

我们形式化实体结构的文档级关系提取。在此基础上，我们提出了SSAN来有效地整合这些结构先验，同时交互式地执行实体的上下文推理和结构推理。
在三个数据集上的性能验证了实体结构的有效性和SSAN模型的有效性。

https://blog.csdn.net/li_jiaoyang/article/details/113975711
【论文阅读】Entity Structure Within and Throughout: Modeling Mention Dependencies for Document-Level Relation

weixin_ry5219775

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
SSAN 关系抽取论文笔记

20210621https://zhuanlan.zhihu.com/p/353183322[KG笔记]八、文档级(Document Level)关系抽取任务共指id嵌入一样但是实体嵌入的时候可能是不同的表述所以取上述的方式抽取全局信息我们通常可以把句子内部（intra-sentence）的特征信息称之为局部特征，而把跨句子（inter-sentence）的、篇章级的特征信息称之为全局信息。对于局部信息的抽取基本等同于句子级别关系抽取的encoding model，比如可以使用Wor
复制链接

扫一扫