Document-Level Relation Extraction with Adaptive Thresholding and Localized Context Pooling
目录
总结
这篇文章是针对文件级别的关系识别问题,创新点包括:上下文的重要性的注意力机制计算已获得实体更加的信息表示;另一方面是针对不同关系设计的predict阈值,计算更加的loss。
我们提出了两种新颖的技术,自适应阈值和局部上下文池,以解决多标签和多实体问题。自适应阈值处理用可学习的实体相关阈值代替了先前工作中多标签分类的全局阈值。本地化的上下文池直接将注意力从预训练的语言模型转移到定位有助于确定关系的相关上下文
论文流程
输入:给定文档 d = [xt] l t=1,我们通过在提及的开头和结尾插入特殊符号“*”来标记实体提及的位置
encoder——bert
产生hidden state——>[h1,h2,…hn]
我们将提及开始时的“*”嵌入作为提及嵌入。对于提及 {mi j } Nei j=1 的实体 ei,我们应用 logsumexp 池化 (Jia, Wong, and Poon 2019),最大池化的平滑版本,以获得实体嵌入 hei
Binary Classifier
我们提出了**局部上下文池化
**,
我们通过与两个实体相关的附加局部上下文嵌入来增强实体对的嵌入。
Aijk 表示在第 i 个注意力头中从 token j 到 token k 的注意力,我们首先将“*”符号的注意力作为提及级注意力,然后对同一实体的提及平均注意力以获得
实体级注意力AE
然后给定一个实体对 (es, eo),我们通过乘以它们的实体级注意力来定位对 es 和 eo 都重要的局部上下文,并获得局部上下文嵌入 c (s,o) b
最终的实体表示为:
为了减少双线性分类器中的参数数量,我们使用组双线性(Zheng et al. 2019; Tang et al. 2020b),它将嵌入维度分成 k 个大小相等的组,并在组内应用双线性
我们使用二元交叉熵损失进行训练。在推理过程中,我们调整全局阈值 θ 以最大化开发集上的评估指标(RE 的 F1 分数),如果 P (r|es, eo) > θ 则返回 r 作为关联关系,如果不存在关系则返回 NA。
Adaptive Thresholding
我们将实体对 T = (es, eo) 的标签分成两个子集:正类 PT (实体之间确实存在的关系组成的集合)和负类 NT(实体之间不存在的关系组成的集合)
如果一个实体对被正确分类,正类的logits应该高于阈值,而负类的logits应该低于阈值。
为了学习新模型,我们需要一个考虑 TH 类的特殊损失函数
**
第一部分 L1 涉及正类和 TH 类。 第二部分 L2 涉及负类和阈值类。
**