EIDER: Evidence-enhanced Document-level Relation Extraction阅读笔记

最新推荐文章于 2023-04-07 20:04:17 发布

comeonfly666

最新推荐文章于 2023-04-07 20:04:17 发布

阅读量745

点赞数 1

分类专栏：论文阅读笔记文章标签：自然语言处理深度学习

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/comeonfly666/article/details/120270266

版权

论文阅读笔记专栏收录该内容

22 篇文章 3 订阅

订阅专栏

EIDER: Evidence-enhanced Document-level Relation Extraction

Background
Purpose
Methodology

Background

文档级关系抽取的目的是提取文档中实体对之间的关系，文档中的推断关系所需的最小句子集称为“evidence sentences”，能够帮助预测特定实体对之间的关系。

Purpose

为了更好地利用证据句，本文提出了一个包含三个阶段的证据增强框架EIDER，包括联合抽取关系和证据，以证据为中心的关系抽取，以及抽取结果融合。

Methodology

系统框架如图2所示。

请添加图片描述

Joint Relation and Evidence Extraction

在本文提出的框架中，关系抽取模型和证据抽取模型共用一个预训练编码器，并有各自的预测器，通过共享基编码器，两个模型能够相互提供额外的训练信号，从而相互增强。

Encoder

给定一个文档 $d=[s_t]_{t=1}^N$ ，在每个实体提及前后都加入" * "，接着使用BERT编码器获得每个token的嵌入：

$H=[h_1,h_2,...,h_L]=Encoder([s_1,...,s_N])$

对于每个实体 $e_i$ 的提及，首先使用第一个符号" * "作为提及嵌入，接着使用LogSumExp池化获得实体 $e_i$ 的嵌入：

$e_i=log{\sum^{N_{e_i}}_{j,1}exp(m_j^i)}$

其中 $N_{e_i}$ 是实体 $e_i$ 在文档中出现的次数， $m_j^i$ 是其第j次提及的嵌入。

基于预训练编码器的注意力矩阵，计算每个实体对的上下文嵌入。首先计算在第k个头部下每个token到每个提及 $m_j$ 的注意力分数，记为 $A_{j,k}^M \in R^l$ 。接着通过平均每个提及，计算每个token到每个实体 $e_i$ 的注意力分数，记为 $A^E_{i,k} \in R^l$ 。实体对 $e_h,e_t)$ 的上下文嵌入为：

$c_{h,t}=Ha^{(h,t)}$

$a^{(h,t)}=softmax(\sum^K_{i=1}A^E_{h,k}·A^E_{t,k})$

Relation Prediction Head

首先通过结合实体嵌入和上下文嵌入，将 $e_h$ 和 $e_t$ 的嵌入映射到上下文感知表示 $z_h,z_t$ 。接着通过bilinear函数获得关系的概率：

$z_h=tanh(W_{h}e_{h}+c_{h,t})$

$z_t=tanh(W_{t}e_{t}+c_{h,t})$

$P(r|e_h,e_t)=\sigma(z_{h}W_{r}z_t+b_r)$

使用自适应阈值损失（adaptive-thresholding loss ）作为关系抽取模型的损失函数：

$L_{RE} = -\sum_{r \in P_T}log(\frac{exp(logit_r)}{\sum_{r'\in P_r \cup \{TH\}}exp(logit_{r'})}) -log(\frac{exp(logit_{TH})}{\sum_{r'\in N_T \cup \{TH\}}exp(logit_{r'})})$

对于实体对T，若其包含关系r，则 $\in P_T$ （正类），否则$ r \in N_t $（负类）。正类的概率应该高于阈值，负类的概率应该低于阈值，该阈值TH可学习得到。

Evidence Prediction Head

证据预测模型预测每个句子是否是实体对的证据句。为了获得句子嵌入，引入平均池化的方法：

$s_i=\frac{1}{|s_i|}\sum_{{h_l}\in s_i}(h_l)$

使用bilinear函数评估句子 $s_i$ 与实体对的重要性：

$P(s_i|e_h,e_t)=\sigma (s_{i} W_{v}c_{h,t}+b_v)$

由于实体对可能包含不止一个证据句，采用二元交叉熵作为模型目标函数：

$L_{E_{vi}}=-\sum_{{s_i}\in D}y_i·P(s_i|e_h,e_t) + (1-y_i)·log(1-P(s_i|e_h,e_t))$

其中 $s_i$ 是证据句时 $y_i=1$ ，否则 $y_i=0$ 。

Optimization

联合抽取的损失函数为：

$L=L_{RE}+\alpha ·L_{E_{vi}}$

其中$ \alpha $时平衡损失的超参数。

Evidence-centered Relation Extraction

如果已经掌握与关系相关的所有信息，就没有必要对整个文档进行关系抽取。可以按照原文档的顺序，为每个实体对构建一个伪文档，包含所有的证据句，将其填充入模型。

证据信息仅在训练中有用，将伪文档中的证据句替换为模型抽取的证据，标记为 $V^{'}_{h,t}$ ，并获得一组关系预测分数。将原文档和伪文档的预测分数分别记为 $S^{(O)}$ 和 $S^{(E)}$ 。

Fusion of Extraction Results

将以上分数进行融合：

$P_{Fuse}(r|e_h,e_t) = \sigma(S^{(O)}_{h,t,r}+S^{(E)}_{h,t,r}-\gamma)$

$\gamma$ 是可学习参数，损失函数：

$L_{Fuse} = -\sum_{d \in D}\sum_{h \neq t}\sum_{r \in R}y_r·P_{Fuse}(r|e_h,e_t) + (1-y_r)·log(1-P_{Fuse}(r|e_h,e_t))$

其中，实体对包含关系 $r$ 时 $y_r=1$ ，否则为0。

关注

1
点赞
踩
3

收藏

觉得还不错? 一键收藏
3
评论
EIDER: Evidence-enhanced Document-level Relation Extraction阅读笔记

EIDER: Evidence-enhanced Document-level Relation ExtractionBackgroundPurposeMethodologyJoint Relation and Evidence ExtractionEvidence-centered Relation ExtractionFusion of Extraction ResultsBackground文档级关系抽取的目的是提取文档中实体对之间的关系，文档中的推断关系所需的最小句子集称为“evidence s
复制链接

扫一扫

专栏目录

评论 3

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。