A Frustratingly Easy Approach for Entity and Relation Extraction
跳过背景、相关工作,直接来看方法
Ideas:
-
different entity pairs,different contextual representations. NER和RE两个模型分别编码,即RE不共享NER得到的编码表示。
-
using additional markers to highlight the subject and object (Zhang et al., 2019; Soares et al., 2019; Peters et al., 2019). Define text markers as <S:ei>, </S:ei>, <O:ej>, and </O:ej>。实体对subject 和object 的两个start marker token拼接作为这对实体关系的表示。
-
句子中多个实体对的情况,因为要插入特定的marker,那就要训练多次RE模型(像上图中要训练两次)——提出近似模型:记录span始末位置,并使用注意力约束(文本仅关注文本,不关注marker;marker关注文本和它关联的4个marker)。这样文本表示独立于实体marker表示,文本表示就可以重用。—— 一次训练,批处理多对实体。性能的小幅下降换来速度的提升。
-
仅扩大输入窗口来整合跨句信息.
实验及分析设置很全面(还没看,先不写了…)