[论文解读]DORE: Document Ordered Relation Extraction based on GenerativeFramework

与基于分类的方法相比，生成框架同时提取特征和分类，允许在预先训练的语言模型中更直接地使用潜在知识，而不需要在顶层添加未经训练的分类模块。此外，生成过程（从原始文本中提取关系的过程）在逐步生成输出时，可以自然恢复高阶依赖关系。基于生成的方法已经成功地适应了许多设置，包括通用IE，它打算以统一的方式解决多个IE任务(Paolini等人，2021;Lu等人，2022)、低资源(Hsu等人，2021)和迁移学习(Liu等人，2021,2022)，并在大多数句子水平基准测试中取得了具有竞争力的结果(Cui等人，2021;Liu等人，2021)和文档级事件提取任务(Li等人，2021;张等，2022)。

考虑到生成框架简单有效，之前的工作对DocRE采用了生成框架(Huang et al.， 2021;Giorgi等人，2022年)。这方面工作的特点是词汇生成，因为他们使用自然语言来表示实体和关系，这直接借鉴了文本生成任务(Lewis等人，2020;rafael et al.， 2020)。此外，它们还需要特殊的分隔令牌来区分令牌跨度。然而，词法生成范式并不完全适合更复杂的DocRE任务，其中源序列包含大量实体和关系(例如，一个文档在DocRE上可以包含多达40个关系实例)，从而导致基于生成和基于分类的方法之间的性能差距。我们的实验验证了生成基线在DocRED数据集上的表现比基于分类的方法差6.00点(Yao et al.， 2019)。

词汇生成范式两个重大挑战

(1)非唯一目标序列:对于图1所示的例子，文档经常需要多次提及相同的知识，每个知识可以用多种方式表示(即实体的不同词法形式)。预先定义实体的特定词法形式会引入不正确的偏见，并且需要一个复杂的后处理步骤来对齐生成的序列和相关事实。

(2)生成的序列过长:DocRE需要模型提取更多的事实，导致输出的序列较长，从而导致效率和内存支持困难。然而，使用自然语言表示和额外分隔符号的词法生成方法很难以简洁的方式处理这种困境。

为了缓解词汇生成范式中的问题，我们将生成DocRE视为确定性地生成一个关系矩阵，其中每个单元对应于具有预定义关系或没有关系的实体对。

我们称之为DORE (document ordered Relation Extraction)的范式，为每个实体和关系分配一个特殊的id，并按照行列顺序线性化关系矩阵，得到一个符号有序序列。学习和控制生成要容易得多。

此外，当并行生成关系矩阵的行时，该范例能够以一种简洁的方式解析过长的输出序列。

此外，我们发现在复杂的DocRE模型中，并引入了一些负采样策略来缓解这损失函数是不平衡。

综上所述，我们发现DocRE生成框架的平庸表现来自于不恰当的训练和生成方式，而不是模型架构。

我们在四个流行的DocRE基准上进行实验。

我们仅通过改变训练范式，将DocRED生成模型的F1分数从51.36提高到60.67，并在远程监督训练数据(由DocRED正式收集)下进一步提高到65.26。此外，我们在CDR (Li et al.， 2016)和GDA (Wu et al.， 2019)上分别获得了72.6和85.3的F1分数，从而弥合了基于世代和基于分类的方法之间的性能差距。我们还在SciREX (Jain et al.， 2020)上实现了新的最先进的结果，既包括黄金输入，也包括二进制和四元关系提取的端到端。

我们的工作将生成框架引入DocRE，使其与基于分类的方法相匹配，并增加了支持高阶关系发现的优势，这是由序列到序列模型的本质提供的。

在文档级关系抽取中，"high-order relation" 指的是两个或多个实体之间更复杂、更深入的关系。传统的关系抽取通常侧重于提取实体之间的简单关联，如"人物-出生地"或"产品-制造商"等。然而，高阶关系则涉及到更复杂的语义连接，可能包括多层次的推理、多个实体之间的交互作用以及更深层的上下文信息。

举例来说，假设我们要从一篇医学文献中抽取关于药物治疗某种疾病的信息，传统关系抽取可能仅能提取出"药物-疾病"之间的直接关系。而高阶关系抽取则可以识别出更多的关联，比如通过推理和上下文分析，找到与特定药物相关的剂量、不良反应、适应症范围等更深入的关系。

因此，高阶关系在文档级关系抽取中强调对复杂语义关联的挖掘和理解，有助于提取更丰富、更准确的关系信息，进一步支持自然语言处理任务和知识图谱构建等应用。

2 Related Work

2.1 Generation-based Information Extraction基于生成的信息抽取

近年来，越来越多的研究寻求使用一种新的生成范式来解决信息抽取任务。Paolini等人(2021);Zhang等人(2021b)将IE任务转换为标签增强文本之间的翻译，Yan等人(2021);Lu等人(2021年);Huang等人(2021);Zhang等人(2022)设计了一个带有约束解码策略的线性化方案，Li等人(2021);Hsu等人(2021);Liu等(2022)采用基于模板的条件生成。虽然这个范式看起来很简单，但基于生成的方法报告了有竞争力的结果，尤其是在句子水平的基准上。然而，以前的方法不能扩展到需要提取多个事实的文档级关系提取任务，或者比大多数基于分类的方法性能更差。

在文档级关系抽取任务中，文档可能包含大量信息，并且需要抽取出多个事实之间的关系。这对于传统的抽取方法来说是一项挑战，因为它们通常针对单个句子或段落进行建模和处理，无法很好地处理文档级别的复杂性和多样性

3 Method

3.1 Task Formulation

文档级关系抽取任务的目的是抽取给定文档D和实体e集合的关系事实。每个实体ei表示为其在文档中的共参照提及{ej i}的集合，其中一些具有不同的自然语言形式。每个提取的实例都可以表示为一个元组(e1，…， ek, r)，其中k为参与实体的数量，r为预定义的关系集合。\

我们主要研究二元和四元关系提取，即k = 2或4。

由于文档中的关系实例可以自然地形成一个矩阵，所以我们将生成DocRE框定为生成一个关系矩阵。以二元关系抽取为例。如图1所示，关系矩阵中的每个单元格(i, j)对应一个头部实体ei，尾部实体ej的实体对，可以用一个关系填充。那么DocRE的目标变成估计一个条件概率P(R|D,E )，其中R∈R = [0,1]|E|×|E|×C是一个3d矩阵，C是关系类别的个数。在实践中，目标是找到最可能的关系矩阵。

为了进一步将DocRE建模为一个序列生成问题，我们引入一个变量S∈S来表示一个序列。我们稍后将讨论如何表示这个序列空间S。

显然，这种计算是难以处理的，除非枚举序列空间的代价很高。

3.2关系矩阵的符号和有序序列表示

在我们的语境中，我们需要做的就是表示关系矩阵并将其线性化为一个序列。

为了表示关系矩阵，

首先给每个实体和关系分配一个特殊的符号，即id。

在真实的场景中，实体可以通过提及在文档中多次出现，表达式在自然语言中可能略有不同，比如别名、缩写或首字母缩略词。一个特殊的id保证了一个唯一的和明确的实体。

此外，不需要使用分隔符来区分包含多个令牌的实体和关系。

如图1所示，我们使用不同范围的“”(“”在实现中)来表示实体(i∈[1,100])和关系(i∈[101,200])。实体按照它们在文档中的首次出现进行排列。

实体id的嵌入用相应的序列号的嵌入来初始化。

例如，我们使用" 1 "的嵌入初始化" "的嵌入。实体id

类似地，关系id的嵌入用相应自然语言的嵌入的意义池meaning pooling来初始化。

初始化有利于预训练的生成模型学习特殊标记的含义，如附录a .1所示。

这样，(Julian Reinard, 1983年3月5日，出生日期)的关系元组可以在我们的范例中表示为“ ”。

图1:一个来自DocRED数据集的例子，我们用不同的颜色突出显示实体。左边是输入文档，右边是目标关系矩阵。这个矩阵中的每个单元格都包含了两个实体之间的关系。我们在中间比较了两个范式，词汇序列比我们的DORE长得多。同时，

词汇生成范式存在四个缺陷

1展示了使用不同提及的情况。“Julian Reinard”和“He”都指向同一个实体，但在注释中只使用了其中一个。如果模型使用不同的提及，这将导致错误的训练信号。

2在“country” and “country of citizenship”这两个相似的关系中，该模型挣扎着做出选择。“country of”是一个有意义的词汇，但在关系词汇中是无效的。

3，模型输出一个新的提到“朱利安”，没有出现在文本中。

4表明预测顺序不遵循人类的阅读顺序，根据文献，公民知识出现在联盟信息之前。词汇生成范式采取了后处理步骤来解决上述问题。相反，我们的DORE范式直接预测关系矩阵中的元素。

线性化关系矩阵

为了线性化关系矩阵，我们简单地按照行列顺序组织关系元组。结果是，头部实体在文档中出现较早的关系实例将在输出序列中出现较晚的关系实例，共享同一个头部实体的关系顺序由它们的尾部实体决定。

符合逻辑推理的最优顺序是很难预先定义的，除非该模型需要大量的计算来枚举序列空间。

相反，行列顺序是确定的，便于模型理解。

更正式地说，设

Sˆ是关系矩阵R的对应序列，

即S∈S P(R, S) = P(R，ˆS)， P(R|ˆS,D,E) = P(R|ˆS) = 1。

设τ(·)为线性化函数，将关系矩阵转换为符合上述符号格式和行列顺序的序列，即ˆS = τ(R)。我们有:

四元关系提取

符号关系矩阵可以很容易地扩展到四元关系提取和提供实体类型信息的设置。例如，在SciREX中，一个4元关系实例(eTask, method, material, eMetric, r)由四种类型的实体和一个二元关系组成。每种类型的实体可以进一步划分为“”的不同范围，一个关系元组可以转换为类似“ ”的序列。

约束译码

考虑到引用序列完全是一组用于二元关系提取的三元组或用于四元关系提取的五元组，

与词法生成范式相比，我们采用了一种相对简单的约束译码方法来控制生成。

词汇表仅局限于特定范围的特殊标记，几乎不依赖于当前步骤，因此解码器的词汇表大小很小。

相反，词汇生成方法需要完整的词汇表，因为它们需要预测实体的文本形式。

3.3并行行生成

由于生成模型的自回归特性，输出越长，解码过程越慢。此外，当输出太长时，不支持内存。

幸运的是，我们的方法可以很容易地适应这种情况。我们可以选择每次只生成一行关系矩阵，而不是一次生成整个关系矩阵。

例如，在图1中，模型首先只生成以输出序列中表示为“”的“Julian Reinard”开始的关系三元组，然后再以同样的方式依次重新生成关系矩阵的其他行。

由于输入是相同的，过程可以并行，从而节省时间和生成长度。我们所需要的只是不同的解码器启动令牌。并行行生成牺牲了一些关系依赖关系，但节省了长度。而Sec-4.3.1的实验表明，权衡是正确的。

3.4 Loss Function Design

对于DocRE任务来说，关系矩阵通常是稀疏的。

例如，只有大约3%的实体对在DocRED上有关系。之前的一些研究发现，在训练过程中采样负训练样本sampling negative training examples，即不存在关联的实体对，对提高模型性能是有效的。

我们为我们的方法提出了几种负抽样策略，并从损失函数的角度解释了原因。

我们的训练目标是"ground truth sequence"（真实序列）

S∗= (i, j,Rij)i,j∈R+。其中，R+是关系矩阵中所有非零元素的集合，i是行索引，j是按照行-列顺序排列的列索引。类似地，我们将R -表示为所有零元素的集合。这就产生了以下生成损失函数:

在关系抽取中，"ground truth sequence"（真实序列）指的是用于训练和评估模型的标注数据。它表示关系抽取任务的预期输出。

关系抽取旨在从文本中提取实体之间的语义关系。为了训练关系抽取模型，需要提供一组标注好的数据作为训练集。每个训练样本包含一个句子或段落，以及其中涉及的实体以及它们之间的关系。这些关系通常由特定的关系类型或标签来表示，如"位于"、"拥有"、"属于"等。

"Ground truth sequence" 是指基于人工标注的数据，在每个训练样本中，将实体及其关系转化为序列的形式。例如，可以使用实体标记和关系标签来表示序列，其中不同的标记用于表示不同的实体和关系类别。这个序列即被认为是真实的、准确的关系表示。

通过将这些真实序列作为训练数据，关系抽取模型可以学习到如何识别和提取文本中的实体以及它们之间的关系。然后，这个模型可以应用于未标注的文本，自动进行关系抽取并生成预测结果。真实序列在评估模型性能时也起到关键作用，可用于计算模型的准确率、召回率和F1值等指标。

其中T为序列长度，最后一个令牌为“”，表示序列结束。

图2:不同的负抽样策略。浅黄色的元素为标注关系，蓝色的元素为负样本。在动态采样中使用了(d)的翻转版本，它在对角线的左边保留一个元素，在右边保留多个元素。

(a)不抽样 (b)随机抽样 (c)对角抽样 (d)非对称抽样

非对称采样--负采样策略

实现=》训练词嵌入

传统的负采样方法：

随机抽样，均匀随机的从整个词汇表中选择负样本，

缺点：可能导致高频词被选择为负样本的概率较大，而低频词被选择为负样本的概率较小，会导致低频词的表示不准确。

非对称抽样：

通过调整负样本的采样概率来解决这个问题。具体而言，它根据词频信息来设置每个词作为负样本的概率。常见的做法是使用词频的3/4次方作为归一化因子，将每个词的采样概率计算为该词频的3/4次方除以整个词汇表中所有词频的3/4次方之和。这样一来，高频词的采样概率就会降低，而低频词的采样概率则会增加。

通过使用非对称抽样的负采样策略，可以更好地平衡高频词和低频词的训练权重，提高整体的词向量表示质量。

而产生关系矩阵的损失函数是

对关系矩阵中的每个元素应用交叉熵(Cox, 1958):

序列生成损失的缺陷

相比之下，我们在实践中使用的序列生成损失将从R -集合中清除所有的零元素，并将它们的所有影响集中到预测序列的结束。

R-集合：所有零元素的集合（负样本）

损失函数将忽略目标序列中的零元素，并认为它们对预测序列的准确性没有影响，只考虑非零元素的预测结果。

虽然它肯定缩短了目标序列，但也会导致严重的不平衡损失项。

将所有零元素集中到预测序列的结束位置会导致严重的不平衡损失项，这可能是因为零元素的数量较多，而其他有意义的元素的数量相对较少。

另一方面，让生成模型生成所有的零元素违背了符号格式的目的，并且很容易超过大多数预先训练的seq2seq模型支持的最大长度。这里需要的是在不压倒生成模型的情况下平衡负样本的总体。

生成所有零元素会破坏符号格式的目的，因为零元素通常用于表示填充或无关信息，并且这种做法可能导致生成的序列超过模型所支持的最大长度。

平衡负样本的总体意思是在处理数据时，努力使负样本的数量与正样本相对平衡，以避免模型过度偏向某一类别。

需要解决两个问题：如何处理零元素以避免不平衡损失项，以及如何在生成模型中平衡负样本的数量，同时确保生成的序列不超过模型的限制。

负抽样策略

简单地说，我们可以在关系矩阵中添加随机零元素作为负抽样，如图2B所示。

例如，我们随机挑选10%零的元素并将它们添加到目标序列中。

然而，这增加了序列预测的难度，因为模型可能难以记住每个训练样本的顺序，

而忽略了上下文信息。

一个更有效的方法是用关系矩阵的常数（因此平衡）预算定期保留对角线带中的元素，即对角线负抽样。为了进一步缓解有限的非零元素空间所带来的偏差，我们引入了一种动态策略，通过从无采样（图2a)、对角线采样（图2c)和非对称采样（图2d)中随机抽取来提供负样本。我们称之为动态负采样。 在计算中，我们删除模型生成的零元素。

损失函数

交叉熵损失CE：

交叉熵损失CE

消融实验：

Symbolic vs. Lexical

词汇表示法和符号表示法

我们选择t5 - large作为测试平台，它可以在不受约束解码的情况下学习符号表示。

T5-large是一种基于Transformer架构的语言模型，它由Google开发并于2019年发布。T5代表"Text-to-Text Transfer Transformer"，它的设计初衷是通过将不同的自然语言处理（NLP）任务都转化为文本到文本的问题，然后使用统一的Transformer架构来解决这些问题。

T5-large是T5模型系列中的一个较大规模的模型，它具有1.3亿个参数。与较小规模的T5模型相比，T5-large在处理更复杂、更长的文本任务时拥有更强的表达能力和上下文理解能力。

T5-large可以用于各种NLP任务，例如文本分类、命名实体识别、机器翻译、摘要生成等。同时，T5-large也可以用于生成式任务，如对话系统和问答系统。

需要注意的是，我作为AI助手使用的GPT-3.5模型与T5-large是不同的模型，但它们都是基于Transformer架构，并且在语言处理任务上取得了显著的成果。

表5的上半部分表明，符号表示以by3.76 points表现出更好的性能，这是一个实质性的改进。

我们认为改进来自两个方面：

符号表示大大减少了序列长度，减轻了累加译码误差；

并且简化了复制机制，因为一个符号代表一个很长的文本短语。

复制机制

为了在解码期间启用输入标记的复制，我们使用了复制机制(Gu等人，2016a)。该机制通过使用源序列X中的标记有效地扩展目标词汇表，允许模型将这些标记“复制”到输出序列Y中。我们对复制机制的使用类似于以前基于关系抽取的seq2seq方法

在关系抽取任务中，通常需要从文本中提取出实体和它们之间的关系。当我们使用神经网络进行关系抽取时，输入数据通常是变长的文本序列，而输出是固定大小的关系标签序列。

然而，在文本序列中，可能会出现一些罕见的实体名称或专业术语，这些词汇可能不在训练集中出现，导致模型难以正确地预测这些实体和它们之间的关系。这时候，复制机制就可以发挥作用。

复制机制的思想是将未知的实体名称或专业术语直接复制到输出序列中，而不是强制模型去预测它们。具体地说，在解码时，模型可以选择从输入序列中复制一个子序列并将其插入到输出序列中，从而实现对实体名称或专业术语的复制。这样，即使模型没有在训练集中看到这些词汇，也可以正确地生成相应的输出。

复制机制通常需要结合注意力机制来使用，因为模型需要关注输入序列中哪些部分是需要复制的。通过学习如何对输入序列进行注意力加权，模型可以确定最适合复制的内容，并将其复制到输出序列中。总的来说，复制机制是一个非常有用的技术，可以帮助模型在进行关系抽取任务时更好地处理罕见实体和专业术语，提高模型的准确性。

在关系抽取任务中，我们需要从自然语言文本中识别出实体之间的关系。这些实体标记通常包含在输入序列X中。但是，在解码期间，模型通常只能访问目标输出序列Y中的标记，因此模型需要一种方法来有效地引入输入序列X中的实体标记。

为了解决这个问题，Gu等人(2016a)提出了复制机制。该机制通过动态扩展目标词汇表，允许模型将实体标记“复制”到输出序列Y中。具体而言，模型会为每个输入序列X中的实体标记分配一个位置编码，并将其添加到目标词汇表中。然后，当模型在解码器中遇到一个特殊的“复制”标记时，它可以根据位置编码直接将对应的输入序列中的实体标记复制到输出序列Y中。

例如，假设我们有一个输入序列X为：“John works at Google”，目标序列Y为：“John is an employee of Google”。在使用复制机制的情况下，模型可以将输入序列X中的“Google”标记复制到输出序列Y中，从而正确捕捉实体之间的关系。

总之，复制机制是一种有效的技术，可以帮助模型在解码期间更好地利用输入序列中的实体标记，从而提高关系抽取任务的性能。

顺序序列Sequence Order

在DORE中起着至关重要的作用。为了理解其效果，我们将注释顺序(即注释者注释文档的顺序)行列顺序与使用随机顺序(a)，三种进行比较。

其中每个示例都与要生成的随机序列相关联。

实验采用t5大序列符号格式进行。

表5的中间部分给出了三个订单之间的比较。注释顺序确实优于随机顺序，因为它更容易预测。但是，我们不能假设注释器的行为是一致的。正如我们所预期的那样，行-列顺序不仅是稳定的，而且是确定的，它的性能进一步比注释顺序好1.02点。然而，我们并不认为这一定是最好的秩序。一般来说，更好的顺序应该反映高阶依赖关系的拓扑结构，我们将其作为未来的发展方向。

Negative Sampling

我们还测试了Sec-3.4中引入的不同的负抽样策略。有三种设置。

“10%随机”从关系矩阵中统一抽取10%的负样本。

“对角线”意味着我们在对角线周围选择窗口大小为1的负样本。

“动态”则统一选择我们之前介绍的不同策略。

我们使用T5large +符号表示和行列顺序来测试这些设置。

我们发现“10%随机”选项的作用很小，“对角线”优于它，因为它在实体中是一致的。

最后，“动态”选项表现最好，因为它为模型提供了在不同通道中查看所有负样本的机会。

4.5 High-order Dependencies4高阶依赖

为了验证所提出的模型是否捕获了高阶依赖关系，我们在图3中通过探究解码器的注意分数提供了一个案例研究。对于每个三元组，我们在前面的步骤中为生成的三元组画一条边，这些三元组最受关注。我们在附录a .4中解释了如何计算这个分数。如果解码器不能恢复输出依赖关系，它将始终处理最后生成的三元组。相比之下，根据图3，我们可以发现DORE的解码器更倾向于关注前面的头尾实体相同的三元组，更有可能潜伏关联。如例1所示，后一个三元组在前一个三元组的基础上准确地预测了对称关系。没有额外的模块，传统的基于分类的方法无法做到这一点。