【论文解读】A sequence-to-sequence approach for document-level relation extraction

A sequence-to-sequence approach for document-level relation extraction

一种文档级关系提取的序列到序列方法

Abstract

由于许多关系跨越了句子边界,文档级关系抽取(DocRE)受到了越来越多的关注。DocRE需要整合句子内部和句子之间的信息,捕捉提到实体之间的复杂交互。大多数现有的方法都是基于流水线的,需要实体作为输入。然而,由于共享参数和训练步骤,联合学习提取实体和关系可以提高性能和效率。在本文中,我们开发了一种序列到序列的方法,seq2rel,它可以端到端学习DocRE的子任务(实体提取、共参考解析和关系提取),取代了任务特定组件的管道。我们使用一种称为实体暗示的简单策略,在几个流行的生物医学数据集上,将我们的方法与现有的基于流水线的方法进行比较,在某些情况下,我们的方法的性能超过了它们。我们还报告了这些数据集的第一个端到端结果,以便将来进行比较。最后,我们证明,在我们的模型下,端到端方法的性能优于基于管道的方法。我们的代码、数据和训练有素的模型可以在https: //github.com/johngiorgi/seq2rel上找到。在https://share.streamlit上可以看到一个在线演示。demo.py. conf . io/johngiorgi/seq2rel/main/demo.py. conf。

现有方法:

Most existing methods are pipeline-based, requiring entities as input.

pipeline-based:

在关系抽取中,许多方法都是基于多个子任务逐一执行的方法,在一个典型的pipeline-based管道中,需要先进行实体识别,以确定句子中存在哪些实体及其类型,然后才能进行关系识别和分类等后续操作。也就是说,实体识别是关系抽取过程的前置任务,因为它提供了一些必要的信息用于关系抽取。这种方法的一个前提条件是需要预先知道文本中存在哪些实体及其类型,因此需要在处理之前对文本进行实体识别。

pipeline-based方法具有明显的优点,如可扩展性和模块化设计,但也存在一些缺点,例如可能会失去全局上下文信息,导致结果不准确。因此,对于某些特定任务,可能需要使用其他方法来更好地完成关系抽取任务。

Pipeline-based方法和联合学习是两种不同的方法。

Pipeline-based方法是指将任务拆分成多个阶段,每个阶段处理一个子任务,并将前一个阶段的输出作为后一个阶段的输入。这种方法通常用于解决复杂的任务,其中每个子任务都需要特定的模型或算法来处理。例如,自然语言处理中的文本分类可以拆分成文本清洗、特征提取和分类器三个阶段。

联合学习则是指多方参与共同训练一个模型的过程。在这种方法中,各方共享数据但不共享模型,每个参与方使用本地数据进行训练,通过交换部分模型参数实现信息共享。联合学习适用于涉及隐私数据的场景,例如医疗数据分析等。

虽然这两种方法有所区别,但它们可以结合使用,例如在联合学习中采用pipeline-based方法进行模型训练。

基于:共享参数和训练步骤,联合学习提取实体和关系可以提高性能和更有效

本文:我们开发了一种序列到序列的方法,seq2rel、,它可以端到端学习DocRE的子任务(实体提取、关联解析和关系提取),取代了任务特定组件的管道

(从文档级别的关系抽取角度理解这句话,它指的是一种名为seq2rel的序列到序列的学习方法,可以在端到端的过程中学习文档级关系抽取任务(实体提取、关联解析和关系提取),同时也替代了传统的基于特定任务组件的处理流程。这种方法相当于使用一个通用的模型(seq2rel)来完成文档级关系抽取任务,避免了使用多个任务特定组件所构成的复杂管道处理流程。)

实验:端到端的方法与pipeline-based的现有方法在几种流行的生物医学数据集上进行比较,在某些情况下超越了它们的性能。我们还报告了这些数据集的第一个端到端结果,以供将来比较。最后,我们证明,在我们的模型下,端到端的方法比基于管道的方法更有效

1 Introduction

资料库:

PubMed是世界上最大的生物医学文献资料库,拥有超过3000万份出版物,每分钟增加两篇以上的论文。需要精确的、自动的文本挖掘和自然语言处理(NLP)方法来最大限度地发现和提取结构化信息

任务:某些文本中识别参与语义关系的实体组

生物医学领域的关系类型:化学诱导的疾病,蛋白质相互作用,基因与疾病的联系

句子级别的关系抽取的现有的方法:

从基于规则到基于机器学习

from rule-based to machine learning-based

(Zhou et al., 2014; Liu et al., 2016)

特点:工作都集中在句内二元关系抽取(单个句子中识别二元关系),即句子中的实体对被归类为属于某个特定关系(或不属于任何关系)。

缺点忽略常见复杂性,比如

嵌套或不连续实体:在一个文本中,有些实体可能与其他实体嵌套或者不连续出现。例如,在句子“John, who works at Google, met with his boss yesterday”中,“John”和“his boss”是两个实体,但它们之间嵌套了一个额外的实体“who works at Google”。不连续实体是指文本中存在着间隔、分散出现的实体。这些实体之间可能有着各种复杂的关系,需要通过文本分析和算法推理来判断它们之间的联系。(一个关于不连续实体的英文例子是两个人物在一篇文章中分别出现在不同的段落中。假设这篇文章是关于一场足球比赛的报道,其中提到了两位教练:John 和 Mike。文章第一段介绍了 John 是某支球队的主教练,并描述了他在比赛前的准备工作。第二段介绍了 Mike 是对手球队的教练,描述了他的战术安排和比赛过程中的一些举措。在这个例子中,John 和 Mike 都是不连续实体。因为他们分别出现在不同的段落中,并且没有直接的语言连接将它们联系起来。从关系抽取的角度看,我们需要通过文本分析和算法推理来判断这两个人物之间是否存在某种关系,例如竞争、合作、冲突等。这样可以更好地理解整篇文章的含义,准确地捕捉实体之间的关系,有助于进一步的分析和应用。)

相关提及:相关提及指的是在文本中指向同一实体的单词或短语。例如,如果一个人在文本中被称为“John Smith”,也可以用“Mr. Smith”、“他”这些相关提及来代替他。

句子间关系:句子间关系指的是在多个句子中存在的关系。例如,如果一篇文章中第一句话说“John works at Google”,而第二句话说“Google is a technology company”,那么就可以建立起John与Google之间的关系。

n-ary关系:n-ary关系指的是三个或三个以上实体之间的关系。例如,在句子“John bought a book from the bookstore for $20”中,存在一个由John、书店和书组成的三元关系(即“John购买了从书店购买的书”)。

语料库:GENIA 

a corpus of PubMed articles

10万个生物医学实体

  • 约17%的实体嵌套在另一个实体中

(语料库(Corpus)是指收集和整理的大量文本数据,用于研究自然语言处理、计算机语言学、语言学等领域。这些文本可以来自不同的来源,例如书籍、新闻报道、论文、网页、对话记录等。语料库可分为平衡语料库和非平衡语料库,前者包含各个领域的文本,后者则关注于某个特定领域或主题的文本。语料库的建立和维护需要耗费大量时间和精力,但它们对于语言研究和自然语言处理应用具有重要价值。)

语料库:流行的基准语料库

  • 有10%的提及是不连续的(Wang et al., 2021)

语料库:CDR

1500篇注释了化学诱发疾病关系的PubMed文章,

  • 所有关系中有30%是句子之间的关系

有些关系,如药物-基因-突变相互作用,很难用二元re建模(Zhou et al., 2014)

 

图1:实体和关系提取中复杂性的例子,以及提出的线性化模式来建模它们。CID:化学诱导疾病。GDA:基因与疾病的联系。DGM:药物-基因突变。

复杂性

Example

评论

不连续的提及

对乙酰氨基酚诱发膀胱和肝脏肿瘤。

不间断地提到膀胱肿瘤。

扑热息痛@药物@

膀胱肿瘤@疾病@

@CID@

扑热息痛@药物@

肝脏肿瘤@疾病@

@CID@

共同引用实体提及

原癌基因HER2(又称erbB-2或neu)在乳腺癌的发生和预后中起重要作用。

HER2的两个相关提及。

HER2; erbB-2; neu@基因@

乳腺癌@疾病@

@GDA@

n-ary, inter-

sentence

第19外显子OFEGFR基因缺失突变16例,第21外显子L858E点突变10例。 所有患者均接受吉非替尼治疗,并显示部分应答。

三元DGM关系跨越句子边界。

吉非替尼@药物@

EGFR@基因@

L858E@突变@

@DGM@

文档级关系抽取的现有方法:

基于图的方法

优势:自然建模句子间关系(Peng et al., 2017;Song et al., 2018;Christopoulou等人,2019年;Nan等人,2020年;Minh Tran等人,2020)。

缺点:与所有基于管道的方法一样,这些方法假设文本中的实体是已知的

基于

联合学习提取实体和关系可以提高性能(Miwa和Sasaki, 2014;Miwa和Bansal, 2016年;Gupta等人,2016;Li et al., 2016a, 2017;Nguyen和Verspoor, 2019a;Yu等人,2020)

共享参数和培训步骤,可能会更高效

引出端到端的方法

现有的端到端方法:

通常结合任务特定的组件进行实体提取、共同引用解析和关系提取,这些组件是联合训练的。

缺点:大多数方法局限于句内RE (Bekoulis等人,2018;Luan等,2018;Nguyen和Verspoor, 2019b;Wadden等人,2019年;Giorgi等人,2019年),

最近才扩展到DocRE (Eberts和Ulges, 2021年)。然而,他们仍然关注二元关系

理想情况下,DocRE方法将能够建模上述的复杂性,而不严格要求实体是已知的。

贡献:

重要贡献:

•我们提出了一种新的线性化模式,可以处理以前seq2seq方法忽略的复杂性,如共同引用实体提及和n元关系(§3.1)。

•使用这种线性化模式,我们证明了seq2seq方法能够联合学习DocRE的子任务(实体提取、共参考解析和关系提取),并报告几个流行的生物医学数据集上的首个端到端结果(§5.1)。

在自然语言处理中,联合学习是一种将多个相关任务结合起来学习的方法。对于DocRE子任务,seq2seq方法可以通过同时训练实体识别和关系抽取模型,将两个任务结合起来,从而提高模型的性能。具体来说,通过seq2seq方法,可以将输入序列(包括文本和标记)转换为输出序列(包括实体标签和关系标签),从而实现实体识别和关系抽取的联合学习。这种方法可以减少特征工程的复杂度,提高模型的泛化性能。

"减少特征工程的复杂度,提高模型的泛化性能" 这句话的意思是,通过使用更加智能化的算法和工具,在训练机器学习模型时减少手动选择和处理特征的过程,从而降低了特征工程的复杂度。这样可以提高模型的泛化性能,也就是说,使得训练出来的模型在处理新的数据时表现更好,更具有鲁棒性和通用性。

鲁棒性是指一个系统或模型在面对异常情况下的稳定性和可靠性。在机器学习中,鲁棒性通常用来衡量一个模型在处理噪声、异常值、缺失数据等情况下的表现能力。具有强鲁棒性的模型能够减少这些异常因素对结果的影响,从而提高模型的实用价值和预测准确率。

•我们设计了一个简单的策略,称为“实体暗示”(§3.3),将我们的模型与现有的基于管道的方法进行比较,在某些情况下超过了它们的性能(§5.1)。

2 任务定义:文档级关系提取

通常,E被假定为已知的,并作为模型的输入提供。我们将这些方法称为“基于管道的”。在这篇文章中,我们主要关注E是不给定的,必须由一个(需)模型预测的情况,我们将称之为“端到端”。

3 .我们的方法:seq2rel

3.1线性化

要将seq2seq学习用于RE,必须将要提取的信息线性化为字符串。这种线性化应该具有足够的表达能力,可以为实体和关系提取的复杂性建模,而不会过于冗长。举例说明:

X: Variants in the estrogen receptor alpha (ESR1) gene and its mRNA contribute to risk for schizophrenia.

Y : estrogen receptor alpha ; ESR1 @GENE@

schizophrenia @DISEASE@ @GDA@

输入文本X表达了ESR1schizophrenia之间的基因-疾病关联关系(GDA)。在对应的目标字符串Y中,每个关系都从其组成实体开始。分号分隔了共指提及(,实体以表示其类型的特殊标记(e.g.@GENE@)结束。类似地,关系用一个特殊的标记来表示它们的类型(例如@GDA@)来结束。在关系之前可以包含两个或多个实体,以支持n-ary提取。如果实体充当关系的头部或尾部的特定角色,则可以对它们进行排序。对于每个文档,可以在目标字符串中包含多个关系。输入文本中可以嵌套或不连续。

在图1中,我们提供了该模式如何用于解决各种复杂性的示例,如共同引用实体提及和n-ary关系:

3.2模型

"copied from source tokens" 是一个英语短语,它的意思是“从源token复制”。这个短语可能会在讨论程序代码、计算机编程或者自然语言处理方面的话题时出现。通常情况下,它用于表示将文本或其他类型的数据从一个地方复制到另一个地方,并保留原始格式和标记化信息。

图2:文档级关系抽取的序列到序列模型特殊token由解码器生成。实体提及是通过复制机制从输入中复制的(没有显示)。解码由@START@token启动,并在模型生成@END@token时终止。注意力连接只在第二个时间步中显示,以减少混乱。CID:化学诱导疾病。

"文档级关系抽取seq2rel模型中Attention connections只在第二个时间步中显示以减少混乱" 这句话是指在一个名为 "seq2rel" 的文档级别关系抽取模型中,存在一个名为 "Attention connections" 的功能。该功能只在模型处理输入文本的第二个时间步中被展示出来,这么做是为了减少模型训练过程中的混乱,提高模型的效果和性能。

具体来说,"Attention connections" 是一种基于注意力机制的技术,在处理文本序列时可以帮助模型学习到关键信息。而将其放置在第二个时间步中,可以使模型在第一个时间步处理完输入文本的基本信息后再引入更复杂的功能,避免在初始阶段就引入太多干扰因素,从而提高模型的精度和泛化能力。

总之,将 Attention connections 放在第二个时间步中展示,是一种优化模型训练和推理效果的策略。

该模型遵循规范的seq2seq设置。编码器将输入中的每个标记映射到上下文嵌入。自回归解码器生成一个输出,一个令牌一个令牌,在每个时间步中处理编码器的输出(图2)。解码继续进行,直到生成一个特殊的“序列结束”令牌(@END@),或者生成了最大数量的令牌。

形式上,X是长度为S的源序列,它是一些我们想从中提取关系的文本。Y为对应的目标序列长度T,是源中包含的关系的线性化。我们模拟条件概率

在训练过程中,对模型参数θ对序列交叉熵损失进行优化

最大化训练数据的log-likelihood对数似然

这种RE设置的主要问题是:

1)模型可能会产生“幻觉”,生成源文本中没有出现的实体提及。

2)它可能生成一个目标字符串,不遵循线性化模式,因此不能解析。

3)丢失函数是排列敏感的,强制执行不必要的解码顺序。

最大似然估计(Maximum Likelihood Estimation,MLE

目标是找到一组能够最大化给定训练数据的概率的模型参数。

这句话的意思是,使用最大化训练数据的log-likelihood (对数似然)

为了解决1)我们使用了两个修改:受限的目标词汇表(§3.2.1)和复制机制(§3.2.2)。

3.2.1 Restricted target vocabulary

限制目标词汇

为了防止模型产生“幻觉”(生成源文本中没有出现的实体提及,

以防止模型生成不合法的实体或关系。

目标词汇表被限制为建模实体和关系所需的一组特殊token(例如;和@DRUG@)。所有其他token必须使用复制机制从输入中复制(参见§3.2.2)。这些特殊标记的嵌入是随机初始化的,并与模型的其余参数一起学习

目标词汇表是指在关系抽取任务中,模型能够使用的词汇集合。这个词汇表通常会被限制在实体和关系所需的特殊标记集上,以防止模型生成不合法的实体或关系。

在关系抽取任务中,实体通常是指文本中具有完整语义含义的词汇,例如人名、地名、组织机构名称等。而关系则是指这些实体之间的关联关系,例如“出生于”、“工作于”等。因此,在构建目标词汇表时,通常会包括表示实体和关系的特殊标记,例如“[ORG]”、“[PER]”、“[LOC]”等。

通过限制目标词汇表,可以帮助模型更好地学习实体和关系之间的语义关联,同时也可以避免模型生成不合法的实体或关系。

另外,由于关系抽取任务通常需要处理大量的实体和关系,因此限制目标词汇表还可以有效地减少模型的计算复杂度,提高模型训练和推理的效率。

总的来说,目标词汇表在关系抽取任务中扮演着重要的角色,它不仅可以帮助模型更好地理解实体和关系之间的语义关联,同时还可以有效地减少计算复杂度,提高模型的效率。

3.2.2 Copy mechanism

复制机制

为了在解码期间启用输入标记的复制,我们使用了复制机制(Gu等人,2016a)。该机制通过使用源序列X中的标记有效地扩展目标词汇表,允许模型将这些标记“复制”到输出序列Y中。我们对复制机制的使用类似于以前基于关系抽取的seq2seq方法

在关系抽取任务中,通常需要从文本中提取出实体和它们之间的关系。当我们使用神经网络进行关系抽取时,输入数据通常是变长的文本序列,而输出是固定大小的关系标签序列。

然而,在文本序列中,可能会出现一些罕见的实体名称或专业术语,这些词汇可能不在训练集中出现,导致模型难以正确地预测这些实体和它们之间的关系。这时候,复制机制就可以发挥作用。

复制机制的思想是将未知的实体名称或专业术语直接复制到输出序列中,而不是强制模型去预测它们。具体地说,在解码时,模型可以选择从输入序列复制一个子序列并将其插入输出序列中,从而实现对实体名称或专业术语的复制。这样,即使模型没有在训练集中看到这些词汇,也可以正确地生成相应的输出。

复制机制通常需要结合注意力机制来使用,因为模型需要关注输入序列中哪些部分是需要复制的。通过学习如何对输入序列进行注意力加权,模型可以确定最适合复制的内容,并将其复制到输出序列中。总的来说,复制机制是一个非常有用的技术,可以帮助模型在进行关系抽取任务时更好地处理罕见实体和专业术语,提高模型的准确性。

在关系抽取任务中,我们需要从自然语言文本中识别出实体之间的关系。这些实体标记通常包含在输入序列X中。但是,在解码期间,模型通常只能访问目标输出序列Y中的标记,因此模型需要一种方法来有效地引入输入序列X中的实体标记。

为了解决这个问题,Gu等人(2016a)提出了复制机制。该机制通过动态扩展目标词汇表,允许模型将实体标记“复制”到输出序列Y中。具体而言,模型会为每个输入序列X中的实体标记分配一个位置编码,并将其添加到目标词汇表中。然后,当模型在解码器中遇到一个特殊的“复制”标记时,它可以根据位置编码直接将对应的输入序列中的实体标记复制到输出序列Y中。

例如,假设我们有一个输入序列X为:“John works at Google”,目标序列Y为:“John is an employee of Google”。在使用复制机制的情况下,模型可以将输入序列X中的“Google”标记复制到输出序列Y中,从而正确捕捉实体之间的关系。

总之,复制机制是一种有效的技术,可以帮助模型在解码期间更好地利用输入序列中的实体标记,从而提高关系抽取任务的性能。

为了解决2)我们实验了解码过程中应用的几个约束(§3.2.3)。

3.2.3 Constrained decoding

限制decoder

我们在测试期间对解码器应用了一些约束,以减少生成语法无效的目标字符串(不遵循线性化模式的字符串)的可能性。通过在每个时间步将无效标记预测概率设置为一个极小的值来应用这些约束。在实践中,我们发现一个训练过的模型很少会产生无效的目标字符串,所以这些约束对最终性能的影响很小(见§5.3)。我们决定在剩下的实验中不应用它们

最后,为了解决第三个问题,我们根据它们在源文本中的出现顺序对关系进行排序(§3.2.4)。

3.2.4 Sorting relations

关系排序

从给定文档中提取的关系本质上是无序的。然而,序列交叉熵损失(式2)相对于预测的标记是排列敏感的。在训练过程中,这强制了一个不必要的解码顺序,并可能使模型容易在训练集中过拟合频繁标记组合(Vinyalset al., 2016;Yang等人,2019)。为了部分缓解这一问题,我们根据源文本中出现的顺序对目标字符串中的关系进行排序,从而为模型提供一致的解码顺序。关系的位置第一次出现的对其头部实体的提及决定。提及的位置由其开始和结束字符偏移量的总和决定。对于联结,我们将根据第一次提到的尾部实体进行排序(对于n-ary关系也是如此)。

在关系抽取任务中,通常需要从文本中抽取出实体之间的关系。在这个过程中,需要确定每个实体在文本中的位置以及它们之间的关系类型。具体来说,对于每个关系,需要确定它的头部实体和尾部实体在文本中的位置,以及它们之间的关系类型。

根据给定的数据集,每个关系通常由头部实体、尾部实体和关系类型三个部分组成。为了确定头部实体和尾部实体在文本中的位置,通常需要对文本进行实体识别,并确定每个实体在文本中的位置。实体在文本中的位置通常由实体在文本中的开始字符偏移量和结束字符偏移量的总和确定。

在确定了头部实体和尾部实体在文本中的位置之后,就可以确定关系的位置。根据描述,关系的位置由第一次出现的对其头部实体的提及决定。这意味着,如果头部实体在文本中出现多次,只有第一次出现的实体位置会被用来确定关系的位置。例如,如果文本中有两个“小明”,则只有第一个“小明”会被用来确定关系的位置。

对于联结,也是根据第一次提到的尾部实体进行排序。这意味着,如果一个头部实体与多个尾部实体存在关系,只有第一次提到的尾部实体会被用来确定关系的位置。例如,如果文本中有两个“小明”和一个“小红”,则只有第一次提到的“小明”和“小红”之间的关系会被用来确定关系的位置,而第二次提到的“小明”和“小红”之间的关系不会被用来确定关系的位置。

需要注意的是,对于n-ary关系,也是按照相同的规则来确定关系的位置。具体来说,n-ary关系通常由多个实体之间的关系组成,每个实体在文本中的位置都需要被确定,并根据第一次出现的头部实体和尾部实体来确定关系的位置。

序列交叉熵损失是一种常用的序列分类损失函数,它的计算方式是将模型预测的标记序列与真实标记序列进行比较,然后计算它们之间的交叉熵损失。

然而,序列交叉熵损失相对于预测的标记是排列敏感的。

在序列交叉熵损失中,如果模型预测的标记序列与真实标记序列的顺序不同,那么它们之间的交叉熵损失就会不同。这是因为序列交叉熵损失是对每个位置的预测结果进行损失计算的,而位置的顺序是影响损失计算的重要因素之一。

在关系提取任务中,由于关系本质上是无序的,因此模型的预测结果也应该是无序的。然而,由于序列交叉熵损失的排列敏感性,模型在训练过程中会被迫学习一种特定的标记顺序,这可能会导致过拟合和泛化性能下降。因此,在训练关系提取模型时需要注意这一点,并采用合适的解决方案,如对目标字符串中的关系进行排序,以缓解这个问题。

在实体识别与关系抽取联合学习任务中,需要同时抽取出文本中的实体和实体之间的关系。假设有一个实体识别与关系抽取联合学习任务,需要从输入的文本中抽取出人物实体和人物之间的关系类型,例如“夫妻、父子等”。假设输入的文本为:

“李华和王明是好朋友,他们一起上学,一起打球。”

假设模型的预测结果为:

“李华”、“和”、“王明”、“是”、“好朋友”、“,”、“他们”、“一起”、“上学”、“,”、“一起”、“打球”。

真实标签为:

“李华”、“和”、“王明”、“是”、“好朋友”。

可以看出,模型预测的标记序列与真实标记序列的顺序是不同的。如果按照预测的顺序计算交叉熵损失,则需要将预测的标记序列和真实标签序列都转化为向量形式,然后计算它们之间的交叉熵。假设预测的标记序列向量为y_hat,真实标签序列向量为y,则交叉熵损失可以表示为:

其中,N表示标记序列的长度,K表示标记的种类数,y_hat(i,j)表示模型预测的第i个位置的第j种标记的概率,y(i,j)表示真实标记序列的第i个位置的第j种标记的概率。

在实体识别与关系抽取联合学习任务中,通常需要将实体识别和关系抽取两个任务联合起来进行训练。因此,损失函数通常由实体识别损失和关系抽取损失两部分组成。假设实体识别损失为$\mathcal{L}{ner}$,关系抽取损失为

可以分别采用序列交叉熵损失来计算。

如果按照预测的顺序计算实体识别损失和关系抽取损失,则两部分损失的计算结果会受到顺序的影响。例如,在上述例子中,如果按照预测的顺序计算实体识别损失和关系抽取损失,则两部分损失的计算结果会受到顺序的影响。如果按照预测的顺序计算实体识别损失和关系抽取损失,则实体识别损失为0.240,关系抽取损失为0.100;如果按照真实标签的顺序计算实体识别损失和关系抽取损失,则实体识别损失为0.135,关系抽取损失为0.040。因此,顺序的不同会对实体识别与关系抽取联合学习的损失计算结果产生影响。

序列交叉熵损失和交叉熵损失有什么区别

3.3 Entity hinting

虽然提出的模型可以从无注释的文本中联合提取实体和关系,但大多数现有的DocRE方法都将实体作为输入。因此,为了更公平地与现有方法进行比较,我们还提供实体作为输入,使用一种称为“实体提示”的简单策略。这涉及到当实体在目标字符串中出现时,将它们添加到源文本的前面。添加实体提示如下:

X: estrogen receptor alpha ; ESR1 @GENE@ schizophrenia @DISEASE@SEP@ Variants in the estrogen receptor alpha (ESR1) gene and its mRNA contribute to risk for schizophrenia.

其中特殊的@SEP@令牌划分了实体提示的结束。我们尝试了在每个提到的实体之前和之后插入标记标记的常见方法,但发现这种方法的性能更差。我们的方法在源文本中添加了较少的额外标记,并为复制机制提供了一个可聚焦的位置,即@SEP@的左侧。

4 Experimental setup

4.1 Datasets

CDR

BioCreative V CDR任务语料库手动注释化学品、疾病和化学品诱发疾病(CID)关系。它包含1500篇PubMed文章的标题和摘要,并被分成同等大小的训练、验证和测试集。鉴于训练集的规模相对较小,我们跟随Christopoulou等人(2019)和其他人,首先在验证集上调整模型,然后在测试集上进行评估之前,对训练集和验证集的组合进行训练。与之前的工作类似,我们过滤与疾病实体的负关系,这些疾病实体是同一摘要中对应的真实关系疾病实体的上位关系

GDA

基因-疾病关联语料库包含PubMed文章的30192个标题和摘要,这些文章通过远程监控自动标记出基因、疾病和基因-疾病关联。测试集由1000个这样的示例组成。在Christopoulou等人(2019)和其他人之后,我们随机拿出剩余20%的摘要作为验证集,并将其余的用于训练。

DGM

药物-基因突变语料库包含4606篇PubMed文章,这些文章通过远程监督自动标记药物、基因、突变以及药物-基因突变三元关系。数据集有三种变体:句子、段落和文档长度文本。我们根据段落长度的输入来训练和评估我们的模型。因为测试集不包含段落级别的关系注释,所以我们报告验证集的结果。我们随机拿出20%的训练示例,形成用于调优的新验证集

DOCRED

DocRED包括超过5000个来自维基百科的人类注释文档。共有6个实体和96种关系类型,其中超过句子边界的关系占40%。我们使用与以前的端到端方法(Eberts和Ulges, 2021)相同的分割方式,在训练集中有3,008个文档,在验证集中有300个文档,在测试集中有700个文档。

4.2 Evaluation

本文提供了一种sequence-to-sequence文档级关系抽取的方法,可以处理之前seq2seq方法忽略的复杂性,如共指提及和n-ary关系。该文章有它的可取之处,但仍存在一些不足:

  • 如果要与现有的pipeline提取方法比较性能的话,还需要实体提示,即在需要提取关系的文本前面列出文本中的所有相关实体。
  • 由于预先训练过的编码器的输入大小限制(512令牌),我们的实验是在段落长度的文本上进行的,不能用于完整的科学论文的关系抽取。
  • 编码器需要预训练,而解码器是从头开始训练。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值