DocRED: A Large-Scale Document-Level Relation Extraction Dataset

Abstract

文档中的多个实体通常表现出复杂的句子间关系,现有的关系提取方法通常侧重于提取单个实体对的句子内关系,无法很好地处理这些关系。为了加速文档级RE的研究,我们引入了一个基于维基百科和维基数据构建的新数据集DocRED,它具有以下三个特征:(1)DocRED对命名实体和关系都进行了标注,是目前最大的纯文本文档级RE人工标注数据集;(2) DocRED要求阅读文档中的多个句子,通过综合文档的所有信息提取实体并推断它们之间的关系;(3)除了人工标注的数据外,我们还提供了大规模的远程监督数据,这使得DocRED既可以用于监督场景,也可以用于弱监督场景。为了验证文档级RE的挑战,我们实施了最新的最先进的RE方法,并在DocRED上对这些方法进行了彻底的评估。实证结果表明,DocRED对现有的RE方法提出了挑战,这表明文档级RE仍然是一个悬而未决的问题,需要进一步努力。在对实验结果进行详细分析的基础上,讨论了今后的研究方向。我们在https: //github.com/thunlp/DocRED公开提供DocRED和基线代码。

1 Introduction

关系抽取(RE)的任务是从纯文本中识别实体之间的关系事实,在大规模知识图谱的构建中起着重要作用。大多数现有的RE工作集中在句子级RE,即从单个句子中提取关系事实。近年来,人们探索了各种神经模型来编码句子级RE的实体关系模式,并实现了最先进的性能(Socher et al., 2012;Zeng et al.,2014, 2015;dos Santos等人,2015;肖和刘,2016;Cai et al., 2016;Lin et al., 2016;Wu et al.,2017;秦等人,2018;Han等人,2018a)

 图1:来自DocRED的一个例子。DocRED中的每个文档都有命名实体提及、共同参考信息、句子内和句子间关系以及支持证据的注释。为本示例文档注释的19个关系实例中有2个被显示,这些实例中涉及的命名实体以蓝色表示,其他命名实体以下划线表示。注意,提到的相同主题(例如,Kungliga Hovkapellet和Royal Court Orchestra)在第一个关系实例中被识别出来。

尽管这些努力取得了成功,但句子级RE在实践中不可避免地受到限制:大量的关系事实在多个句子中表达。以图1为例,文档中提到了多个实体,并展示了复杂的交互。[c] .中国科学院学报(自然科学版);为了确定关系事实(Riddarhuset, country, Sweden),我们必须首先从第4句中确定Riddarhuset位于斯德哥尔摩的事实,然后从第1句中确定斯德哥尔摩是瑞典的首都和瑞典是一个国家的事实,最后从这些事实推断出Riddarhuset的主权国家是瑞典。该过程需要对文档中的多个句子进行阅读和推理,这在直观上超出了句子级正则方法的范围。根据我们从维基百科文档中抽取的人工注释语料库的统计,至少有40.7%的关系事实只能从多个句子中提取出来,这是不容忽视的。Swampillai和Stevenson(2010)以及Verga等人(2018)也报告了类似的观察结果。因此,有必要将RE从句子级提升到文档级。

文档级正则化的研究需要一个大规模的标注数据集来进行训练和评估。目前,文档级RE的数据集很少。Quirk和Poon(2017)以及Peng等人(2017)构建了两个远程监督的数据集,没有人工注释,这可能会使评估的可靠性降低。BC5CDR (Li et al., 2016)是一个由1500篇PubMed文档组成的人工注释文档级RE数据集,它属于生物医学的特定领域,仅考虑“化学诱导疾病”关系,因此不适合开发文档级RE的通用方法。Levy et al.(2017)通过使用阅读理解方法回答问题从文档中提取关系事实,其中问题从实体关系对转换。由于本工作中提出的数据集是针对特定方法量身定制的,因此它也不适合用于文档级RE的其他潜在方法。总之,文档级RE的现有数据集要么只有少量手动注释的关系和实体,要么显示来自远程监督的噪声注释,要么服务于特定领域或方法。为了加快文档级RE的研究,我们迫切需要一个大规模的、人工标注的、通用的文档级RE数据集

在本文中,我们提出了DocRED,这是一个基于维基百科和维基数据构建的大规模人工注释文档级RE数据集(Erxleben et al., 2014;vandeci [c] and Kr ' otzsch, 2014)。DocRED具有以下三个特征:(1)DocRED包含在5053个维基百科文档上标注的132,375个实体和56,354个关系事实,使其成为最大的人工标注文档级RE数据集。(2)由于DocRED中至少有40.7%的关系事实只能从多个句子中提取,因此DocRED需要阅读文档中的多个句子来识别实体,并通过综合文档的所有信息来推断它们之间的关系。这将DocRED与那些句子级RE数据集区分开来。(3)我们还提供了大规模的远程监督数据来支持弱监督的RE研究。

为了评估DocRED的挑战,我们采用了最新的最先进的RE方法,并在不同的设置下对DocRED进行了彻底的实验。实验结果表明,现有方法在DocRED上的性能明显下降,说明任务文档级RE比句子级RE更具挑战性,仍然是一个有待解决的问题。此外,对结果的详细分析也揭示了许多值得追求的有希望的方向。

2 Data Collection

我们的最终目标是从纯文本构建文档级正则的数据集,这需要必要的信息,包括命名实体提及、实体共同引用和文档中所有实体对的关系。为了方便更多的RE设置,我们还为关系实例提供了支持性证据信息。在接下来的章节中,我们首先介绍了人工标注数据的收集过程,然后描述了大规模远程监督数据的创建过程。

2.1 Human-Annotated Data Collection

我们的人工注释数据是分四个阶段收集的:(1)为维基百科文档生成远程监督注释。(2)在文件和共参考信息中标注所有提及的命名实体。(3)链接命名实体提及到维基数据项目。(4)标注关系及相应的支持证据。

在ACE标注过程之后(Doddington et al., 2004),阶段2和阶段4都需要对数据进行三次迭代传递:(1)使用命名实体识别(NER)模型生成命名实体,或使用远程监督和RE模型生成关系推荐。(2)人工纠错补充建议。(3)回顾并进一步修改第二遍的标注结果,提高准确性和一致性。为了确保注释者得到良好的训练,采用了一个原则性的训练过程,并且在注释数据集之前要求注释者通过测试任务。只有经过精心挑选的经验丰富的注释人员才有资格进行第三次注释

为了提供文本和知识库之间的强一致性,我们的数据集是由完整的英文维基百科文档集合和Wikidata 1构建的,Wikidata 1是一个与维基百科紧密集成的大型知识库。我们使用维基百科文档中的介绍部分作为语料库,因为它们通常是高质量的,并且包含了大多数关键信息。

阶段1:远程监督注释生成。为了选择供人类注释的文档,我们在远程监督假设下将维基百科文档与维基数据对齐(Mintz et al., 2009)。具体来说,我们首先使用spaCy2执行命名实体识别。然后将这些命名实体提及链接到Wikidata项目,在那里合并具有相同KB id的命名实体提及。最后,通过查询Wikidata标记文档中每个合并的命名实体对之间的关系。少于128个单词的文档将被丢弃。为了鼓励推理,我们进一步丢弃包含少于4个实体或少于4个关系实例的文档,从而得到107,050个具有远程监督标签的文档,其中我们随机选择5,053个文档和最常见的96个关系进行人工注释。

阶段2:命名实体和共同引用注释。从文档中提取关系需要首先识别命名实体提及,并识别引用文档中相同实体的提及。为了提供高质量的命名实体提及和共同引用信息,我们要求人类注释者首先审查、纠正和补充在阶段1中生成的命名实体提及建议,然后合并那些引用相同实体的不同提及,这提供了额外的共同引用信息。由此产生的中间语料库包含各种命名实体类型,包括不属于上述类型的人、地点、组织、时间、数量和其他实体的名称

阶段3:实体链接。在这个阶段,我们将提到的每个命名实体链接到多个Wikidata项目,为下一阶段提供远程监督的关系建议。具体地说,提到的每个命名实体都与一个Wikidata项目候选集3相关联,该候选集由名称或别名与之匹配的所有Wikidata项目组成。我们进一步扩展候选集,使用维基数据项目超链接到文档作者提到的命名实体,以及实体链接工具包TagMe的推荐(Ferragina和Scaiella, 2010)。特别是,数字和时间在语义上是匹配的

第四阶段:关系和支持性证据收集。第二阶段的关联和支持证据标注是基于被命名实体提及和共引用信息,面临两个主要挑战。

第一个挑战来自文档中大量潜在的实体对。一方面,考虑到文档中潜在实体对的数量是实体数量的二次元(平均19.5个实体),详尽地标记每个实体对之间的关系会导致大量的工作量。另一方面,文档中的大多数实体对不包含关系。第二个挑战在于我们的数据集中有大量细粒度的关系类型。因此,注释者不可能从头开始标记关系。

我们通过向人类注释者提供来自RE模型的建议和基于实体链接的远程监督(阶段3)来解决这个问题。平均而言,我们从实体链接中推荐每个文档19.9个关系实例,从RE模型中推荐7.8个关系实例进行补充。我们要求注释者审查建议,删除不正确的关系实例并补充遗漏的关系实例。我们还要求注释者进一步选择支持保留关系实例的所有句子作为支持证据。关系保留必须反映在文件中,而不依赖于外部世界知识。最后,保留实体链接中的57.2%关系实例和RE模型中的48.2%关系实例。

 表1:RE数据集统计(Doc.;:文档,已发送。句子,句子。:实体,Rel:关系类型,Inst:关系实例,Fact:关系事实)。前四个是句子级RE数据集。

2.2 Distantly Supervised Data Collection

除了人工标注的数据,我们还收集了大规模的远程监督数据,以促进弱监督的RE场景。我们从106,926个文档中删除了5,053个人工注释的文档,并使用其余的101,0873个文档作为远程监督数据的语料库。为了确保远程监督数据和人工注释数据共享相同的实体分布,使用transform(BERT) (Devlin等人,2019)的双向编码器表示重新识别命名实体提及,该表示对第2.1节收集的人工注释数据进行微调,并达到90.5% F1分数。我们通过一种基于启发式的方法将每个提到的命名实体链接到一个维基数据项,该方法联合考虑目标维基数据项的频率及其与当前文档的相关性。然后,我们将命名实体提及与相同的KB id合并。最后,通过远程监督标记每个合并实体对之间的关系

3 Data Analysis

在本节中,我们将分析DocRED的各个方面,以便更深入地了解数据集和文档级RE的任务

数据的大小。表1显示了DocRED和一些代表性RE数据集的统计数据,包括句子级RE数据集semeval2010 Task 8 (Hendrickx等,2010)、ACE 2003-2004 (Doddington等,2004)、TACRED (Zhang等,2017)、FewRel (Han等,2018b)和文档级RE数据集BC5CDR (Li等,2016)。我们发现DocRED在许多方面都比现有数据集大,包括文档、单词、句子、实体的数量,特别是在关系类型、关系实例和关系事实方面。我们希望大规模DocRED数据集能够推动从句子级到文档级的关系抽取。

命名实体类型。DocRED涵盖多种实体类型,包括人员(18.5%)、地点(30.9%)、组织(14.4%)、时间(15.8%)和数字(5.1%)。它还包括不属于上述类型的各种各样的实体名称(15.2%),如事件、艺术作品和法律。每个实体平均被注释1.34次。

关系类型。我们的数据集包括来自维基数据的96种频繁关系类型。我们数据集的一个值得注意的特性是,关系类型涵盖了广泛的类别,包括与科学(33.3%)、艺术(11.5%)、时间(8.3%)、个人生活(4.2%)等相关的关系,这意味着关系事实不受任何特定领域的约束。此外,将关系类型组织在定义良好的层次结构和分类法中,这可以为文档级RE系统提供丰富的信息

推理类型。我们从开发和测试集中随机抽取300个文档,其中包含3,820个关系实例,并手动分析提取这些关系所需的推理类型。表2显示了我们数据集中主要推理类型的统计信息。从推理类型的统计中,我们有以下观察:(1)大多数关系实例(61.1%)需要识别推理,只有38.9%的关系实例可以通过简单的模式识别提取,这表明推理是文档级RE的必要条件。(2)在具有推理的关系实例中,大多数(26.6%)需要逻辑推理,其中两个实体之间的关系是通过桥实体间接建立的。逻辑推理要求RE系统能够对多个实体之间的交互进行建模。(3)显著数量的关系实例(17.6%)需共引用推理,其中必须首先执行共引用解析以在丰富的上下文中识别目标实体。(4)同样比例的关系实例(16.6%)需要基于常识推理来识别,读者需要将文档中的关系事实与常识相结合来完成关系识别。总之,DocRED需要丰富的推理技能来综合文档的所有信息。

 表2:DocRED上文档级RE所需的推理类型。剩下的0.3%需要其他类型的推理,比如时间推理。头,尾和关系相应着色。

句间关系实例。我们发现每个关系实例平均与1.6个支持句相关联其中46.4%的关系实例与一个以上的支持句相关联。此外,详细分析表明,40.7%的关系事实只能从多个句子中提取出来,这表明DocRED是一个很好的文档级RE的基准。我们也可以得出结论,多句子的阅读、综合和推理能力对于文档级RE是必不可少的。

4 Benchmark Settings

我们分别为监督和弱监督场景设计了两个基准设置。对于这两种设置,RE系统都在高质量的人工注释数据集上进行评估,这为文档级RE系统提供了更可靠的评估结果。这两种设置使用的数据统计如表3所示。

 表3:两种基准设置(第4节)的数据统计:监督设置(S)和弱监督设置(W)。

监督设置。在这种情况下,只使用人工注释的数据,这些数据随机分为训练集、开发集和测试集。受监管的设置为文档级RE系统带来了以下两个挑战:

第一个挑战来自执行文档级RE所需的丰富推理技能。如第3节所示,大约61.1%的关系实例依赖于复杂的推理技能,而不是要提取的模式识别,这要求RE系统超越识别单个句子中的简单模式,并对文档中的全局和复杂信息进行推理。

第二个挑战在于长文档建模的高计算成本和文档中大量潜在的实体对,这与文档中的实体数量(平均19.5个实体)是二次的。因此,使用二次甚至更高计算复杂度的算法对上下文信息建模的RE系统,例如(Sorokin和Gurevych, 2017;Christopoulou et al., 2018)对于文档级RE来说效率不够高。因此,上下文感知RE系统的效率需要进一步提高,才能适用于文档级RE.

弱监督设置。该设置与监督设置相同,只是训练集被远程监督数据取代(第2.2节)。除了上述两个挑战之外,伴随远程监督数据的不可避免的错误标注问题是弱监督设置下RE模型的主要挑战。许多研究都致力于缓解句子级RE中的错误标注问题(Riedel et al., 2010;Hoffmann et al., 2011;Surdeanu et al., 2012;Lin et al., 2016)。然而,文档级远程监督数据中的噪声明显大于句子级中的噪声。例如,在人工标注数据收集的第4阶段(第2.1节)中,对于头尾实体共同出现在同一句子中的推荐关系实例(即句子内关系实例),41.4%被标记为不正确,而61.8%的句子间关系实例被标记为不正确,这表明错误标记问题对于弱监督文档级正则来说更具挑战性。我们相信在DocRED中提供远程监督数据将加速文档级RE远程监督方法的发展。此外,还可以联合利用远程监督数据和人工注释数据来进一步提高RE系统的性能。

5 Experiments

为了评估DocRED的挑战,我们在数据集上进行了全面的实验来评估最先进的RE系统。具体来说,我们在监督和弱监督基准设置下进行实验。我们还评估了人的表现,并分析了不同支持证据类型的表现。此外,我们还进行了消融研究,以探讨不同特征的贡献。通过详细的分析,我们讨论了文档级RE的几个未来发展方向。

模型。我们将四种最先进的RE模型应用于文档级RE场景,包括基于CNN (Zeng et al., 2014)的模型、基于LSTM (Hochreiter and Schmidhuber, 1997)的模型、基于双向LSTM (BiLSTM) (Caiet al., 2016)的模型和基于上下文感知的模型(Sorokin and Gurevych, 2014)的模型。2017)最初设计用于利用上下文关系来改善句子内RE。前三个模型仅在用于编码文档的编码器上有所不同,并将在本节的其余部分中详细解释。由于篇幅限制,我们建议读者参阅原文了解上下文感知模型的细节.

基于CNN/LSTM/BiLSTM的模型首先将包含n个单词的文档D = {wi} n i=1编码为以CNN/LSTM/BiLSTM为编码器的隐藏状态向量序列{hi} n i=1,然后计算实体的表示,最后预测每个实体对之间的关系。

对于每个词,馈送到编码器的特征是其GloVe词嵌入(Pennington et al., 2014)、实体类型嵌入和共指嵌入的拼接。实体类型嵌入是通过使用嵌入矩阵将分配给单词的实体类型(例如PER, LOC, ORG)映射到向量中来获得的。对于人工标注的数据,实体类型由人工指定;对于远程监督的数据,实体类型由一个微调的BERT模型指定。与同一实体对应的命名实体提及被分配为相同的实体id,这是由其在文档中首次出现的顺序决定的。并将实体id映射为向量作为共参考嵌入.

 

表4:不同RE模型在DocRED上的表现(%)。

 Table 5: Human performance (%).

 评价指标。在我们的实验中使用了两个广泛使用的度量F1和AUC。然而,在训练集和开发/测试集中都存在一些关系事实,因此模型可能在训练期间记住它们的关系,并以一种不希望的方式在开发/测试集上获得更好的性能,从而引入评估偏差。然而,训练集和开发/测试集之间的关系事实的重叠是不可避免的,因为许多常见的关系事实可能在不同的文档中共享。因此,我们还报告了F1和AUC分数,不包括训练集和开发/测试集共享的那些关系事实,分别表示为Ign F1和Ign AUC。

模型的性能。表4显示了监督和弱监督设置下的实验结果,从中我们可以得出以下观察结果:(1)使用人工注释数据训练的模型通常优于远程监督数据训练的模型。这是因为尽管通过远程监督可以很容易地获得大规模的远程监督数据,但错误的标签问题可能会损害RE系统的性能,这使得弱监督设置成为一个更加困难的场景。(2)一个有趣的例外是,在远程监督数据上训练的LSTM、BiLSTM和上下文感知的F1得分与在人工注释数据上训练的F1得分相当,但在其他指标上的得分明显较低,这表明训练集和开发/测试集之间的实体对重叠确实会导致评估偏差。因此,必须报告Ign F1和Ign AUC。(3)利用丰富上下文信息的模型通常可以获得更好的性能。LSTM和BiLSTM表现优于CNN,表明在文档级RE中长依赖语义建模的有效性。上下文感知实现了竞争性性能,但不能显著优于其他神经模型。这表明在文档级RE中考虑多个关系的关联是有益的,而现有的模型不能很好地利用相互关系的信息。人类的性能。为了评估人类在DocRED上完成文档级RE任务的表现,我们从测试集中随机抽取100个文档,并要求额外的人群工作人员识别关系实例和支持证据。以与2.1节相同的方式识别的关系实例被推荐给众包工作者以帮助他们。第2.1节收集的原始注释结果被用作基础真值。提出了关联实例和支持证据联合识别的子任务,并设计了一个管道模型。表5显示了RE模型和人的性能。人类在文档级RE任务(RE)和共同识别关系和支持证据任务(RE+Sup)上都取得了竞争性的结果,这表明人类在DocRED上的上限性能和注释者间的一致性都相对较高。此外,RE模型的整体性能明显低于人类的性能,这表明文档级RE是一项具有挑战性的任务,并且有很大的改进空间。

人类的性能。为了评估人类在DocRED上完成文档级RE任务的表现,我们从测试集中随机抽取100个文档,并要求额外的人群工作人员识别关系实例和支持证据。以与2.1节相同的方式识别的关系实例被推荐给众包工作者以帮助他们。第2.1节收集的原始注释结果被用作基础真值。提出了关联实例和支持证据联合识别的子任务,并设计了一个管道模型。表5显示了RE模型和人的性能。人类在文档级RE任务(RE)和共同识别关系和支持证据任务(RE+Sup)上都取得了竞争性的结果,这表明人类在DocRED上的上限性能和注释者间的一致性都相对较高。此外,RE模型的整体性能明显低于人类的性能,这表明文档级RE是一项具有挑战性的任务,并且有很大的改进空间

性能vs .支持证据类型。文档级正则需要从多个支持句子中综合信息。为了研究从不同类型的支持证据中合成信息的难度,我们将发展集中的12,332个关系实例分为三个不相交的子集:(1)只有一个支持句的6,115个关系实例(表示为单个);(2)包含多个支持句的关系实例和实体对在至少一个支持句中同时出现(记为混合)的关系实例有1062个;(3) 4,668个具有多个支持句和实体对的关系实例不同时出现在任何一个支持句中,即只能从多个支持句中提取(记为multiple)。需要注意的是,当模型预测错误的关系时,我们不知道哪些句子被用作支持证据,从而无法将预测的关系实例分类到上述子集中,计算精度也不可行。因此,我们只报告了每个子集的RE模型召回率,单个子集的召回率为51.1%,混合子集的召回率为49.4%,多个子集的召回率为46.6%。这表明,虽然混合的多个支持句可以提供互补的信息,但有效地综合丰富的全局信息是一个挑战。此外,在多个方面的糟糕表现表明,RE模型在提取句子间关系方面仍然存在困难。

功能的替代品。我们对BiLSTM模型进行特征消融研究,考察不同特征在文档级RE中的贡献,包括实体类型、共同参考信息和实体之间的相对距离(Eq. 1)。表6显示,上述特征都对性能有贡献。具体来说,实体类型的贡献最大是因为它们对可行关系类型的约束。共同参考信息和实体之间的相对距离对于从多个命名实体提及中合成信息也很重要。这表明RE系统在文档级别利用丰富的信息是很重要的。

支持证据预测。我们提出了一个新的任务来预测关系实例的支持证据。一方面,联合预测证据提供了更好的可解释性。另一方面,从文本中识别支持证据和推理关系事实是具有潜在相互增强的双重任务。我们设计了两种支持证据预测的方法:(1)启发式预测。我们实现了一个简单的基于启发式的模型,该模型考虑所有包含头部或尾部实体的句子作为支持证据。(2)神经预测器。我们还设计了一个神经支持证据预测器。给定实体对和预测关系,首先通过词嵌入和位置嵌入的连接将句子转换为输入表示,然后将其馈送到BiLSTM编码器中进行上下文表示。受Yang等人(2018)的启发,我们将BiLSTM在第一个和最后一个位置的输出与可训练的关系嵌入连接起来,以获得句子的表示,用于预测该句子是否被用作给定关系实例的支持证据。表7显示,神经预测器在预测支持证据方面明显优于启发式基线,这表明了RE模型在联合关系和支持证据预测方面的潜力。

 Table 6: Feature ablations on dev set (%).

 讨论。从以上的实验结果和分析可以看出,文档级RE比句子级RE更具挑战性,需要付出更多的努力来缩小RE模型与人类之间的差距。我们认为以下研究方向值得关注:(1)探索明确考虑推理的模型;(2)为句子间信息的收集和综合设计更具表现力的模型架构;(3)利用远程监督数据提高文档级RE的性能。

6 Related Work

近年来,针对RE构建了各种各样的数据集,极大地促进了RE系统的发展。Hendrickx等人(2010)、Doddington等人(2004)和Walker等人(2006)用相对有限的关系类型和实例构建了人工注释的RE数据集。Riedel等人(2010)通过远程监督将纯文本与知识库对齐,自动构建RE数据集,存在错误标注问题。Zhang等人(2017)和Han等人(2018b)进一步将外部推荐与人工注释相结合,构建大规模的高质量数据集。然而,这些正则数据集将关系限制为单句

由于文档比句子提供更丰富的信息,将研究从句子级别转移到文档级别是许多领域的流行趋势,包括文档级别的事件提取(Walker et al., 2006;Mitamura等人,2015,2017),事实提取和验证(Thorne等人,2018),阅读理解(Nguyen等人,2016;Joshi et al., 2017;Lai et al., 2017),情感分类(Pang and Lee, 2004;pretenhofer和Stein, 2010),摘要(Nallapati等人,2016)和机器翻译(Zhang等人,2018)。最近,一些文档级的正则数据集也被构造了出来。然而,这些数据集要么是通过远程监督构建的(Quirk和Poon, 2017;Peng et al., 2017)存在不可避免的错误标记问题,或者在特定领域受到限制(Li et al., 2016;彭等人,2017)。相比之下,DocRED是由具有丰富信息的群体工作者构建的,并且不局限于任何特定领域,这使得它适合于训练和评估通用的文档级RE系统。

7 Conclusion

为了将RE系统从句子级提升到文档级,我们提出了一个大型文档级RE数据集DocRED,该数据集具有数据大、对多个句子的阅读和推理要求,以及为促进弱监督文档级RE的发展而提供的远程监督数据。实验表明,人类的表现明显高于RE基线模型,这表明未来有足够的改进机会。

8 Acknowledgement

国家重点研发计划项目(No. 2018YFB1004503)、国家自然科学基金项目(No. 61572273)、中国科学技术协会项目(No. 2016QNRC001)资助这项工作也得到了模式识别中心、微信AI、腾讯公司的支持。他还获得了2018年腾讯犀牛鸟精英培训计划的支持。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值