Machine Learning vs. Rules and Out-of-the-Box vs. Retrained

Machine Learning vs. Rules and Out-of-the-Box vs. Retrained: An Evaluation of Open-Source Bibliographic Reference and Citation Parsers

题目:机器学习与规则和开箱即用与再训练:对开源书目参考和引文解析器的评估
摘要
书目参考解析是指从书目参考字符串中提取机器可读元数据,例如作者姓名,标题或期刊名称。到目前为止,已经提出了许多解决该问题的方法,包括正则表达式,知识库和监督机器学习。许多基于各种算法的开源参考解析器也是可用的。在本文中,我们应用,评估和比较特定业务用例中的十个参考解析工具。这些工具包括Anystyle-Parser,Biblio,CERMINE,Citation,Citation-Parser,GROBID,ParsCit,PDFSSA4MET,Reference Tagger和Science Parse,我们将它们与开箱即用的版本和调整到项目的版本进行比较特定数据。根据我们的评估,表现最佳的开箱即用工具是GROBID(F1 0.89),其次是CERMINE(F1 0.83)和ParsCit(F1 0.75)。我们还发现,尽管基于机器学习工具和基于规则或正则表达式工具实现了平均相似的精度(0.77 vs 0.76 non-ML-based工具),应用基于机器学习工具导致召回的三倍non-ML-based工具(0.66和0.22)。我们的研究还证实,将模型调整为任务特定数据可以提高质量。在所有情况下,参考解析器的再训练版本比它们开箱即用的对应物更好; GROBID F1增加3%(0.92对0.89),CERMINE增加11%(0.92对0.83),ParsCit增加16%(0.87对0.75)。
CCS CONCEPTS

CCS的概念
信息系统→信息系统应用程序;数码图书馆及档案

1引言
在过去几十年中,现有科学文献的数量呈指数增长[1]。 这导致了科学的信息过载问题,这是指与感兴趣的读者消费大量信息有关的挑战。 科学信息系统和数字图书馆通过提供智能信息检索和推荐服务,帮助研究人员解决科学信息过载问题。 这些服务需要机器可读,丰富的存储文档的书目元数据才能正常运行,但实际上并不总能满足这一要求。 因此,对能够直接从科学非结构化数据中提取高质量机器可读书目元数据信息的自动化方法和工具存在巨大需求。
参考解析是该研究领域的一项重要任务。 在引用解析中,输入是单个引用字符串,通常以特定的参考书目样式格式化(图1)。 输出是输入字符串的机器可读表示,通常称为解析引用(图2)。 这种解析的表示是元数据字段的集合,每个元数据字段由字段类型(例如“卷”或“日志”)和值(例如“12”或“自然”)组成。
 
图一
 
图二 参考解析任务的示例输出,其是来自图1的参考字符串的机器可读表示。该表示是元数据字段的集合,每个元数据字段由字段类型和值组成。 对于此参考,提取了以下元数据字段类型:作者,标题,日记,卷,问题,第一页,最后一页,年份和doi。

书目参考解析对于诸如引用文献[2]的引用,评估研究人员[3,4],期刊[5,6]和研究机构[7,8]的影响以及计算文档相似性等任务非常重要[9] ,10],在学术搜索引擎[11,12]和推荐系统[13,14]的背景下。

引用解析可以看作是将书目记录格式化为字符串的过程。在格式化过程中,一些信息丢失了,因此反向过程不是一个简单的任务,通常会导致错误。

有一些与引用解析相关的挑战。首先,引用对象的类型(期刊文章、会议出版物、专利等等)通常是未知的,因此我们不知道可以提取哪些元数据字段。其次,引用样式未知,因此我们不知道在字符串中特定元数据字段的位置。最后,引用字符串通常包含错误,这些错误要么是在向论文添加引用时由人类引入的,要么是在从科学出版物中提取字符串本身的过程中引入的。这些错误包括OCR错误、单词中未预料到的空格、缺失的空格、拼写错误和特定于样式的标点错误

最流行的引用解析方法包括正则表达式、模板匹配、知识库和监督机器学习。还有一些开放源码引用解析器可以使用。但是,对于给定的元数据字段类型,哪种方法和哪种开源解析器给出了最好的结果尚不清楚。此外,现有的一些解析器可以根据感兴趣的数据进行调优。从理论上讲,这个过程应该会提高结果的质量,但它也很耗时,并且需要训练数据,而获取这些数据通常比较昂贵。一个重要的问题是,在再培训之后,质量的提高应该有多高。这些方面对于为科学数据开发更大的信息提取系统的研究人员和程序员以及希望在其基础设施中使用现有书目参考解析器的数字图书馆从业者来说非常重要

在本研究中,我们将应用、评估和比较一些现有的参考分析工具,包括它们的开箱即用和重新训练的版本,并将它们应用到一个涉及到来自化学领域的数据的实际业务项目中。具体来说,我们对以下问题感兴趣:
1. 对于我们的用例,引用解析工具有多好?
2. 基于机器学习的方法的结果如何与更静态的、不可训练的方法(如正则表达式或规则)的结果进行比较?
3.使用特定于项目的数据重新培训机器学习模型对解析结果有多大影响?
在下面的部分中,我们将描述技术的状态,给出业务用例的更大上下文,列出我们评估的工具,描述评估设置并报告结果。最后,我们讨论了研究结果和目前的结论。

2相关工作
引用解析是一个众所周知的研究问题,多年来,人们提出了许多技术来解决这个问题,包括正则表达式、模板匹配、知识库和监督机器学习。

正则表达式是处理引用解析任务的一种简单方法。这种方法通常基于一组手动开发的正则表达式,这些正则表达式能够以不同的引用样式捕获单个或多个元数据字段。如果要处理的引用样式是预先知道的,并且数据中包含的噪音很小,那么这种策略的效果最好。在实践中,维护一个基于正则表达式的系统是很有挑战性的,要不断地调整使用的正则表达式集以适应不断变化的数据

正则表达式通常与其他技术相结合,比如手工编写的规则或知识库。在以知识为基础的方法中,系统一开始由从可用数据和/或现有外部资源(如数字图书馆)中提取的知识填充。在实际的解析过程中,输入引用字符串的片段将与知识库中的信息进行匹配。这种方法最适用于值倾向于形成封闭集的字段,比如期刊标题或姓氏

Gupta等人提出了一种基于正则表达式的启发式和基于知识的系统相结合的参考分析方法。此外,他们的方法能够将内联引用与相应的参考书目相匹配。

Constantin等人描述了一个基于规则和正则表达式的系统,称为PDFX。PDFX实际上是一个能够以PDF格式提取学术文章逻辑结构(包括已解析的参考书目)的大型系统

Day等人使用了一个名为INFOMAP的分层知识表示框架来从引用字符串中提取元数据。他们报告了从六种主要参考格式的参考文献中提取作者、标题、期刊、卷、期、年和页的准确率为92.39%。

最后,Cortez等人[18]提出了FLUX-CiM,一种基于知识库的引用解析方法,该知识库由从公共数据存储库获得的一组现有的样本元数据记录自动构建。根据他们的结果,FLUX-CiM对于广泛的元数据字段可以达到94%以上的精度和召回率。

在模板匹配方法中,首先根据模板数据库匹配引用,然后使用模板特定的规则或正则表达式。

例如,Hsieh等人提出了一种基于序列比对的引用解析算法。他们报告说,与广泛使用的基于机器学习的方法相比,平均字段错误率降低了70%(2.24%对7.54%)。

Chen等人描述了一个名为BibPro的工具,它能够使用基因序列比对工具(基本的局部比对搜索工具)从引用字符串中提取元数据。

最流行的引用解析方法是监督机器学习。在这种方法中,训练数据用于学习所谓的模型,实
际解析过程中用于从输入字符串提取元数据。这种方法几乎不需要专家知识,因为模式是直
接从培训数据中学习的。在基于机器学习的方法中,可维护性也是一个重要的关注点,然而,
通过在较新的数据上反复对模型进行再培训,相对容易确保模型是最新的。

在基于监督机器学习的方法中,引用解析通常被正式定义为一个序列标记问题。在序列标注问题中,在输入端有一个由特征表示的对象序列,目标是分配一个对应的标签序列,不仅要考虑特征本身,还要考虑序列中直接相邻标签与间接相邻标签之间的依赖关系。

要使序列标记器对引用解析任务有用,首先必须将输入引用字符串转换为更小的片段序列,通常称为标记。符号化可以以许多不同的方式执行,例如可以基于标点符号或空格。在标记化之后,每个标记由一个有监督的序列标记器分配一个标签。标签通常与所寻求的元数据字段类型相对应,对于不属于任何元数据字段的标记,使用一个特殊的标签“other”。有时元数据字段的第一个tokens使用单独的标签。将标签分配给tokens之后,将具有相同标签的相邻tokens连接起来,形成最终的元数据字段。

重要的是要注意,为了训练用于参考解析的监督序列标记器,需要由标记的标记组成的参考串的特定表示(图3)。 实际上,训练数据通常以基于XML的格式存储,可以很容易地转换为标记的标记序列(图4)。

许多机器学习算法已经应用于参考解析问题,包括支持向量机(SVM)[21,22],隐马尔可夫模型(HMM)[23,24,25]和条件随机场(CRF)[21, 22,26,27,28,29,30]。 SVM是一种通用的分类技术,而HMM和CRF都可以直接用作序列标记。

Hetzner [23]提出了一种简单的基于HMM的解决方案,用于从引用中提取元数据字段。 尹等人。 [24]采用了一种称为二元HMM的传统HMM的修改,它考虑了单词的二元序列关系和位置信息。 最后,Ojokoh等人。 [25]探索三元组HMM,报告总体准确度,精确度,召回率和F1测量值超过95%。

到目前为止,最流行的参考解析机器学习算法是条件随机场。 Councill等人。 [26]描述了ParsCit,它是最着名,广泛使用的基于CRF的开源系统之一,用于从引用中提取元数据。

由Lopez [27]创建的GROBID是另一个能够解析书目参考的基于CRF的系统的例子。 GROBID也是一个更大的工具,能够从PDF中的科学论文中提取元数据和逻辑结构。 作者报告的元数据字段级准确率为95.7%。

CERMINE,由Tkaczyk等人提出。 [28],也是一个能够从PDF格式的科学论文中提取元数据和结构的大型系统,包括解析的参考书目。 CERMINE的参考解析功能也基于CRF技术。 2015年,CERMINE赢得了Semantic Publishing Challenge [31,32],其中包括需要从书目参考中准确提取标题和年份信息的任务。

Matsouka等。 [33]也提出了一种基于CRF的参考解析方法,它使用词汇特征和词典。

最后,张等人。 [30]应用CRF算法从参考字符串中提取作者,标题,期刊和年份信息的任务,报告PubMed Central数据的总体97.95%F1。

一些研究人员还比较了各种书目参考解析方法。 例如,Zou等人。 [21]比较CRF和SVM,实现两种方法非常相似的总体准确度:tokens级别的准确度高于99%,元数据字段级别的准确率高于97%。

Zhang等人提出了具有上下文特征的结构SVM,并与传统的SVM和CRF进行了比较。
他们还报告了这三种方法的相似准确度:标记分类准确率在98%以上,字段提取准确率在95%以上。

最后,Kim等人用以前没有见过的数据描述了一个名为比尔博的系统,并将其与其他流行的引用解析工具(ParsCit,Biblio,free_cite和GROBID)进行比较。 根据他们的研究,BILBO(F1 0.64)获得了最好的结果,紧随其后的是GROBID(F1 0.63)。

许多参考解析器也可用作开源工具。 它们可以分为两类:仅作为参考解析器的工具和具有更广泛功能的工具。

纯参考解析器包括:
Anystyle-Parser2(一个用Ruby编写的基于CRF的工具)
Biblio3(基于正则表达式的Perl库)
BibPro4 [20](基于序列比对)
Citation5(用Ruby编写的解析器,使用正则表达式和附加规则)
Citation-Parser6(用Python编写的基于规则的解析器)
Free_cite7(用Ruby编写的基于CRF的解析器)
Neural Parscit8(基于LSTM的解析器,我们发现的唯一基于深度学习的工具)
Reference Tagger9(用Python编写的基于CRF的解析器)

除了仅提供参考解析功能的工具之外,还存在一些能够从科学文档中提取更多信息的更大系统。 但是,它们可能仅用于参考解析的任务。

他们是:
CERMINE10 [28]
GROBID11 [27]
ParsCit12 [26]
PDFSSA4MET13
Science Parse14

表1总结了每个解析器使用的技术,并提供了有关提取的元数据字段的详细信息。

3业务案例
与业务案例相关的一些细节是故意遗漏的,因为我们不允许发布它们。

在商业项目中,输入是PDF格式的506,540份科学文献的集合,主要来自化学领域。 该项目的目标是从输入文档中提取机器可读的参考书目,以识别每篇论文引用的所有文档。 更具体地说,对于每个输入文档,我们需要文档中列出的所有书目项目(期刊论文,会议论文集,网页等)。 每个提取的书目项目都应采用解析的书目参考形式。

输入文件的质量各不相同。 其中一些是原生PDF文件,所有字符都正确地存在于PDF内容流中,而其他字符包含单独的OCR过程的结果,具有典型的OCR错误。

项目客户端需要以下元数据字段作为参考解析过程的输出:
作者:引用文档的第一作者,格式为“Lastname,Initial_of_the_first_name”(例如“Tkaczyk,D”),
source:引用文档的来源,可以是日志或会议的名称,URL或标识符,如ArXiv id或DOI,
年,
卷,
期,
页面:页面范围的第一页,
组织:组织,是引用文档的作者,“公司作者”

与典型的引用解析任务不同,我们的客户端不需要引用文档的标题。 在化学中,参考字符串中经常缺少有关标题的信息,因为有关作者,来源和数字(数量,问题,页面)的信息足以识别引用的论文。

对于从科学论文中提取机器可读书目元数据的任务,我们采用由三个阶段组成的工作流程(图5):
从PDF格式的文档中提取机器可读的书目元数据的工作流程。 工作流程由三个阶段组成:1)识别文档中的参考书目区域,2)将参考书目分成单独的参考文献,以及3)单独解析每个参考字符串。
1.首先,解析PDF文件并识别包含参考书目的区域。
2.接下来,将这些目录区域的内容分成单独的参考字符串列表。
3.最后,我们分别对每个引用字符串执行引用解析。

对于前两个阶段,我们采用了开源工具GROBID [27]。 它使用有监督的机器学习来查找文档中的参考书目区域,并将其内容分成参考字符串列表。

工作流的第三阶段实际上是参考解析任务。 由于有许多开源书目参考解析器可用(包括GROBID系统本身),我们决定进行比较研究以找出哪些解析器表现最佳。 本文仅关注工作流程的第三个最后阶段。

方法
4.1评估工具
在我们的研究中,我们只包括开源参考解析器:Anystyle-Parser,Biblio,BibPro,CERMINE,Citation,Citation-Parser,Free_cite,GROBID,Neural Parscit,ParsCit,PDFSSA4MET,Reference Tagger和Science Parse。
由于安装错误或缺少资源,我们无法评估三种工具:BibPro,Free_cite和Neural ParsCit。
如前所述,并非所有评估工具都提取所有需要的元数据字段。 此外,在某些情况下,工具仅提取元数据字段的子集(例如,Anystyle-Parser提取期刊名称,但不提取URL或DOI,它仅构成“源”字段的一部分)。 表2显示了所有评估工具提取的字段与所需元数据字段之间的匹配

4.2数据
我们可以访问9,491对的集合:PDF文档+由我们的客户提供的解析引用列表。该集合包含371,656个已分析的引用和1,886,174个元数据字段。手动策划数据并包含偶尔的小错误(例如拼写错误)。为了研究的目的,我们假设它是100%正确的。

数据按如下方式进行划分:数据集中约67%(6306个文档)用于手工探索性分析和工具培训,其余33%(3185个文档)用于测试和比较工具的开箱即用和再培训版本。
测试集总共包含64,495篇参考文献,足够进行公平的比较。

为了对评估和培训有用,数据需要额外的预处理。

对于评估,我们需要对:引用字符串+已解析的引用。一个问题是客户机没有直接提供引用字符串,但是它们隐藏在PDF文件中。为了得到它们,我们使用工作流的前两步实现自动处理pdf(图5)。不幸的是,这个过程不是没有错误的,在某些情况下会导致输出中出现字符串丢失或错误的字符串。因此,提取的引用字符串的数量甚至不必等于客户端提供的经过ground truth解析的引用的数量,而且我们不能简单地使用列表的顺序来决定哪个字符串对应于哪个ground truth引用。例如,第五个引用字符串可能对应于第七个已解析的引用,因为前两个字符串丢失了。为了解决这个问题,我们使用了一个基于动态规划和模糊项匹配的独立过程来自动推断提取的字符串和解析的引用之间的对应关系。这导致生成计算所需的对:引用字符串、已解析的引用。

对于训练,我们需要以保留参考字符串和标记标记的格式引用,如第2节(图3和图4)中所述。 为了获得这样的表示,我们将ground truth字段值与提取的字符串进行匹配,这允许我们找到对应于元数据字段的子字符串。 在某些情况下,此过程无法找到合适的子字符串(例如,如果字符串被错误地提取或者包含噪声)。 这些参考文献被丢弃,不用于训练

4.3比较过程
对于给定的工具和给定的引用,将ground truth元数据字段与工具从字符串中提取的字段进行比较。字段值遵循简单的规范化和清理步骤(转换为小写,对类似于连字符的字符进行规范化,清理“&apos”和“&”之类的片段)。清理之后,每个提取的元数据字段都被标记为正确或不正确。正确字段是一个类型和值都等于ground truth解析引用中的一个字段的字段。

对于给定的元数据字段类型,我们计算精度,召回和F1度量。 精度是正确提取的字段数(在整个参考集上)与所有提取字段数之比。 召回是正确提取的字段与预期字段数(ground truth数据中的字段)的比例。 F1测量是精度和召回的调和平均值。

在实践中,工具在字段类型和它们的含义上各不相同,在每种情况下,都需要仔细地将工具的输出映射到所需的字段集合。例如,URL、DOI和journal name通常作为三个独立的元数据字段类型出现,而在我们的项目中,它们被视为一个字段“source”。这些工具在如何提取作者方面也有所不同。一些工具(例如Anystyle-Parser)将整个作者列表提取为一个字段,而其他工具则将作者名称拆分。一些工具(如Biblio、ParsCit、Science Parse)将整个作者的全名提取为一个字符串,而其他工具则额外标记了firstname、middlename和/或姓氏。在我们的示例中,需要第一作者的姓和名。对于不包含此信息的系统,我们在其输出之上采用了额外的简单启发式算法。

4.4培训程序
一些工具,特别是那些基于机器学习的工具,是可训练的,这意味着他们能够从训练数据中自动学习自定义解析“规则”。 它们的开箱即用版本已包含经过训练的模型,默认情况下用于解析。 但是,我们不知道默认模型是否在我们项目中使用的类似数据上进行了训练,或者化学领域的典型参考样式是否出现在工具作者使用的训练集中。 因此,我们无法确定默认模型是否包含对解析化学参考有用的所有必需信息。 出于这些原因,我们决定研究是否对特定于我们项目的数据重新分析解析器可以改进解析结果。

我们重新培训了三种最有前途的工具,即具有开箱即用版本获得的最佳平均结果的工具:GROBID,CERMINE和ParsCit。 对于培训,我们使用从训练集中的文档中随机选择的10,000个参考。 出于性能原因,我们没有使用更多的培训数据。

尽管所有基于机器学习的工具都是可训练的,但重要的是要注意它们在训练它们的过程中变化很大。 例如,Anystyle-Parser,CERMINE,GROBID和ParsCit包含特定的培训程序和说明,而在其他情况下,由于缺乏文档,再培训更加困难。

5结果
图6显示了开箱即用系统的总体比较结果,表3显示了按元数据字段类型细分的评估结果。 表格中的每个单元格分别给出精度,召回和F1值。 对于每种组合(元数据类型,度量标准),最佳结果是粗体。 我们没有给出组织结果,因为没有一个系统能够提取这个字段。

评估开箱即用工具的结果。 每个单元格分别给出精度,召回率和F1值。 对于每个类别,最佳结果是粗体。

用F1测量,性能最佳的开箱即用工具是:GROBID(F1 0.89),然后是CERMINE(F1 0.83)和ParsCit(F1 0.75)。 所有这些工具都实现了基于CRF的参考解析器。 表现最差的系统是:Citation-Parser(F1 0.27),Citation(F1 0.32)和PDFSSA4MET(F1 0.32)。 所有这些工具都基于规则和/或正则表达式。
通过召回来衡量,结果是一样的。 GROBID(0.87),CERMINE(0.82)和ParsCit(0.69)表现最佳。 引文(0.19),PDFSSA4MET(0.19)和Citation-Parser(0.20)表现最差。
但是,精确测量,这个排名会发生变化。 引文(0.97),PDFSSA4MET(0.96)和GROBID(0.91)表现最佳,而Citation-Parser(0.43),Anystyle-Parser(0.62)和Biblio(0.66)表现最差。
一般来说,对于所有工具,精度高于召回,差异范围从0.03(CERMINE,0.82和0.85)到0.78(引文,0.19和0.97)。 有趣的是,在基于机器学习的工具(平均差异0.11)的情况下,精确度和召回率之间的差异小于正则表达式或基于规则的系统(平均差异0.53)。

以下三个系统进行了再培训:GROBID,CERMINE和ParsCit。 这些是在先前实验中获得最佳结果的系统。 图7和表4显示了结果

重新训练的CERMINE和GROBID都获得了0.92的相同F1,而ParsCit则有点差,F1为0.87。 由元数据类型(表4)细分的CERMINE和GROBID的结果类似于源(CERMINE:0.84,GROBID:0.87),页面(CERMINE:0.96,GROBID:0.90)和组织(CERMINE:0.39,GROBID) :0.53)。 这三个系统在一年中取得了非常相似的高成绩。 ParsCit根本没有提取组织,这表明训练过程没有从训练数据中提取。

6讨论
最初,我们提出了以下问题:
1.对于以前看不见的数据,现有参考解析工具的结果有多好?
2.基于机器学习的方法的结果与更多静态,不可训练的方法(如正则表达式或规则)的结果相比如何?
3.如何使用项目特定数据重新训练机器学习模型会影响结果?

问题1.评估的系统在结果质量上差异很大。 获得最佳F1的开箱即用工具是GROBID,F1为0.89,其次是CERMINE(F1 0.83)和ParsCit(F1 0.75)。 最差F1的工具是:Citation-Parser(F1 0.27),Citation(F1 0.32)和PDFSSA4MET(F1 0.32)。 表5显示了开箱即用系统的最终排名,按F1减少排序。

问题2.基于机器学习的系统平均获得比正则表达式或基于规则的工具更好的结果(精度:0.77,召回:0.66,F1:0.71)(精度:0.76,召回:0.22,F1:0.33)(图8)。 更重要的是,基于ML的最差工具Anystyle-Parser(F1 0.54)优于最佳非ML工具Biblio(F1 0.42)。

这种差异的主要原因是召回(图8)。 基于ML的工具的平均召回率(0.66)是非ML工具的平均召回率(0.22)的三倍。 同时,平均精度的差异很小(基于ML的工具为0.77,非基于ML的工具为0.76)。 这样做的原因可能是相对容易实现手动开发的规则和正则表达式的良好精度,但很难有足够多的规则,涵盖所有可能的参考样式。

问题3.对于所有三个再培训系统(CERMINE,GROBID,ParsCit),再培训版本优于现有版本。 F1的相对增长变化:GROBID 3%(从0.89增加到0.92),CERMINE 11%(从0.83增加到0.92),ParsCit 16%(从0.75增加到0.87)。 图9比较了每个系统再训练前后的F1。 此外,在表6中,我们提供了所有指标的确切值。

这种效果并不令人惊讶。 我们希望重新训练的模型表现更好,因为他们有机会分析训练数据并找到特定的“规则”,以及用于解析化学参考的典型术语。

在ParsCit的情况下,我们获得了最高的结果增长,ParsCit是再培训前最弱的系统(三次重训)。 另一方面,在GROBID的情况下,增幅最小。 再培训后,三个系统的结果比以前更加相似。

总的来说,我们的结果表明,如果基于ML的工具的预训练版本表现不佳(例如ParsCit),我们可以通过重新训练系统获得很多。 另一方面,如果一个系统已经表现良好(GROBID),我们仍然应该期望质量的提高,但增加幅度可能会更低。

7总结和未来的工作
在本文中,我们研究了在实际业务用例的上下文中的引用解析问题。 我们应用并比较了十种参考解析工具:Anystyle-Parser,Biblio,Citation,Citation-Parser,Reference Tagger,CERMINE,GROBID,ParsCit,PDFSSA4MET和Science Parse。 我们调查了使用规则或正则表达式的工具与基于机器学习的工具之间的差异。 我们还检查了基于培训机器学习的工具有多重要以及它如何影响结果。

根据我们的结果,表现最佳的开箱即用工具是GROBID,F1为0.89,其次是CERMINE(F1 0.83)和ParsCit(F1 0.75)。 平均而言,基于机器学习的系统比基于规则的系统获得更好的结果(F1 0.71对0.33)。 虽然基于ML和非基于ML的工具实现了类似的精度(分别为0.77和0.76),但基于ML的工具的召回率比非基于ML的工具高三倍(0.66对0.22)。

我们的研究还证实,使用任务特定数据重新训练模型是值得的,特别是如果初始结果看起来很低。 对于所有三个再培训系统(CERMINE,GROBID,ParsCit),再培训版本优于开箱即用版本,F1的相对差异从3%(GROBID,从0.89增加到0.92)到11%不等 (CERMINE,从0.83增加到0.92),到16%(ParsCit,从0.75增加到0.87)。

重要的是要注意我们研究的一些局限性。 首先,在我们的业务项目中,客户端需要非常特定的元数据类型集,并且只有那些类型存在于地面实况数据中。 因此,我们没有评估重要元数据的提取,例如引用文档的标题或所有作者的名称。 其次,我们将我们的研究限制为完全实现并在Internet上提供的参考解析器,还拒绝了由于错误而无法安装和使用的三个系统。 因此,评估的解析器列表不包括例如使用模板匹配的工具。 最后,只对三个最好的系统进行了再培训。

将来,我们计划重新培训所有可用的基于ML的工具,并使用其他可用数据集执行类似的研究,包括更多元数据字段类型,特别是参考文章的标题和所有作者的名称。 我们还计划尝试构建智能参考解析集合。

致谢
本出版物源于爱尔兰科学基金会(SFI)在第13 / RC / 2016号授权下的财政支持下进行的研究。 该项目还获得了来自欧洲联盟的地平线2020研究和创新计划的资金,该计划符合MarieSkłodowska-Curie拨款协议No 713567。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值