摘要
【目的】科技文献引文分类是学术影响力评估、文献检索推荐等的基础工作。随着深度神经网络和预训练语言模型的发展,科技文献引文分类研究取得巨大成果。学界提出了许多基于深度学习技术的科技文献引文分类方法、模型和数据集。然而,目前仍然缺乏对现有方法和最新趋势的全面调研,因此本文在这方面进行了探索。【方法】本文梳理了基于深度学习技术的科技文献引文分类模型、数据集,并对不同模型的分类性能进行了对比和分析;归纳了不同模型的优缺点,对科技文献引文分类技术进行总结;讨论了未来的发展方向,并提出了建议。【结果】预训练语言模型能够有效地学习全局语义表示,改善了RNNs(Recurrent Neural Networks)训练效率低、CNNs(Convolutional Neural Networks)提取文本序列依赖特征长度有限等问题,显著提高了分类准确率。【局限】本文以介绍科技文献引文分类技术的进展为主,没有对未来技术的发展方向进行全面预测。
关键词: 科技文献引文分类; 预训练语言模型; 深度学习; 自然语言处理
引言
由于科技文献中的引文具备一定的同行评议效果,所以科技文献引文分析工作一直是文献研究的重点。引文分类工作能够为学术影响力评估[1-2]、文献检索推荐等提供基础数据,是科技文献引文分析的重要组成部分,得到学术界和工业界的广泛关注。科技文献引文分类研究经历了两个阶段,目前处于第二阶段的快速发展期。第一阶段:引文分类的必要性和可行性研究。该阶段的研究者多为领域专家,他们在对科技文献引文内容分析的基础上,建立起引文分类体系;通过实验证实了引文分类的必要性和可行性;该阶段的主要特点是人工进行、小范围、小样本研究。第二阶段:引文分类技术研究。该阶段引文分类与计算机技术相结合,以引文分类的自动化、规模化和智能化为目的。引文分类系统由三部分构成:引文分类体系、引文分类模型和数据集。本文主要关注引文分类模型的发展,同时对分类体系和数据集进行了汇总。
近年来,随着深度学习技术和预训练语言模型的发展,科技文献引文分类已取得重大进展。但目前仍然缺乏对现有方法和最新趋势的全面调研。为了回顾已有的进展,并帮助研究人员在未来开展新的工作,本文对近12年来的科技文献引文分类工作发展进行了全面的调研和总结。尽管目前的科技文献引文分类模型在标准数据集上取得了显著的效果,但仍然存在较多问题需要解决。例如,现有分类模型大部分基于通用文本分类模型,没有针对科技文献引文分类的专用模型,且分类准确率相对通用领域的文本分类还有较大差距,影响了引文分类结果的推广和应用。本文对科技文献引文分类的特点和挑战进行了详细总结,也为科技文献引文分类后续研究的重点提出了建议。
综上所述,本文贡献可以总结为以下几点:
(1)总结归纳:本文对基于深度学习技术的科技文献引文分类的发展进行详细总结,主要包括基于卷积神经网络、循环神经网络的分类模型和基于预训练语言模型的分类模型。
(2)存在问题和展望:本文讨论并分析了现有分类模型存在的问题和挑战,提出了下一步研究工作应该关注的方向和重点。
(3)丰富的数据集:本文收集了科技文献引文分类的大量数据集。
本文组织结构如下:第1节概述了科技文献引文分类体系,数据集和应用广泛的数据集;第2节介绍基于统计机器学习的引文分类技术;第3节介绍了基于深度学习技术的引文分类技术发展;第4节对全文进行总结;第5节对目前存在的问题及下一步研究方向进行讨论。
1 科技文献引文分类体系
1.1 科技文献引文分类的起源
20世纪60年代,科学引文索引(Science Cita-tion Index, SCI)的发展开创了引文分析的大规模实践,其专注于学者间、期刊间的引用次数的统计,引用网络的建立[3]。随后,以引用频次为基础量化科研人员研究成果的h指数(h-index)[4]、期刊影响因子(Impact Factor,IF)等指标构成了现有的科技评价[5]和学术影响力评估体系。然而这种将每次引用的重要性同等看待的评估方法受到众多学者的诟病,他们认为并非所有引用的重要性都是一样的,并尝试对引文按照一定的分类标准进行分类(不同的类别表示不同的重要性),然后将分类的统计结果引入到学术影响力评估体系中构建全面而合理的学术影响力评估体系。例如:Voos等[6]第一次提出了引用平等性问题,分析了引文在简介、方法、讨论或者结论段落的位置后发现简介相对其他段落包含更多的被引文献;因此他们认为引文的贡献不但应该基于其数量,而且还与其在文献中的位置相关。Herlach等[7]扩展了这个观点,认为对于被引文献在方法或者讨论段落再一次被引用应该被认为有更大的贡献。Small[8]是第一个研究引用科学内容的学者,他认为被高度引用的文章并不是学科前沿的标志。
1.2 科技文献引文分类体系汇总
早期的一些领域专家从引用动机、情感、目的等不同的角度对引文类别进行划分和小范围的标注,不同的标注类别代表着引文在文章中不同的重要性。例如:Garfield [9]从作者引用其他文献动机的角度,通过观察列出“提供阅读背景、修正他人工作、给予相关荣誉”等15种原因。这也是学界第一次从引用动机的角度对引文进行深层次的分析。
Michael等[10]研究了引用的冗余模式,他们对30篇理论高能物理学文章中575篇参考文献进行了分析,从概念的使用、是否冗余、是否评论、观点的肯定与否,将引用划分为4个大类,每个大类按照肯定、否定、中立划分为3个小类,共12个小类,并且发现1/3的参考文献是冗余的,1/7是否定的,2/5是敷衍的。
早期的引文分类是学者们对少量的特定领域文献引文分析后,提出的分类体系,其实证了引文分类的合理性[8⇓-10];同时导致了研究人员各自为政、标注体系过多的问题。学界和业界目前并没有统一的标注规范,影响研究成果的应用和推广。表1展示了现有的引文分类体系和数据集,其中ALC-ARC和SciCite数据集是现阶段引文分类领域公认的在分类标准和样本数量方面较好的数据集,被广泛使用,见表2、表3。
表1 科技文献引文分类体系
Table 1 Citation Function Classification Schemes
数据集 |
样本数 |
分类标签及占比 |
Teufel et al.(2006b)[11] |
2829 |
Weak(3.1%)CoCoGM(3.9%)CoCoR0(0.8%)CoCo(1.0%)CoCoXY(2.9%)PBas(1.5%)PUse(15.8%)PModi(1.6%)PMot(2.2%)PSim(3.8%)PSup(1.1%)Neut(62.7%) |
Ulrich(2011)[12] |
1768 |
Idea(23.80%)Basis(7.18%)Background(65.04%)Compare(3.95%) |
Li et al.(2013)[13] |
6355 |
Based on(2.8%)Corroboration(3.6%)Discover(12.3%)Positive(0.1%)Significant(0.6%)Standard(0.2%)Supply(1.2%)Contrast(0.6%)Co-citation(33.3%) |
Hernandez-Alvarez |
2120 |
Use(49.8%)Background(37.4%)Comparison(5.3%)Critique(7.8%) |
Matthew et al.(2018)[15] |
3083 |
Background(51.8%)Uses(18.5%)Compares(17.5%)Motivation(4.9%)Continuation(3.7%)Future(3.6%) |
Cohan et al.(2019)[16] |
11020 |
Background(58%) |
Zhu et al.(2015)[17] |
3143 |
Influential |
Valenzuela et al. |
450 |
Important |
Jha et al.(2016)[19] |
3271 |
criticizing(16.3%)、comparison(8.1%)、use(18.0%)、substantiating(8%)、basis(5.3%)、neutral(44.3%) |
新窗口打开| 下载CSV
表2 ACL-ARC数据集
Table 2 ACL-ARC Datasets
引文功能类别 |
定义 |