COLING 2022 | CSL-大规模中文科学文献数据集

导读

论文 CSL: A Large-scale Chinese Scientific Literature Dataset 发表在自然语言处理顶会COLING2022上,该工作提出了首个中文科学文献数据集-CSL,包含约40万条中文论文,具有广泛的领域分类和细粒度学科标签,能用于构建多种NLP任务,例如文本摘要、关键词生成和文本分类等。

下载地址:GitHub - ydli-ai/CSL: [COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文数据集[COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集 - GitHub - ydli-ai/CSL: [COLING 2022] CSL: A Large-scale Chinese Scientific Literature Dataset 中文科学文献数据集https://github.com/ydli-ai/CSL

全文链接:https://arxiv.org/abs/2209.05034https://arxiv.org/abs/2209.05034

引言

随着科学文献出版数量的增加,NLP工具在论文写作、检索和归档上都起到愈发重要的作用。例如,之前的一些研究围绕引用推荐、学科分类、自动摘要,以及学术预训练语言模型等方面展开。除此之外,科学文献作为一种高质量语料,也为许多NLP任务提供了天然有标注数据。已有的数据集资源通常基于预发表平台或搜索引擎,包括论文全文,引用图谱等类型。然而,这些工作主要基于英文,在中文领域,目前还没有公开的科学文献资源和对应的下游任务,这在一定程度上限制了中文NLP的发展。为了填补这一空白,本文提出了CSL-大规模中文科学文献数据集,包含约 40 万篇中文论文元数据(标题、摘要、关键词以及学科领域标签)。此外,为了提供中文科学文献基准测评,本文设计了4个下游任务数据集,包括文本摘要、关键词生成、论文门类分类(13类)和论文学科分类(67类)。

技术贡献

本工作的主要贡献如下:

1、整理和公开首个中文科学文献数据集CSL,可以被用作预训练语料或学术相关NLP下游任务数据;

2、基于CSL,提供中文科学文献基准测评,用于评估语言模型处理科学文献时的性能;

3、提供中文 text-to-text语言模型作为基线模型,实验结果展示了目前的NLP方法对中文科学文献理解的局限。

数据集

本文数据源自国家科技资源共享服务工程技术研究中心,获取2010至2020年发表的中文期刊论文数据,根据《中文核心期刊目录》进行筛选并标注领域标签。具体来说,根据核心期刊的信息,为每个期刊标注所属的学科领域,并只保留专注于单一学科的期刊。因此,可以根据论文发表所在的期刊,得到论文的学科和门类标签。CSL数据集具有广泛的学术领域分布,分为 13 个门类一级标签(例如,理学、工学)和 67 个学科二级标签(例如,计算机科学与技术、电子信息)。数据分布如图所示:

与相关工作相比,CSL具有如下特点:1. 更广的领域分布。已有的科学文献数据通常针对某个或某些领域,而CSL几乎包含所有中文研究领域,并且具有更细粒度的标注。2. 新的数据源。已有的资源从通常从Arxiv、PubMed等数据源中收集。CSL源自中文核心期刊,对现有数据资源产生互补。3. 更高的质量和准确性。现有的数据源例如Arxiv的一些论文没有经过同行评审,而CSL源自中文核心期刊的已发表论文,因此潜在地具有更高质量。在另一方面,CSL直接获取论文元数据,不经过PDF/LaTeX解析,准确率更高。

基准测评

学术论文的元数据包含丰富的语义信息,使它成为一种天然有标注数据。预测这些信息之间的相互关系可以构成许多 NLP 任务,例如用论文摘要预测标题可以视为一个文本摘要任务;用论文标题预测所属领域则是文本分类任务。这样的组合可以有很多种,如下图所示:

基于CSL衍生的下游任务,本文构建了4个常见任务作为基准测评,包括文本摘要、关键词生成、论文学科分类和论文门类分类。我们选取了10,000条数据,根据0.8 : 0.1 : 0.1的比例划分训练集、验证集和测试集。这个划分是在不同的任务中共享的,允许多任务学习和测评。测评任务包括:

  1. 文本摘要(标题生成):根据论文摘要预测标题。目前的中文文本摘要任务主要集中在新闻领域,我们提供首个科学文献摘要任务。
  2. 关键词生成:根据输入的论文标题和摘要,预测一组论文关键词。据我们所知,我们提供首个中文关键词数据集。
  3. 学科/门类分类:根据论文的标题或摘要,预测论文所属的学科和门类。

实验

本文在多任务上测评了常见的text-to-text模型,包括T5、BART和PEGASUS。由于这些模型还没有公开的中文预训练权重,本文基于CLUE Corpus Small 语料在UER-py框架上进行从头预训练。此外,还用论文摘要作为语料,增量训练CSL-T5模型。下游任务训练使用多任务学习。

根据实验结果分析,T5的性能优于其他模型,此外,增量训练的CSL-T5在大部分任务上都有进一步提升,这展示了CSL作为预训练语料的有效性。与单任务训练的结果相比,多任务训练效果更好。我们认为这是由于CSL衍生出的各种任务同属于科学文献领域,因此模型更容易在不同的任务之间共享知识,提供潜在的性能增益。总体而言,目前的预训练语言模型能够在科学文献任务上取得较好的性能,然而这还不能满足现实场景的需求,需要在未来的研究中进一步探索和提升。

  • 2
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Zotero CSL(Citation Style Language)是一个开源的、零配置的引用风格样式表语言。它是用于Zotero等引文管理软件的引文风格的标准化语言。Zotero是一个免费的引文管理工具,旨在帮助学者和研究人员轻松管理他们的研究文献和引文。 使用Zotero CSL,用户可以方便地根据特定的学术引文要求创建和编辑引文风格。这些风格可以包括学术期刊的引文要求、出版商的指导方针和特定领域的引文规范等。用户可以选择已经存在的引文风格,也可以根据需要自定义新的引文风格。 Zotero CSL借助于XML语言来描述引文风格。用户可以使用XML编写具体的引文格式,包括作者、标题、出版日期等等。另外,用户还可以通过使用条件语句、循环语句等来实现更复杂的引文格式要求。这些XML文件可以与Zotero和其他引文管理软件一起使用,以确保生成符合学术期刊或指导方针要求的引文。 除了提供标准的引文风格,Zotero CSL还具有自动更新的功能。一旦某个学术期刊或指导方针发布了新的引文要求,用户可以更新相应的CSL文件,以适应最新的引文规范。这样,用户就无需手动更改每个引文的格式,而是可以通过简单的更新方法自动应用新的引文风格。 总而言之,Zotero CSL提供了一个简单、强大和灵活的引文风格管理工具,可以帮助用户轻松地满足不同学术期刊或指导方针对引文格式的要求。同时,它还具有自动更新的特性,以确保用户始终使用最新的引文规范。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值