原创 | MOPRD多学科公开同行评审数据集

5397df609bcada8d34ee6147056d6ee4.png

作者:林嘉亮
本文约3500字,建议阅读8分钟本文介绍了MOPRD多学科公开同行评审数据集。

传统的同行评审基于匿名机制构建。在这种机制下,审稿人的身份和审稿报告都不会向公众披露。然而,匿名机制并不利于同行评审的发展。作为对存在缺陷的匿名机制的一种改良方式,公开同行评审机制被引入到了学术出版中。

公开同行评审释放了大量的同行评审数据,为计算机辅助同行评审和进一步实现学术论文自动审稿(Automated Scholarly Paper Review,ASPR)提供了机会。这些数据,尤其是结构化数据,对人工智能研究具有重要意义。然而,同行评审数据以各种格式散布在不同的平台上。为了充分挖掘公开同行评审的价值,需要将这些数据收集归整,并处理成结构化的数据集,以便进一步使用。然而,在建立同行评审数据集的过程中,存在一些局限和不足。

首先,当前大多数的数据集中的数据不能涵盖完整的同行评审过程。其次,当下大部分的数据集局限于小部分学科。第三,当今大比例的数据集构建时需要繁重的标注工作。对于当前同行评审数据集所存在的不足,不免有一个疑问:如何构建多学科的具备完整流程数据且无需人工标注的同行评审数据集?

来自厦门大学自然语言处理实验室的团队发文回答了这个问题,在调研了大量公开数据后,团队精心挑选了数个不同学科的期刊,设计了专用的网络爬虫,从中获取包含原生和自动标注标签的同行评审数据。构建并发布了一个包含完整同行评审过程的数据集:多学科公开同行评审数据集(Multidisciplinary Open Peer Review Dataset,MOPRD)。该数据集包含多个不同学科论文的论文元数据、论文的初始版本和后续所有修订版本、审稿意见、编辑汇总意见、作者复函和评审决议。这些数据使MOPRD成为一个具有高度完整性和多样性的公开同行评审数据集。论文信息如图1所示。   

03ae8ac6fb5a73e050b8b15345202e87.png

图1 本文相关学术论文信息

数据源

截止至2019年,共有38家出版商的617种期刊已经实行了公开同行评审。理想情况下,构建公开同行评审数据集的最佳做法是详尽地收集以上所有期刊的同行评审数据。而且,收集过程应该不断地持续进行,以跟上最新的出版内容。然而,建立这样的数据集不太现实。主要原因是不同的期刊提供数据的方式并不相同,收集所有这些数据需要为每个期刊网站,或说至少每个出版商网站设计专用的网络爬虫进行数据获取。这是一项繁琐且投入巨大的工作,暂时难以实现。全面地收集所有公开同行评审数据是长期目标,众包是可行的解决方案之一。面对如此艰巨的任务,应该化繁为简,从小做起。因此,当前从目前实行公开同行评审的617种期刊中,对数据源进行了仔细筛选。考虑到范围、影响、数据完整性和数据格式等因素,选择了PeerJ作为MOPRD的数据源。PeerJ是一家大型综合学术出版商,拥有七大期刊,包括:PeerJ Analytical Chemistry、PeerJ Computer Science、PeerJ Inorganic Chemistry、PeerJ - Life and Environment、PeerJ Materials Science、PeerJ Organic Chemistry和PeerJ Physical Chemistry。这七本期刊涵盖了广泛的研究学科,如生物学、化学、计算机科学、环境科学和医学。‍‍‍‍‍

PeerJ的期刊区别于其他期刊的一个特点是它鼓励评审透明。向PeerJ提交稿件的作者有权选择将整个同行评审历史与最终发表的论文一起展示给读者。对于每篇论文,这个同行评审历史包括初始版本、修订版本、审稿意见、编辑汇总意见、作者复函和评审决议。该同行评审历史涵盖了从最初提交到最终接收的所有数据。有这样丰富的数据支持,整个同行评审过程即可以再现。

需要特别强调的是,PeerJ上的论文正式版本与原始版本同步发布,均以PDF格式呈现,这种形式能够完整地展示论文最初提交时的状态。相比之下,其他大多数提供同行评审数据的期刊只发布论文的正式版本,而原始版本通常是保密的。如果没有论文的原始版本,许多与公开同行评审有关的研究将无法开展。例如,基于修订版本进行审稿意见的研究就没有意义。在修订版本中,审稿意见中的建议可能已经被采纳,原始版本中的问题也可能已经被解决。如果不与原始版本进行对照,就不能充分理解审稿意见的有效性,审稿意见对公开同行评审的意义也会变得不那么重要。   

在PeerJ上,审稿意见和编辑汇总意见都以纯文本形式呈现。纯文本无需转换,不会丢失任何信息,能够完全保持意见的原始内容。此外,作者复函以PDF、DOC或DOCX格式提供,为作者当时提交的原始文件。这些数据的完整性为公开同行评审的研究带来了众多的可能性和广泛的探索空间。此外,PeerJ要求审稿人按四个部分撰写审稿意见,分别是:Basic Reporting(基本报告)、Experimental Design(实验设计)、Validity of the Findings(研究成果有效性),以及Additional Comments(附加评论)。这使得审稿意见结构良好,且可以直接作为标签使用。

除了数据的透明性和完整性之外,PeerJ的突出优点在于知识共享署名许可协议(Creative Commons Attribution License)所带来的开放性。基于这个高度包容的许可协议,PeerJ上的同行评审数据允许被收集、融合、修改和复用,并作为新研究的基础。图2显示了PeerJ的网页如何展示审稿意见。

5fc6a75dbdd68239dbaa7c3ceeb7def4.png

图2 PeerJ审稿意见样例(备注:为了节约空间,裁剪了部分文字;该审稿意见来自https://peerj.com/articles/3845/reviews/)

构建

一个专用的网络爬虫被设计用于收集PeerJ上每篇论文的完整同行评审数据。首先,收集元数据,如论文ID、论文标题、论文学科和论文主题。接着,爬取审稿意见、编辑汇总意见和审稿决议。最后,下载论文的初始版本,所有后续修订版本和作者复函。

MOPRD有两个版本。一个是原生版本(Native MOPRD),它包含了爬取的所有HTML网页,以及下载的PDF、DOC和DOCX文件。这个原生版本为用户提供了自主操作的空间,以方便用户根据需要处理和转换数据。另一个版本是规整版本(Processed MOPRD)。在这个版本中,原生版本中HTML文件的所有有用信息都被解析并以JSON格式提供。PDF稿件文件用GROBID转换为XML文件。作者复函中的PDF格式文件用pdftotext转换为TXT文件,作者复函中的DOC和DOCX文件用LibreOffice Writer转换为TXT文件。原生版本和规整版本都可以从以下地址下载:http://www.linjialiang.net/publications/moprd。   

属性

MOPRD总共收集了6,578篇论文。数据收集于2022年8月。其统计特征见图3。

b4a1a924fd9944dcffe861a6edff1f9b.png

图3 MOPRD数据集的统计特征

这些论文所属的学科见图4。

e8da604551d03d48b852d35635afbf5a.png

图4 MOPRD的学科分布(一篇论文可能归属于多个学科)

应用

MOPRD作为一个内容丰富的同行评审数据集,在许多应用方面具有很大的潜力。

(1)审稿意见生成

审稿意见生成是实现ASPR的关键步骤之一。数据集在审稿意见生成的过程中起着很重要的作用。MOPRD有丰富完整的数据,非常适用于审稿意见生成任务。详细的生成方案和实验分析见文末的论文。

(2)编辑汇总意见生成

编辑汇总意见是由编辑撰写的有充分依据的论述,通过汇总各个审稿人对某篇稿件的所有审稿意见,为该稿件的评审决议提供明确的理由。编辑汇总意见生成可以通过对所有审稿意见进行摘要以帮助编辑。与前人构建的数据集相比,MOPRD以其同行评审数据的完整性脱颖而出,因为它收集了论文的初始版本和所有修订版本。这些完整的同行评审数据能够使得编辑汇总意见生成任务在不同的审稿轮次中实现,甚至还可以参考和使用稿件的内容协助生成。

(3)评审决议预测

评审决议预测是一项根据审稿意见(一些研究人员也会利用稿件本身的内容)预测稿件的接收、修改和拒稿决定的任务。评审决议预测可以帮助编辑,将信息整理融合,以辅助决策。使用MOPRD完成这项任务的优势在于其多学科数据,可以进行比较、研究不同学科之间审稿意见的情感差异。而由于数据的缺失,前人的研究大多缺乏多学科之间的比较。

(4)作者复函生成   

作者复函生成是MOPRD的特色应用,充分利用了数据集中收集的审稿意见、编辑汇总意见和作者复函。对于缺乏经验的论文作者,作者复函生成可以为他们撰写自己的复函时提供指导。作者复函是指由论文作者撰写,以解决审稿人和编辑提出的问题为目的的文本。一封典型的作者复函的基本结构包括三个部分:审稿人和编辑的意见、作者的回复和对原稿的修改。在复函中,作者一般以点对点的方式回复审稿人和编辑,为稿件的各个方面进行辩护,消除双方之间的误解,并阐述改进的内容。

(5)科学计量分析

科学计量学是“研究科学发展作为信息过程的定量方法”综合体。随着同行评审的不断发展,越来越多的研究从不同方面关注同行评审,科学计量学作为一门定量科学,将其引入同行评审的研究,通过计量的方式分析同行评审的各项数据是研究发展到一定程度的必然选择。作为科学计量学分析的先决条件,大量的数据是必不可少的。随着公开同行评审的进一步发展及其在各个领域的逐步应用,有关同行评审过程的研究数据和信息变得更加丰富和清晰,研究课题也变得更加多样和有价值。昔日神秘的同行评审过程,会在量化结果和分析解读的过程中更加公开和透明。MOPRD拥有来自多个学科的数据,利用MOPRD,可以在同行评审科学计量分析方面取得更细致和更多样的研究。

本文相关的论文已经发表在Neural Computing and Applications, Vol. 35, Issue 34, pp. 24191-24206 (2023)。

arXiv上有作者提交的版本

https://arxiv.org/abs/2212.04972

编辑:王菁

校对:林赣敏‍‍‍‍

欢迎留言,有机会与本文作者互动哦~

数据派研究部介绍

数据派研究部成立于2017年初,以兴趣为核心划分多个组别,各组既遵循研究部整体的知识分享实践项目规划,又各具特色:

算法模型组:积极组队参加kaggle等比赛,原创手把手教系列文章;

调研分析组:通过专访等方式调研大数据的应用,探索数据产品之美;

系统平台组:追踪大数据&人工智能系统平台技术前沿,对话专家;

自然语言处理组:重于实践,积极参加比赛及策划各类文本分析项目;

制造业大数据组:秉工业强国之梦,产学研政结合,挖掘数据价值;

数据可视化组:将信息与艺术融合,探索数据之美,学用可视化讲故事;

网络爬虫组:爬取网络信息,配合其他各组开发创意项目。

点击文末“阅读原文”,报名数据派研究部志愿者,总有一组适合你~

转载须知

如需转载,请在开篇显著位置注明作者和出处(转自:数据派THUID:DatapiTHU),并在文章结尾放置数据派醒目二维码。有原创标识文章,请发送【文章名称-待授权公众号名称及ID】至联系邮箱,申请白名单授权并按要求编辑。

未经许可的转载以及改编者,我们将依法追究其法律责任。

edd301321cdf67be8365c926c450808a.png点击“阅读原文”加入组织~

  • 16
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值