导读:今天分享一篇来自CMU、艾伦AI研究院和华盛顿大学合作的论文《A Dataset of Peer Reviews (PeerRead): Collection, Insights and NLP Applications》[1],聚焦在科学文献发表过程中的同行评审机制的研究工作。作者公开了一份研究数据集,详细阐述了数据收集过程,对其做了一些统计分析,更重要的是为其引入了两个NLP任务并公开了基准模型及实验结果。他们还探讨了一些基于该数据集上进行的可能的NLP应用。内容充实,分析全面。
同行评审(Peer Reviewing)在科学文献发表的过程中发挥着非常重要的作用。那么,我们能够从同行评审意见中挖掘出哪些有价值的信息?本文发布了第一份用于研究目的的NLP领域科学文献的同行评审意见数据集——PeerRead[2]。该数据集包括了从ACL、NIPS、ICLR、CoNLL等NLP领域会议收集的约10.7K条往年的同行评审意见,还包括了投稿在这些会议上的以及发表在arXiv上的公开预印版本的约14.7K份论文稿件。数据集的基本信息如下表所示:
研究动机
对于同行评审过程,已经有研究人员对其不同方面进行了研究,包括评审意见的一致性与偏见、作者回复以及评审质量。但是&#