作者:林嘉亮审校:陈之炎
本文约4400字,建议阅读8分钟本文介绍了专注于科学和工程领域的印刷本平台——arXiv的特征。
“预印本(preprint)是一份完整的科学论文手稿(通常也会同时提交给需要同行评审的期刊),由作者在未经过评审的状态下上传至公共平台”。预印本平台的用户可以不经过严格的同行评审,在简单的审查之后,发布自己的手稿。尽管预印本的“预”表示出版前的预提交概念,但也存在大量出版后提交给预印本平台的后印本(post-print)。在本文中,将“预印本”定义为“e-print”,同时代表预印本平台上的“预印本”和“后印本”。“未发表”一词用于描述一篇预印本尚未被任何类型的出版物接收的状态。“发表”一词用于描述预印本已经过同行评审,并在期刊、会议、书籍、报告或其他类型的出版物中正式刊登(包括在线优先刊登)的状态。
arXiv,成立于1991年,是专注于科学和工程领域的预印本平台。从成立到2014年,经过23年的发展,arXiv共收录了100万篇稿件。至2019年,它平均每月收稿量达13,000份。Computing Research Repository(CoRR)是arXiv一个重要的组成部分。该文库涵盖了计算机科学的各种子类别,经过多年发展后,越来越受到计算机科学领域研究人员的重视,提交量处于快速增长之中。很多计算机科学领域的手稿在完成时,甚至在半完成的状态时就会被提交到CoRR。CoRR是当前计算机科学领域最著名和使用最广泛的预印本平台。
对于数量巨大的预印本,究竟有多少可以正式发表?为什么可以发表?通过挖掘和分析成功发表的预印本,可以获得优质论文的特征,为学术论文写作提供建议。来自厦门大学自然语言处理实验室的团队通过对2008年至2017年arXiv上计算机科学的相关预印本进行案例研究,回答了这两个问题。论文信息如图1所示。
图1 本文相关学术论文信息
预印本在提交到平台后一般会同时投递到期刊或会议,作者会收到来自审稿人、编辑和学术同行等各方面的反馈。这样的反馈可能会包括对手稿原始标题的修改。原始标题修改后的文章正式发表后,作者并不一定会及时更新预印本平台上的版本。所以,用字符串匹配方法匹配预印本和正式发表的论文是不恰当的。为此论文作者提出