导读:今天分享一篇美国东北大学NLP实验室发表在NAACL 2019上的研究论文《Argument Mining for Understanding Peer Reviews》。与《一起读论文|挖掘同行评审意见的价值》一样,这篇论文也研究同行评审过程。但与之不同的是,这篇论文主要从Argument Mining的角度来理解同行评审意见的内容与结构。在这篇论文中,作者发布了AMPERE数据集,用最先进的模型在该数据集上进行了Proposition分割与分类两个任务的实验,对ACL、ICLR、NeurIPS和UAI等机器学习与自然语言处理领域顶会的审稿意见的内容及结构进行了详细分析,得出了许多非常有意思的结论。对于喜欢数据挖掘特别是Argment Mining的朋友们来说,非常值得一读。
研究背景
仅仅在2015年,花费在同行评审上的时间就达到了将近6340万小时。同行评审机制的价值不言而喻,所有领域的学术文献都需经过同行专家的评审后才能被发表在相关期刊或会议集上。换句话说,同行评审机制保证了研究工作的质量。那么,同行评审意见的一般结构是怎样的?一份高质量的同行评审意见又具有哪些特点?截止目前,很少有相关的研究工作关注分析同行评审意见的内容与结构,甚至评估它的质量。
研究动机及目的
作者认为,同行评审意见跟论述写作非常像,包含了能表达审稿专家对此研究的评估与解释的论述性的proposition。所以,自动分析出审稿意见中的proposition及其对应的类型对理解审稿意见的构成非常有帮助。在这篇论文中,作者主要在Argument Mining的框架下对同行评审意见的内容与结构进行研究。下图是一份截取自ICLR的审稿意见的样例:
在这篇论文中,作者主要关注两个研究任务:(1)proposition segmentation: 检测出是proposition的基本的论述性话语;(2)proposition classification:给proposition打上相应的标签(如evaluation, request)
数据集
因为没有标注好的同行评审意见的数据集,作者创建了AMPERE(Argument Mining for PEer REviews)。作者从机器学习和自然语言处理领域的会议(ICLR, UAI, NeurIPS, ACL)上收集了将近14.2K个评审意见,并标注了其中的400个评审意见总共10386条proposition。Proposition的类型有Evaluation,Request,Fact,Reference,Quote以及Non-Arg。
针对数据标注的可信度,作者计算了所有类别下每条审稿意见的标注者间信度指标unitized Kripendorf’s