论文解读 | EMNLP2024 论文SEA中的自动化同行评审：标准化、评估与分析

原创于 2024-12-03 18:01:43 发布

· 1.8k 阅读

20 ·

版权

文章标签：

#自动化 #人工智能 #运维

点击蓝字

关注我们

AI TIME欢迎每一位AI爱好者的加入！

点击 阅读原文 观看讲者讲解回放！

作者简介

虞健翔，华东师范大学博士生

概述

近年来，科学论文的快速增长压倒了传统的审查机制，导致出版物的质量参差不齐。尽管已有方法探索了大型语言模型（LLMs）在自动化科学审查方面的能力，但它们生成的内容往往是通用的或片面的。为了解决上述问题，本文介绍了一个自动化论文审查框架SEA。它包括三个模块：标准化、评估和分析，分别由模型SEA-S、SEA-E和SEA-A代表。首先，SEA-S提炼了GPT-4的数据标准化能力，用于整合对一篇论文的多个评审。然后，SEA-E利用标准化数据进行微调，使其能够生成建设性的评论。最后，SEA-A引入了一种新的评估指标，称为不匹配分数，以评估论文内容和评论之间的一致性。此外，本文设计了一种自我修正策略，以增强一致性。在八个会议的数据集上进行的广泛实验结果表明，SEA可以为作者生成有价值的见解，以改进他们的论文。

论文地址：https://arxiv.org/pdf/2407.12857

代码链接：https://ecnu-sea.github.io/

Background

近年来，人工智能领域或机器学习领域的各大会议投稿数量不断增加，人们经常在各大公众号上看到诸如某会议投稿数量再创新高的消息。

随着投稿数量的增加，评审工作量也随之大幅增加。这可能导致一些问题，比如审稿质量参差不齐。在公开的社交媒体上，也时常能看到一些主席委员（AC）或投稿人对评审质量的负面反馈。

另一方面，近年来大模型的发展非常快速且火热。大模型以其强大的文本处理能力在各个领域，尤其是垂直领域中得到了广泛应用。

Motivation

基于以上背景，作者希望探索大模型在自动化同行评审中的应用。研究的主要动机是期望自动化评审能够为研究者提供及时且有价值的反馈和意见，提升工作质量。例如，投稿周期有时可能长达三个月甚至更久，通过自动化评审，科研学者可以在高完成度的情况下投递稿件，从而能够快速投入到下一个研究项目中，加快科研进度。

Introduction

现有的一些自动化审稿方式主要分为两类。第一类是基于提示（prompt）的方式，大模型在训练阶段或者强化学习阶段（RLHF）往往需要与人类偏好对齐，这导致大模型在推理时倾向于讨好人类，生成的评审意见往往价值较低，或者给出的意见过于笼统。另一种方法是基于监督微调（SFT）的，这些方法使用对应一篇文章的单个评审意见进行微调，这样得到的结果可能存在片面性。训练数据可能来自不同的会议或不同年份，评审的格式和标准也各不相同。

在右侧的图中，模拟了一篇文章可能收到的三个评审意见。一个评审可能指出文章的写作需要提升，另一个可能建议增加一些图例，还有一个可能希望增加更多解释性文本。在理想的评审意见中，期望能够整合这三个评审的意见，提供一个更加全面和高质量的评审反馈。

Method

接下来介绍研究方法的具体实施步骤。本研究的流程主要分为三个部分：标准化、评估和分析。

在标准化部分，作者希望整合一篇文章的所有评审意见，消除冗余和错误，集中关注文章的优点和缺点。具体来说，作者使用了训练集20%的数据，并借助GPT-4对这些评审意见进行整合，形成统一的格式和标准。这构成了一个特定微调的数据集。

随后，作者对一个适应长文本的开源模型Mistral-7B进行微调，以蒸馏GPT-4的数据整合能力，最终得到数据标准化模型SEA-S。值得一提的是，SEA-S提供了一种泛化范式，可以应用于其他领域以获得标准化的评审意见。

接下来，作者将训练集中所有文章的评审意见输入到SEA-S模型中，以获得标准化和高质量的评审意见。然后，对论文进行解析，包括PDF解析和文本及代码提取。基于解析后的论文、标准化的评审意见及定制的提示，我们形成了另一个指令微调数据集，并微调另一个Mistral-7B模型，得到SEA-E。

经过以上处理后，SEA-E可以生成规范且高质量的评审意见。生成评审后，团队对这些评审进行了进一步的分析。引入了一个新的度量标准——不匹配度分数（Mismatch score），用以衡量论文与生成评审的一致性。具体来说，在训练集中计算每篇文章的加权平均分，并据此计算每个评审意见的不匹配度分数。在公式中，c表示评审的置信度（confidence），s表示评审打出的分数（score）。不匹配度分数是评审的评分减去加权平均分，作为一个参考标准。较高的不匹配度分数表示评审意见与论文偏离较大，可能意味着较低的审稿质量；接近于0的不匹配度分数表示评审意见相对中立，与论文较一致。

接着，作者计算了论文和评审之间的相互注意力，并训练了一个回归模型SEA-A来估计不匹配度分数。在训练完模型后，实施了一个自我矫正机制：如果SEA-E生成的评审超过了一定的阈值，则重新生成该评审，加入新的提示以提高其与论文的一致性。

Demo

接下来，作者展示了一些生成的示例，这些示例主要分为六个部分：总结（summary）、优点（strengths）、缺点（weaknesses）、问题（questions）、四个评分以及对论文的决定（接受或拒绝）和相应的理由。值得高兴的是，这些生成的评审意见与作者在实际投稿过程中收到的评审意见高度一致。

接下来展示的示例是对比本文所提方法与基线模型的效果。Mistral-7B作为一个直接推理模型，我们发现其在评分部分（如Soundness）中，无法很好地遵循指定格式，因此输出的并不是分数而是文本。Mistral-7B random则是根据一个随机选取的评审意见进行监督微调得到的结果，相对来说内容比较单薄。而Mistral-7B 3.5则替换了SEA-S的标准化模块，用GPT-3.5进行整合，最终得到的评审结果中存在一些冗余和无效的信息。

对于本文方法生成的评审SEA-E和SEA-EA（SEA-EA是加入分析模块和自我矫正机制产生评审结果），可以看出这种方法生成的评审格式规范，内容丰富。