GPT-4成Nature审稿人,超 50% 结果和人类评审一致

 斯坦福等大学的研究人员把数千篇来自Nature、ICLR等的顶会文章丢给了GPT-4,让它生成评审意见、修改建议,然后和人类审稿人给出的意见相比较。结果,GPT-4 不仅完美胜任了这项工作,甚至比人类做得还好!
结果发现:GPT-4提出的超50%观点与至少一名人类评审员一致;以及超过82.4%的作者都发现GPT-4给的意见很有帮助。

研究者普遍认为,跟人类评审的结果相比,LLM生成的反馈可以帮助提高评审的准确性,减少人类评审员的工作量,通常很有帮助,并打算再次使用该系统。

论文作者 James Zou 总结道:我们仍然需要高质量的人工反馈,但 LLM(大型语言模型) 可以帮助作者在正式的同行评审之前,改进自己的论文初稿。

那么如何让LLM来审稿呢,研究人员首先用GPT-4创建了一个自动pipeline。它可以解析一整篇PDF格式的论文,提取标题、摘要、图表、表格标题等内容来构建提示语。然后让GPT-4提供评审意见。其中需要遵循业内顶尖的期刊会议的审稿反馈形式,包括四个部分 —— 成果是否重要、是否新颖,论文被接受的理由,论文被拒的理由,改进建议。

整体来看,在Nature论文中,GPT-4有57.55%的意见与至少一位人类评审员一致;在ICLR中,这个数字则高达77.18%。并且对于水平较弱的论文来说,GPT-4和人类审稿人之间的重叠率更高。这说明,GPT-4对水平较差的论文的鉴别能力很高。

这项研究有美国110个AI机构和计算生物学机构的308名研究员参与。研究者普遍认为,跟人类评审的结果相比,LLM生成的反馈与之有很大的重叠,通常很有帮助。如果说有什么缺点的话,就是在具体性上稍差一些。

人类评审员的高质量反馈还是不可或缺,但大家可以在正式评审前拿它试试水,弥补遗漏实验和构建等方面的细节。

  • 1
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值