GPT-4成Nature审稿人，超 50% 结果和人类评审一致

最新推荐文章于 2024-07-19 22:46:50 发布

海森大数据

最新推荐文章于 2024-07-19 22:46:50 发布

阅读量246

点赞数 1

文章标签：人工智能

版权声明：本文为博主原创文章，遵循 CC 4.0 BY-SA 版权协议，转载请附上原文出处链接和本声明。

本文链接：https://blog.csdn.net/haisendashuju/article/details/134047510

版权

斯坦福等大学的研究人员把数千篇来自Nature、ICLR等的顶会文章丢给了GPT-4，让它生成评审意见、修改建议，然后和人类审稿人给出的意见相比较。结果，GPT-4 不仅完美胜任了这项工作，甚至比人类做得还好！
结果发现：GPT-4提出的超50%观点与至少一名人类评审员一致；以及超过82.4%的作者都发现GPT-4给的意见很有帮助。

研究者普遍认为，跟人类评审的结果相比，LLM生成的反馈可以帮助提高评审的准确性，减少人类评审员的工作量，通常很有帮助，并打算再次使用该系统。

论文作者 James Zou 总结道：我们仍然需要高质量的人工反馈，但 LLM（大型语言模型）可以帮助作者在正式的同行评审之前，改进自己的论文初稿。

那么如何让LLM来审稿呢，研究人员首先用GPT-4创建了一个自动pipeline。它可以解析一整篇PDF格式的论文，提取标题、摘要、图表、表格标题等内容来构建提示语。然后让GPT-4提供评审意见。其中需要遵循业内顶尖的期刊会议的审稿反馈形式，包括四个部分 —— 成果是否重要、是否新颖，论文被接受的理由，论文被拒的理由，改进建议。

整体来看，在Nature论文中，GPT-4有57.55%的意见与至少一位人类评审员一致；在ICLR中，这个数字则高达77.18%。并且对于水平较弱的论文来说，GPT-4和人类审稿人之间的重叠率更高。这说明，GPT-4对水平较差的论文的鉴别能力很高。

这项研究有美国110个AI机构和计算生物学机构的308名研究员参与。研究者普遍认为，跟人类评审的结果相比，LLM生成的反馈与之有很大的重叠，通常很有帮助。如果说有什么缺点的话，就是在具体性上稍差一些。

人类评审员的高质量反馈还是不可或缺，但大家可以在正式评审前拿它试试水，弥补遗漏实验和构建等方面的细节。

海森大数据

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
GPT-4成Nature审稿人，超 50% 结果和人类评审一致

其中需要遵循业内顶尖的期刊会议的审稿反馈形式，包括四个部分 —— 成果是否重要、是否新颖，论文被接受的理由，论文被拒的理由，改进建议。斯坦福等大学的研究人员把数千篇来自Nature、ICLR等的顶会文章丢给了GPT-4，让它生成评审意见、修改建议，然后和人类审稿人给出的意见相比较。研究者普遍认为，跟人类评审的结果相比，LLM生成的反馈与之有很大的重叠，通常很有帮助。研究者普遍认为，跟人类评审的结果相比，LLM生成的反馈可以帮助提高评审的准确性，减少人类评审员的工作量，通常很有帮助，并打算再次使用该系统。
复制链接

扫一扫

评论 1

被折叠的条评论为什么被折叠?

到【灌水乐园】发言

查看更多评论

添加红包

成就一亿技术人!

hope_wisdom

发出的红包

实付元

使用余额支付

点击重新获取

扫码支付

钱包余额 0

抵扣说明：

1.余额是钱包充值的虚拟货币，按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载，可以购买VIP、付费专栏及课程。