Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers

本文是LLM系列文章,针对《Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers》的翻译。

摘要

大型语言模型 (LLM) 的最新进展引发了人们对其加速科学发现潜力的乐观情绪,越来越多的工作提出了自主生成和验证新想法的研究代理。尽管如此,没有评估表明 LLM 系统可以迈出产生新颖的、专家级想法的第一步,更不用说执行整个研究过程了。我们通过建立一个实验设计来解决这个问题,该设计在控制混杂因素的同时评估研究想法的产生,并在专家 NLP 研究人员和 LLM 构思代理之间进行首次头对头比较。通过招募 100 多名 NLP 研究人员撰写新颖的想法和对 LLM 和人类想法的盲评,我们获得了关于当前 LLM 研究构思能力的第一个具有统计学意义的结论:我们发现 LLM 生成的想法被认为比人类专家的想法更新颖(p < 0.05),而在可行性方面被判断得稍弱。仔细研究我们的代理基线,我们确定了构建和评估研究代理的开放问题,包括 LLM 自我评估的失败及其在生成中缺乏多样性。最后,我们承认人类对新颖性的判断可能很困难,即使是专家也是如此,并提出了一种端到端的研究设计,招募研究人员将这些想法执行到完整的项目中,使我们能够研究这些新颖性和可行性判断是否会导致研究结果的有意义的差

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

UnknownBody

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值