本文是LLM系列文章,针对《Can LLMs Generate Novel Research Ideas? A Large-Scale Human Study with 100+ NLP Researchers》的翻译。
LLM 可以产生新的研究思路吗? 由 100+ NLP 研究人员参与的大规模人体研究
摘要
大型语言模型 (LLM) 的最新进展引发了人们对其加速科学发现潜力的乐观情绪,越来越多的工作提出了自主生成和验证新想法的研究代理。尽管如此,没有评估表明 LLM 系统可以迈出产生新颖的、专家级想法的第一步,更不用说执行整个研究过程了。我们通过建立一个实验设计来解决这个问题,该设计在控制混杂因素的同时评估研究想法的产生,并在专家 NLP 研究人员和 LLM 构思代理之间进行首次头对头比较。通过招募 100 多名 NLP 研究人员撰写新颖的想法和对 LLM 和人类想法的盲评,我们获得了关于当前 LLM 研究构思能力的第一个具有统计学意义的结论:我们发现 LLM 生成的想法被认为比人类专家的想法更新颖(p < 0.05),而在可行性方面被判断得稍弱。仔细研究我们的代理基线,我们确定了构建和评估研究代理的开放问题,包括 LLM 自我评估的失败及其在生成中缺乏多样性。最后,我们承认人类对新颖性的判断可能很困难,即使是专家也是如此,并提出了一种端到端的研究设计,招募研究人员将这些想法执行到完整的项目中,使我们能够研究这些新颖性和可行性判断是否会导致研究结果的有意义的差