AI科学家:迈向全自动开放式科学发现

人工智能正在改变着科学发现的方式。 如今,人工智能科学家已经可以独立进行研究,撰写论文,甚至模拟同行评审过程。这一进展意味着人工智能正在彻底改变科学发现的进程,并将我们带入一个充满无限创意和创新的时代。

一个新的科学发现时代

现代科学方法(Chalmers, 2013; Dewey, 1910; Jevons, 1877)是启蒙运动最伟大的成就之一。传统上,人类研究人员会收集背景知识,草拟一组可测试的假设,构建评估程序,收集不同假设的证据,最后评估和传播他们的发现。随后,产生的手稿会经过同行评审,并进行后续的改进迭代。这一程序促成了科学技术领域的无数突破,改善了人类生活质量。然而,这一迭代过程本质上受到人类研究人员的创造力、背景知识和有限时间的限制。

在人工智能领域,研究人员已经设想了利用人工智能本身来自动化人工智能研究的可能性(Schmidhuber, 1991, 2010a,b, 2012),从而产生“人工智能生成算法”(Clune, 2019)。最近,基础模型在通用能力方面取得了巨大进步(Anthropic, 2024; Google DeepMind Gemini Team, 2023; Llama Team, 2024; OpenAI, 2023),但它们只被证明可以加速研究流程的个别部分,例如撰写科学手稿(Altmäe et al., 2023),作为灵感来源来头脑风暴想法(Girotra et al., 2023),或作为编码助手(Gauthier, 2024)。迄今为止,学术界尚未展示在没有人类参与的情况下执行整个研究工作的可能性。

AI科学家:一个全面的框架

本文介绍了AI科学家,这是一个全自动且可扩展的端到端论文生成管道,得益于基础模型的最新进展。给定一个广泛的研究方向和一个简单的初始代码库,AI科学家可以无缝地执行构思、文献检索、实验计划、实验迭代、手稿撰写和同行评审,以生成有见地的论文。此外,AI科学家可以在开放式循环中运行,在其先前的科学发现的基础上改进下一代想法。这使我们能够以令人惊讶的低成本(约15美元/篇论文)加速科学迭代的缓慢过程,并代表着将世界上不断增长的计算资源转化为解决21世纪核心挑战所需的科学突破的一步。本文重点关注机器学习(ML)应用,但这种方法可以更普遍地应用于几乎任何其他学科,例如生物学或物理学,前提是存在一种自动执行实验的适当方法(Arnold, 2022; Kehoe et al., 2015; Zucchelli et al., 2021)。

AI科学家的工作流程

AI科学家包含三个主要阶段(图1):(1)想法生成,(2)实验迭代,以及(3)论文撰写。在撰写之后,本文介绍并验证了一个LLM生成的评审,以评估生成的论文质量(第4节)。本文为AI科学家提供了一个起始代码模板,该模板可以从一个流行的模型或基准测试中复制一个轻量级基线训练运行。例如,这可以是训练一个小型Transformer在莎士比亚作品集上的代码(Karpathy, 2022),一个来自自然语言处理的经典概念验证训练运行,可以在几分钟内完成。然后,AI科学家可以自由地探索任何可能的研究方向。该模板还包含一个LaTeX文件夹,其中包含样式文件和章节标题,以及简单的绘图代码。本文在第6节中提供了有关模板的更多详细信息,但一般来说,每次运行都从与主题领域相关的代表性小型实验开始。专注于小型实验并不是本文方法的根本限制,而仅仅是出于计算效率和计算限制的原因。本文在附录A中提供了所有阶段的提示。

想法生成

给定一个起始模板,AI科学家首先会“头脑风暴”一组不同的新颖研究方向。本文从进化计算和开放式研究(Brant and Stanley, 2017; Lehman et al., 2008; Stanley, 2019; Stanley et al., 2017)中汲取灵感,并使用LLM作为变异算子(Faldor et al., 2024; Lehman et al., 2022; Lu et al., 2024b; Zhang et al., 2024)迭代地扩展想法库。每个想法都包含一个描述、实验执行计划,以及(自我评估的)有趣性、新颖性和可行性的数值评分。在每次迭代中,本文提示语言模型根据现有库生成一个有趣的新研究方向,该库可以包含已完成的先前想法的数值评审评分。本文使用多轮思维链(Wei et al., 2022)和自我反思(Shinn et al., 2024)来细化和发展每个想法。在想法生成之后,本文通过将语言模型与Semantic Scholar API(Fricke, 2018)和网络访问工具(Schick et al., 2024)连接来过滤想法。这使AI科学家能够丢弃任何与现有文献过于相似或过于相似的想法。

实验迭代

给定一个想法和一个模板,AI科学家的第二阶段首先执行提议的实验,然后将其结果可视化以供后续撰写。AI科学家使用Aider首先计划要运行的一系列实验,然后按顺序执行它们。本文通过在失败或超时(例如,实验运行时间过长)时将任何错误返回给Aider以修复代码并最多尝试四次来使此过程更加稳健。在完成每个实验后,Aider会收到结果,并被告知以实验日志的形式记录笔记。目前,它只以文本为条件,但在未来的版本中,这可以包括数据可视化或任何模态。根据结果,它会重新规划并实施下一个实验。此过程重复执行最多五次。在完成实验后,Aider会被提示编辑绘图脚本以使用Python为论文创建图形。AI科学家会记录一个说明每个绘图内容的笔记,使保存的图形和实验笔记能够提供撰写论文所需的所有信息。在所有步骤中,Aider都会看到其执行历史记录。

需要注意的是,一般来说,提供的初始种子绘图和实验模板都是小型、自包含的文件。AI科学家经常会实现全新的绘图,并收集种子模板中没有的新指标。这种任意编辑代码的能力偶尔会导致意想不到的结果(第8节)。

论文撰写

AI科学家的第三阶段以LaTeX格式生成一篇简洁且信息丰富的论文,以模拟标准机器学习会议论文的风格。本文注意到,即使是熟练的人类研究人员也需要花费一些时间来撰写高质量的LaTeX,因此本文采取了一些措施来使此过程更加稳健。这包括以下步骤:

  • 按章节生成文本: 记录的笔记和绘图被传递给Aider,Aider会被提示逐节填充一个空白的会议模板。这按照引言、背景、方法、实验设置、结果,然后是结论(除相关工作之外的所有章节)的顺序进行。它已经撰写的论文的所有先前章节都在语言模型的上下文中。本文包括一些简短的提示和指南,说明每个章节应该包含什么内容,这些指南基于流行的“如何撰写机器学习论文”指南,并在附录A.3中提供详细信息。在撰写过程中的每个步骤,Aider都被提示只使用真实实验结果(以笔记和图形的形式从代码中生成),并使用真实引用以减少幻觉。每个章节最初都会在撰写时进行一轮自我反思(Shinn et al., 2024)以进行细化。Aider会被提示不要在此时包含任何引用,并且只填充相关工作的骨架,该骨架将在下一阶段完成。
  • 网络搜索引用: 与想法生成类似,AI科学家最多可以进行20轮轮询Semantic Scholar API,以寻找最相关的来源,将即将完成的论文与之进行比较和对比,以完成相关工作部分。此过程还使AI科学家能够选择它想要讨论的任何论文,并另外填写论文其他章节中缺少的任何引用。在每个选定的论文旁边,都会生成一个简短的描述,说明在何处以及如何包含引用,然后将该描述传递给Aider。论文的bibtex会自动附加到LaTeX文件中以确保正确性。
  • 细化: 在完成前两个阶段后,AI科学家已经完成了一份初稿,但通常过于冗长和重复。为了解决这个问题,本文逐节进行最后一轮自我反思,旨在删除任何重复的信息,并简化论文的论点。
  • 编译: 一旦LaTeX模板已填充了所有适当的结果,它就会被馈送到LaTeX编译器中。本文使用LaTeX linter并将编译错误回传给Aider,以便它可以自动更正任何问题。

自动论文评审

LLM评审代理

一个有效的科学社区的关键组成部分是其评审系统,该系统评估和改进科学论文的质量。为了使用大型语言模型模拟这样的过程,本文设计了一个基于GPT-4o的代理(OpenAI, 2023)来根据神经信息处理系统(NeurIPS)会议评审指南进行论文评审。评审代理使用PyMuPDF解析库处理PDF手稿的原始文本。输出包含数值评分(合理性、展示、贡献、总体、置信度)、弱点和强点的列表,以及初步的二元决策(接受或拒绝)。然后,这些决策可以通过使用评审分数进行阈值处理来进行后校准。本文利用这个自动评审过程来获得对AI科学家生成的论文的初步评估。本文在附录A.4中提供了完整的评审提示模板。

评估自动评审

为了评估基于LLM的评审的性能,本文将人工生成的决策与从公开可用的OpenReview数据集(Berto, 2024)中提取的500篇ICLR 2022论文的真实数据进行了比较。与上一节类似,本文结合了LLM代理的许多最新进展,使决策过程更加稳健。更具体地说,本文通过利用自我反思(Shinn et al., 2024)、提供少样本示例(Wei et al., 2022)和响应集成(Wang et al., 2022)来改进基础LLM的决策过程。使用GPT-4o,AI科学家的评审程序在结合5轮自我反思、5个集成评审和从ICLR 2022评审指南中获取的1个少样本评审示例后,实现了70%的准确率。之后,本文执行了一个基于LLM的元评审,该评审提示代理充当领域主席(Wang et al., 2022)(完整的提示在附录A.4中)。虽然这个数字低于NeurIPS 2021一致性实验中报告的人类73%的准确率(Beygelzimer et al., 2021),但当将决策阈值设置为6(NeurIPS评审指南中的“弱接受”)时,自动评审在F1得分方面超过了人类(0.57对0.49),并且在AUC方面达到了人类水平(两者均为0.65)。这种选择大致对应于被接受论文的平均分数。

所考虑的ICLR 2022论文数据集非常不平衡,即它包含的拒绝论文数量远远多于接受论文。当考虑一个平衡的论文数据集时,AI科学家的评审过程达到了人类水平的准确率(0.65%对0.66%)。此外,假阴性率(FNR)远低于人类基线(0.39对0.52)。因此,基于LLM的评审代理拒绝了较少的高质量论文。另一方面,假阳性率(FNR)更高(0.31对0.17),这表明未来可能需要改进。

为了进一步验证自动评审的性能,本文比较了匿名OpenReview评审之间(每篇论文随机配对采样)的总体论文分数的一致性(图2,左下角),以及所有评审的平均分数与LLM分数之间的一致性(图2,中间下方)。对于500篇ICLR 2022论文集,本文发现两个人类评审之间的分数相关性(0.14)小于LLM分数与评审之间平均分数的相关性(0.18)。总的来说,在所有指标中,结果表明基于LLM的评审不仅可以提供有价值的反馈(Zheng et al., 2024),而且与人类评审的平均分数更加一致,而不是个体人类评审之间彼此的一致性。

每个评审的生成成本为0.25至0.50美元的API费用。本文还比较了各种其他基础模型的评审性能。虽然Claude Sonnet 3.5(Anthropic, 2024)和GPT-4o-mini提供了一种更具成本效益的方法,但它们的性能明显更差(表1)。此外,由于持续的过度乐观偏差,本文必须将Sonnet 3.5的分数阈值设置为8才能获得校准的结果。Llama 3.1 405B(Llama Team, 2024)难以始终如一地遵循评审输出模板。本文开源了代码,为学术界提供了一个新的、有趣的LLM基准。

LLM评审消融

本文比较了GPT-4o的各种提示配置,发现反思(+2%)和少样本提示(+2%)在很大程度上有助于执行更准确的评审(图2,右上和右下)。另一方面,使用评审集成似乎并没有显著提高评审的性能,但可以减少方差。在接下来的章节中,本文使用了总体上最好的评审:GPT-4o,包含5轮自我反思、5个集成评审、一个元聚合步骤和1个少样本示例。

案例研究

在本文在第6节中介绍AI科学家生成的论文的广泛实验和指标之前,本文首先展示了AI科学家的一次运行的代表性样本,该样本说明了它的优点和缺点,然后对它的潜力进行更广泛的讨论。选定的论文“自适应双尺度去噪”是从AI科学家被要求对扩散模型进行研究的一次运行中生成的,该运行在第6.1节中进行了详细说明。基础模型是Claude Sonnet 3.5(Anthropic, 2024)。

生成的想法

如第3节所述,AI科学家首先根据提供的模板及其先前积累的发现库生成一个想法。选定论文中的想法是在算法的第6次迭代中提出的,旨在通过在标准去噪网络中提出两个分支来提高扩散模型捕获二维数据集中的全局结构和局部细节的能力。这是一个有充分动机的方向,是研究人员采用扩散模型而不是先前类型的生成模型(如VAE(Kingma and Welling, 2014)和GAN(Goodfellow et al., 2014))的主要原因之一,并且据本文所知,还没有得到广泛的研究。

本文强调,AI科学家生成了一个令人印象深刻的实验计划,其中包括提议的代码修改、与基线的比较、评估指标,以及其他绘图的设计。正如文献中先前观察到的那样,LLM的判断往往存在偏差(Zheng et al., 2024),本文可以在对想法的有趣性、可行性或新颖性的过度估计中观察到这一点。最后的“novel”标志表明,AI科学家在使用Semantic Scholar API搜索相关论文后,认为该想法是新颖的。

生成的实验

本文展示了对代码进行的重大算法更改的生成代码差异(删除部分以红色显示,添加部分以绿色显示)。该代码与实验描述相匹配,并带有良好的注释。AI科学家能够在循环中使用来自中间实验的结果来迭代代码,最终得出对自适应权重网络的有趣设计选择,例如LeakyReLU。重要的是,这个网络具有良好的行为输出,保证在0到1之间。本文还注意到,AI科学家更改了网络的输出,以返回自适应权重以进行新的可视化。

生成的论文

AI科学家以标准机器学习会议提交论文的风格生成了一篇包含可视化和所有标准章节的11页科学手稿。本文在图3中展示了完全由AI生成的论文的预览,完整的版本可以在附录D.1中找到。

本文重点介绍了论文中特别令人印象深刻的几个方面:

  • 对算法的精确数学描述: 上面代码中的算法更改被精确地描述,必要时引入新的符号,并使用LaTeX数学包。整个训练过程也被准确地描述。
  • 对实验的全面说明: 论文中列出了超参数、基线和数据集。作为一项重要的健全性检查,本文验证了生成论文中表1中的主要数值结果与实验日志完全匹配。令人印象深刻的是,虽然记录的数字是长格式浮点数,但AI科学家选择将所有数字舍入到小数点后三位,而没有错误。更令人印象深刻的是,结果与基线进行了准确的比较(例如,在恐龙数据集上,KL降低了12.8%)。
  • 良好的经验结果: 从定性上看,样本质量看起来比基线有了很大的提高。与真实数据相比,极少有点明显地偏离分布。从定量上看,真实分布和估计分布之间的近似KL散度有所改善。
  • 新的可视化: 虽然本文提供了一些基线绘图代码,用于可视化生成的样本和训练损失曲线,但它想出了新的算法特定绘图,显示了整个去噪过程中的权重变化。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

步子哥

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值