AI科学家学问世，学术圈会有大动荡吗？

本文链接：https://blog.csdn.net/soaring_casia/article/details/141400635

导读：

继ChatGPT等大型语言模型的突破之后，The AI Scientist的诞生更是令人震撼。这个全面自动化的科学研究系统能独立完成从生成研究想法到撰写论文的全过程，或许：

科学家要不存在了。©️【深蓝AI】编译

1. 摘要

通用人工智能的一个重大挑战是开发能够进行科学研究和发现新知识的智能体。虽然前沿模型已经被用作人类科学家的辅助工具，例如用于头脑风暴、编写代码或预测任务，但它们仍然只能完成科学过程中的一小部分工作。本文提出了第一个全面的全自动科学发现框架，使前沿大语言模型（LLMs）能够独立进行研究并交流其发现。

研究团队推出了The AI Scientist，它可以生成新颖的研究想法、编写代码、执行实验、可视化结果、通过撰写完整的科学论文来描述其发现,然后运行模拟的评审过程进行评估。原则上，这个过程可以重复进行，以开放式的方式迭代开发想法,并将其添加到不断增长的知识档案中，就像人类科学界一样。作者们通过将这种方法应用于机器学习的三个不同子领域来展示其多样性：扩散建模、基于Transformer的语言建模和学习动力学。

为了评估生成的论文质量，研究团队设计并验证了一个自动评审系统。他们证明，这个系统在评估论文分数方面的表现已接近人类专家水平。更令人瞩目的是，根据这个自动评审系统的判断，The AI Scientist所产生的论文质量已足以超过顶级人工智能会议的录用标准。

这种方法标志着机器学习科学发现的新时代的开始：将AI智能体的变革性益处带到AI本身的整个研究过程中，使人类更接近一个可以在世界上最具挑战性的问题上释放无尽的、负担得起的创造力和创新的世界。

图1｜自动化科学研究的过程示意图（来源：links）©️【深蓝AI】编译

在详细介绍AI Scientist是如何构建之前，笔者先为大家展示一张ACL24的paper中的相关图例：

在这里插入图片描述

这张图展示了三种不同学术文献引用图：人工撰写、GPT生成和GPT辅助。通过比较这三种引用图，我们可以观察到一些有趣的模式：

1）人工撰写（Human-Written）：

● 引用图显示出高度的互连性和复杂性。

● 多个引用频繁地在同个句子中出现，形成了密集的网络结构。

● 人工撰写反映了人类作者倾向于综合多个来源，建立复杂的论证。

2）GPT生成（GPT-Generated）：

● 引用图呈现出较为简单和线性的结构。

● 引用之间的连接较少，大多是独立的。

● GPT生成可能表明AI在生成文本时，倾向于逐个使用引用，而不是像人类那样综合多个来源。

3）GPT辅助（GPT-Assisted）：

● 引用图的复杂性介于人工撰写和纯GPT生成之间。

● 有一些互连的引用群，但不如人工撰写的那么密集。

● GPT辅助反映了人机协作可能结合了人类的综合能力和AI的辅助功能。

我们可以观察到：

●人工撰写的文本展现出最高的“相对互连性”，这表明人类作者更善于将不同的引用和想法联系在一起。

●GPT生成的文本相对缺乏这种复杂的互连性，可能印证了AI在创建复杂论证结构方面的局限性。

●GPT辅助的方法似乎是一个中间地带，结合了一些人类风格的复杂性和AI的效率。

2. 引言

传统的科学研究流程虽然成果斐然，却不可避免地受制于人类研究者的知识范围、创造力和有限的时间。这就为AI在科研中的应用埋下了伏笔。

论文作者介绍了AI在科研中的进展历程：从早期的设想到近期基础模型的突破，AI已经在科研的多个环节展现出了惊人的能力。然而，目前AI主要还是作为辅助工具，用于加速研究流程的某些部分，如论文写作、创意激发或编程协助。

基于此，作者提出了一个突破性的概念——The AI Scientist。这是首个完全自动化、可扩展的端到端论文生成流水线。它不仅能够完成从创意构思到实验执行，再到论文撰写和同行评审的全过程，更可以通过不断迭代来改进自身的科学发现。

作者强调，这种方法有潜力加速科学发现的步伐，帮助我们更快地应对21世纪的核心挑战。同时，它也为人类科学家提供了新的合作模式，以解读和利用AI生成的研究成果。

图2｜概念性插图展示了由端到端大型语言模型（LLM）驱动的科学发现过程©️【深蓝AI】编译

在这篇文档中，grokking 指的是一种在机器学习领域的现象，其中模型在训练过程中突然从较差的表现跃升到良好的表现，通常是在长时间的过拟合之后。这种现象表明模型可能在某个时间点突然“领悟”了问题的本质。这个概念在研究学习动态和模型理解方面引起了关注。

3. 背景

作者主要调研了大型语言模型、LLM代理框架和基于LLM的编码助手Aider这三个方向。

3.1 大型语言模型

大型语言模型（LLMs）是自动化科学家系统的核心基石。这些模型通过建模给定前序标记的新标记的条件概率来生成文本，展现出令人惊叹的能力。LLMs不仅能够生成连贯的文本，还具备常识知识、推理能力和编写代码的技能，这些都是进行科学研究所必不可少的。在自动化科学家系统中，LLMs扮演着模拟人类科研者的角色，为整个系统提供了强大的基础。它们的多方面能力使得系统能够执行从提出假设到分析数据，再到撰写论文等一系列复杂的科研任务。LLMs的应用彻底改变了我们对AI在科学研究中角色的认知，为全自动化科学研究开辟了新的可能性。

3.2 LLM代理框架

为了进一步提高LLMs在复杂科研任务中的表现，研究者们开发了几种创新的框架，包括少样本提示、思维链和自我反思。这些框架极大地增强了LLMs学习上下文的能力，提高了其在多种任务上的表现、鲁棒性和可靠性。少样本提示允许模型通过少量示例快速适应新任务；思维链使模型能够分步骤地"思考"，提高其推理能力；自我反思则让模型能够评估和改进自己的输出。在自动化科学家系统中集成这些框架，不仅提高了系统的整体性能，还增强了其处理复杂、多变的科研任务的能力。这些进步使得AI系统在科学研究中的应用更加灵活和可靠，为未来全自动化科学研究奠定了坚实的基础。

3.3 基于LLM的编码助手Aider

Aider是一个开创性的开源编码助手，它能够实现功能需求、修复bug和重构代码，为自动化科学家系统提供了直接实现想法和修改代码的能力。这个强大的工具在真实世界的GitHub问题基准测试中取得了18.9%的成功率，展现了其在实际应用中的可靠性。将Aider集成到自动化科学家系统中，实现了代码层面的自动化，这是首次实现完全自动化机器学习研究过程的关键一步。Aider的加入使得系统不仅能够生成研究想法和分析数据，还能够直接将这些想法转化为可执行的代码，并在需要时进行优化和调整。这种端到端的自动化大大加速了科研过程，减少了人为错误，同时也为研究者提供了一个强大的辅助工具，使他们能够更专注于创新性的思考和复杂问题的解决。

这三个方向的研究为作者构建全自动化科学家系统奠定了坚实的技术基础。LLMs提供了核心的智能和生成能力，LLM代理框架增强了系统的推理和决策能力,Aider则使系统能够直接操作和修改代码。这种综合应用代表了AI在科研领域的最新进展，有望彻底改变传统的科研方式，提高研究效率，并可能带来突破性的发现。

4. 方法: AI科学家的三个主要阶段

作者提出的AI科学家系统包括三个核心阶段：创意生成、实验迭代和论文撰写。这个系统的设计旨在模拟人类科研者的工作流程，同时充分利用AI的优势。

4.1 创意生成

在这个阶段，AI科学家展现了它的创造力：

● 灵感来源：系统借鉴了进化计算和开放式研究的理念。

● 方法：使用LLMs作为"变异算子"，迭代地生成和扩展创意档案。

● 创意评估：每个创意都包含描述、实验计划，以及自评的有趣性、新颖性和可行性分数。

● 创意筛选：通过语义学者API和网络访问工具，过滤掉与现有文献过于相似的想法。

这个过程模拟了人类科研者头脑风暴和文献调研的过程，但速度和规模远超人类能力。

4.2 实验迭代

这个阶段展示了AI科学家的实践能力：

● 实验执行：使用Aider编码助手规划和执行实验。

● 错误处理：遇到错误时，系统会尝试修复代码并重新运行，最多四次。

● 结果分析：每次实验后，系统会记录结果并“反思”，为下一步实验做准备。

● 可视化：自动创建论文所需的图表。

这个过程模拟了人类科研者的实验、分析和迭代过程，但具有更高的效率和可重复性。

4.3 论文撰写

最后，AI科学家将其发现转化为学术论文：

● 分节撰写：系统按照标准学术论文结构逐节撰写内容。

● 引用搜索：通过语义学者API查找相关文献，自动添加引用。

● 内容优化：通过自我反思来精炼论文，删除重复信息，优化论述。

● 自动排版：使用LaTeX编译器，并能自动修正排版错误。

这个过程不仅模拟了人类科研者的写作过程，还在某些方面（如自动引用和排版）超越了人类能力。

4.4 关键创新

1）全面自动化：从创意到发表，整个过程都由AI完成。

2）迭代改进：每个阶段都包含多轮优化和自我反思。

3）实用性考虑：系统能处理实际问题，如实验错误和LaTeX排版。

4）减少幻觉：通过严格的实验记录和文献引用来确保内容的真实性。

这个AI科学家系统代表了AI在科研领域应用的一个重要里程碑。它不仅能大大加速科学发现的进程，还可能带来全新的研究方法和视角。然而，它也势必引发关于人们对「科研本质和人类科学家角色」的质疑与思考。

5. 实验

研究团队进行了一系列实验，并在三个不同的研究领域对其进行了测试。

5.1 AI模型的表现差异

图3｜小提琴图展示了由AI科学家评审员针对三个领域和四种基础模型生成的AI论文评分分布：纵轴的评分参考NeurIPS评分，从2（强烈拒绝）到6（弱接受）©️【深蓝AI】编译

研究团队在实验中使用了多个AI模型，包括Claude Sonnet 3.5、GPT-4o、DeepSeek Coder和Llama-3.1 405b。通过对比分析发现Claude Sonnet 3.5的表现最为出色，能够持续产出高质量的论文。GPT-4o紧随其后，但在处理LaTeX格式时遇到了一些困难。开源模型如DeepSeek Coder和Llama-3.1 405b虽然在使用上更为便利，但在论文质量和完整性方面略显不足。

5.2 AI在扩散模型研究中的创新表现

研究团队基于一个流行的小型扩散模型代码库，让AI在低维数据集上探索改进扩散生成模型的新方法。这个选择非常巧妙，因为与图像生成相比，低维扩散模型的研究相对较少，为AI提供了更大的创新空间。

表1｜针对扩散建模的自动化AI科学家论文生成评估©️【深蓝AI】编译

在这个基础上，AI提出了几个引人注目的创新idea：

1）DualScale Diffusion

这是一种双尺度去噪方法，将传统的扩散去噪器分为全局和局部处理分支。这种方法的巧妙之处在于，它通过可学习的时间条件加权来结合两个分支的输出，从而在不同尺度上捕捉数据特征。

2）Multi-scale Grid Noise Adaptation

这个创意提出动态调整标准扩散噪声调度，使用基于输入在2D空间位置的学习乘法因子。通过使用一个粗糙的5x5网格和一个更精细的20x20网格来覆盖输入空间，这种方法允许扩散模型在不同数据集上显著提高性能。

3）GAN-Enhanced Diffusion

受生成对抗网络（GANs）的启发，这个想法提出在扩散模型中添加一个判别器来指导生成过程。虽然在量化性能上与基准相当，但它在减少异常点生成方面表现出色。有趣的是，AI提出这个想法时并不能直接查看生成的图像，这表明AI具有推理和预测结果的能力。

4）DualDiff

这一idea的创新之处在于引入了一个鼓励两个专家多样性的额外损失函数。AI不仅提出了这个想法，还展示了如何可视化多样性损失对专家分配的影响，并对样本空间进行颜色编码以显示每个专家的专长区域。这体现了AI在相似想法基础上进行创新演变的能力。

这些创新不仅展示了AI在理解和改进现有模型方面的能力，还体现了它在提出全新方法、设计实验和可视化结果方面的才能。AI展现出了类似人类科学家的思维过程，能够基于已有知识提出假设，设计验证方法，并以创新的方式呈现结果。这种能力不仅可能加速科学发现的过程，还可能引导我们探索人类研究者可能忽视的新方向。

5.3 AI在语言建模研究中的创新尝试

在语言建模领域，AI科学家面临了更大的挑战。研究团队基于流行的NanoGPT代码库，让AI探索改进基于Transformer的自回归下一个标记预测任务。这个领域已经被广泛研究和优化，因此找到显著改进变得更加困难。尽管如此，AI仍然提出了一些有趣的创新idea：

1）StyleFusion: 字符级语言模型的自适应多风格生成

在语言模型领域，AI科学家提出了一个名为StyleFusion的创新架构，旨在解决文本生成中的风格多样性问题。这个方法的核心是在Transformer的每一层引入“风格适配器”，用于调制模型状态。这种设计允许模型在不同层次上捕捉和应用风格信息，从而实现自适应的多风格文本生成。StyleFusion的创新之处不仅在于引入了风格适配的概念，更在于其灵活的实现方式，使模型能够在生成过程中动态调整文本风格。

然而，这种方法也有局限。首先，性能的提升可能仅仅源于参数数量的增加，而非真正的架构创新。其次，论文中遗漏了一些关键的实现细节，特别是关于风格损失标签如何派生的说明，这可能影响结果的可复现性和方法的普适性。

2）通过Q学习实现Transformer的自适应学习率

在优化语言模型训练过程中，AI科学家提出了一个跨领域的创新方法——将强化学习中的Q学习算法应用于Transformer模型的学习率调整。

具体而言，这个方法将当前学习率和验证损失作为状态，通过对学习率进行小幅扰动作为动作，并以验证损失的负变化作为奖励。这种设计允许模型在训练过程中根据实时反馈动态调整学习率，理论上可以更好地适应训练的不同阶段和数据的特性。

该方法局限性在于：在高度非平稳和部分可观察的环境中使用简单的Q学习算法可能不够合适，因为语言模型训练过程的复杂性可能超出了基本Q学习能够有效处理的范围。

5.4 AI在Grokking研究中的探索与创新

在深度学习领域，grokking现象一直是一个引人注目且充满谜团的研究方向。AI科学家们基于Power等人的开创性工作，深入探索了这一独特的学习现象。Grokking指的是深度神经网络在训练过程中出现的一种特殊情况：验证准确率在训练损失已经饱和很长时间后突然显著提升。这种现象挑战了我们对机器学习过程的传统理解，为AI提供了一个绝佳的机会来进行开放性的实证分析和创新探索。

1）解锁Grokking：Transformer模型权重初始化策略的比较研究

在这项研究中，AI科学家们着眼于权重初始化方法对grokking现象的影响。他们系统地比较了不同的初始化策略，包括Xavier初始化、正交初始化以及常用的Kaiming均匀和正态初始化。研究结果令人惊讶：Xavier和正交初始化显著加速了grokking过程。这一发现不仅为优化Transformer模型的训练提供了实际指导，还开辟了一个潜在的深入研究方向。AI科学家们在这项研究中展现了将基础理论研究与实际应用相结合的能力，同时他们富有创意的论文标题也反映了在学术写作方面的进步。

2）Grokking加速：Transformer泛化的分层学习率

这个创新性的研究方向体现了AI在模型优化领域的独特思维。研究者们提出了一个大胆的想法：为Transformer模型的不同层分配不同的学习率。通过实验，他们发现增加高层的学习率能显著提升grokking的速度和一致性。这种方法不仅在理论上富有创意，研究者们还在论文中提供了关键的实现代码，展示了他们将理论与实践紧密结合的能力。这项研究为优化复杂神经网络的训练过程提供了一个新的视角，可能对未来的模型设计产生深远影响。

6. 结论与未来展望

研究团队认为，The AI Scientist的引入标志着人工智能在科学研究中实现全部潜力的重要一步。通过自动化发现过程并纳入人工智能驱动的审查系统，他们为科学和技术最具挑战性领域的创新和问题解决开辟了广阔前景。研究团队展望未来可能出现一个完全由人工智能驱动的科学生态系统，不仅包括人工智能驱动的研究人员，还包括审稿人、领域主席和整个会议组织。

虽然The AI Scientist的当前版本展示了在已有概念（如扩散建模或Transformers）基础上创新的强大能力，但作者指出，这样的系统是否最终能提出真正改变范式的想法仍是一个悬而未决的问题。他们提出了一些值得思考的问题：未来版本的The AI Scientist是否能够提出像扩散建模一样有影响力的想法，或者提出下一个Transformer架构？机器是否最终能够发明像人工神经网络或信息论这样基础性的概念？

研究团队相信The AI Scientist将成为人类科学家的重要合作伙伴，但他们也承认，只有时间才能告诉我们，人类创造力的本质和偶然的创新时刻在多大程度上可以被人工代理进行的开放式发现过程所复制。

关于The AI Scientist的未来改进，作者提出了以下几个方向：

1.整合视觉能力，以更好地处理图表和图形。

2.纳入人类反馈和互动，以改进人工智能的输出。

3.使The AI Scientist能够通过从互联网获取新数据和模型来自动扩展其实验范围，前提是这可以安全地完成。

作者｜Jeffery

审核｜Los

Ref ：
[1]Shallow Synthesis of Knowledge in GPT-Generated Texts: A Case Study in Automatic Related Work Composition
[2]Abandoning objectives: Evolution through the search for novelty alone
[3]Genetic programming: an introduction: on the automatic evolution of computer programs and its applications

本文首发于微信公众号【深蓝AI】，移步公众号【深蓝AI】，第一时间获取自动驾驶、人工智能与机器人行业最新最前沿论文和科技动态👇
深蓝AI·赋能自动驾驶+机器人+AI