【翻译团队】刘军(liujun@bupt.edu.cn) 钱雨欣玥 冯梓哲 李正博 李冠谕 朱宇晗 张霄天 孙大壮 黄若溪
12.科学发现与智能进化
在前面的章节中,我们主要从技术角度讨论了智能体系统的演变,重点介绍了如何开发能够有效执行传统上由人类完成的明确定义任务的系统。然而,仍然有一个根本且重要的问题:这些智能体能否推动一个自我维持的创新循环,从而促进智能体的演化和人类的进步?
科学知识发现是智能体自我进化的一个引人注目的例子,因为它帮助智能体以可持续的方式适应世界。能够以不同自主级别并安全地发现科学知识的智能体,也将在推动人类技术创新方面发挥重要作用。在这一部分,我们将回顾使用智能体工作流进行自主发现的进展,并讨论朝着完全自主、自我进化智能体的技术准备情况。在这一框架下,智能体的目标是揭示、验证并整合数据、洞察和原理,以推动对自然现象的客观科学理解。智能体并非试图改变世界,而是像科学家AI一样,旨在更好地理解自然,并协助人类拓展知识的边界。
我们首先定义知识和智能的概念,以明确我们的讨论,然后介绍三种典型场景,在这些场景中,智能体与科学知识进行互动。我们还将强调在理论、计算和实验科学研究中,应用于自我增强的智能体的现有成功案例和例子。最后,我们总结了未来展望中的当前挑战。
12.1 智能体的智能在科学知识发现中的作用
知识,传统上被定义为有根据的真实信念,源于柏拉图[860],并由埃德蒙·盖蒂尔[861]进一步完善,他认为知识必须通过可靠的认知过程来生成——尽管其精确定义仍然存在争议[862]。在我们的讨论中,我们将科学知识发现描述为收集数据和信息的过程,目的是验证或反驳关于目标科学问题的合理假设。为了讨论智能体在科学知识发现中的能力,我们首先通过信息理论的视角,探索衡量智能体智能的一个通用框架。
12.1.1 基于KL散度的智能度量
智能体的智能可以通过其预测的概率分布与现实世界中未知信息的概率分布之间的KL散度来衡量。在人工智能和科学哲学中,长期以来的目标是形式化智能体“理解”世界的含义。从Jaynes将概率理论视为在不确定性下进行推理的扩展逻辑[863],到Parr等人将智能框定为在自由能原理下最小化模型-世界散度[864],许多框架趋向于一个共同的主题:智能行为来源于对不确定世界的准确预测。例如,Clark[344]认为,智能体通过预测和错误修正不断与世界互动,以减少惊讶。Chollet[865]则强调,智能应该反映技能获得效率,因为任务适应的动态特性。这些观点共同表明,智能涉及建立预测性和适应性模型——这一思想通过一个概率框架在这里得到了形式化,该框架将推理与知识获取联系起来,并能够在科学发现中进行跨智能体比较。
在此基础上,我们在科学知识发现的特定背景下考虑智能,其中智能体的主要目标是从有限的数据中推断出物理世界中未知的方面。从智能体在知识发现中的角度来看,世界 由与智能体旨在理解的科学问题相关的一组数据集所表示。在智能体与 的互动过程中,每个数据集都会以概率 出现在实验测量或观察中。在这里,我们假设单个数据点 可能是相关的,也可能不相关。例如,在使用语言模型进行文本生成的任务中, 代表构成有意义命题的一个词块,而 是由已知和推断出的命题构成的连贯文本。在这个背景下,“世界”是所有命题的集合。
让 表示参数化智能体世界模型 的参数,如表1.2所定义。例如,在一个固定架构的变换模型中, 代表其权重。给定 和一个数据集 ,智能体预测一个概率分布。通常,不同的AI智能体可能会针对不同的目标进行优化。对于科学知识发现,我们假设智能体的目标是提供一个对真实世界的良好描述,即一个尽可能准确地预测尚未探索的自然现象的世界模型。更智能的智能体能够提供更好的真实世界分布 的近似。因此,智能体的智能可以通过这两个概率分布之间的KL散度或相对熵来衡量:
描述了 和 之间的差异。更精确地说,在假设检验的背景下,如果我们从 中抽样N次,并将结果与 的预测进行比较,那么将 误认为 的概率会按 的方式缩放[866]。换句话说,具有较低 的智能体生成的预测与现实更加一致。
例如,考虑两个材料合成智能体,它们的目标 是理解某种无机化合物 ₂₄₂ 是否可合成。这些智能体可以预测两个结果:
(1)是可合成的 ,和
(2)是不可合成的。实际上,由于 ₂₄₂ 是一种自然矿物, 且 。然而,这种矿物直到2023年10月4日才被报道[参考文献],因此许多大语言模型的知识截止日期之后它才被发现;因此,智能体缺乏这一知识。比较智能体1,它随机猜测,,导致。相比之下,智能体2使用第一性原理计算,发现 ₂₄₂(假设其结构为xx[参考文献:MaterialsProjectID])是其竞争者中能量最低的相位[参考文献],表明其稳定性。因此,智能体2预测 ₂₄₂ 很可能是可合成的,意味着 。因此,,这意味着智能体2对现实世界的理解更为准确。
现在,假设智能体已经进行了一些测量,并确定了数据点 的子集的具体值。令 表示这个已知子集, 表示剩余的未知部分。相应地,我们将所有现有知识的空间定义为 ,将所有未知信息的空间定义为,满足。例如,在文本生成中,提示文本 代表已知信息。语言模型的效率通过它基于 对生成文本 的预测准确性来衡量。更一般地,智能体的智能通过条件概率分布的相对熵来衡量:
在实践中,智能体的所有知识都存储在其记忆中,即。我们将智能体的智能定义为:
换句话说,智能体的智能 由其记忆 和世界模型 的参数 决定。如图12.1所示,在时间时,当 非常有限或缺乏与新目标科学问题相关的信息时, 主要由 的zero-shot预测能力决定,这对应于流动智力[867]。随着时间的推移,随着更多相关知识被纳入, 将越来越依赖于知识增强的预测能力 ,从而反映出结晶智力[868]。
图12.1:智能体智能与知识发现的示意图
12.1.2 智力增长的统计性质
从统计学的角度来看,智能体的智能是已获得知识的非递减函数。粗略来说, 量化了智能体所获得的知识量以及智能体在从 学习后能多有效地应用这些知识。直观上,如果智能体在时间 获得了额外的信息——这对应于扩大 并缩小 —— 它的智能应该会增加。
为了理解这个过程,考虑一个小区域 ,并检查将数据集 从 添加到 对智能体智能的影响。令 ,其中 表示世界中剩余的未知部分。智能体在时间 的智能为:
直接比较 和 是具有挑战性的。相反,我们可以通过对 进行加权平均来比较 的期望值,权重为 的概率。这一期望值表示在已知 的先验知识的基础上,通过测量∆获得的知识量的平均值。我们得到:
第二项是条件概率分布 的相对熵,它始终是非负的。因此,平均而言,随着 随着时间的推移获得新知识, 是非递减的。需要注意的是, 可以通过利用新获得的知识来优化 中的 ,进一步提高智能体的智能。
有趣的是,智能体在时间t的预期智力增长由实际分布 与模型预测分布 之间的差异决定。换句话说,当新的测量结果更出乎意料时,智能增长的速度较高,正如图12.1所示。这一观察结果将科学家智能体[859]识别为一种特殊类型的好奇心驱动型智能体[869],它优先探索而非利用现有知识,以拓展知识的前沿,从而更深入地理解自然。与那些利用现有知识实现预定目标的智能体不同,好奇心驱动的智能体可以在没有外在奖励的情况下学习[387,870](详细内容见第5.3节),使其能够在超出人类规划的搜索空间之外进行发现,揭示未探索领域中的知识。这一潜力还强调了为好奇心驱动的智能体配备基本的感知和行动工具的重要性,这些工具可以被转移到探索新知识领域中。
12.1.3 智力进化策略
扩展已知信息的策略决定了智能体智能进化的速度。对于给定的知识库 ,参数 可以在由 的架构所表征的世界模型空间 中进行优化。最优智能体是通过最小化 来实现的,从而最大化 :
和
在这里, 表示从 学习后,对于这一系列模型的最小未知量,量化了的表达限制。如图12.1所示, 构成了函数族 的包络,其中 在 范围内变化。
对于给定的模型族 ,衡量了基于 解决目标科学问题时,残余未知量的最佳预测。换句话说, 中的知识内容由 所捕捉。可以证明,随着的扩展单调非增,因为它构成了一个非增函数族 的包络。这个扩展过程与智能体如何行动和获得信息密切相关,受到的驱动,决定了最优扩展并通过时间 的行动 执行(见表1.2)。
在知识发现过程中,可以采用不同的策略来扩展 。最优的扩展策略是能够导致 急剧下降的策略。例如,在图12.1中,我们展示了两种扩展 的策略,分别表示为和。第一种策略,,代表随机探索,而第二种策略,,则采用假设驱动的方法[871],其中智能体首先对目标问题的潜在机制提出假设,然后设计实验来验证或驳斥这一假设[749]。
在实践中,实验者通常会采用假设驱动的策略,因为它能帮助他们以一种最大化 减少的方式引导 c的扩展,同时考虑资源限制。与随机探索相比,这种方法通常更有效,从而使得 下降得比 更快。
一般而言,知识发现过程是迭代进行的,智能体反复优化世界模型参数 ,以接近,并理性地扩展 ,以加速 的下降。理想的状态是实现认知完整性,即 ,意味着智能体的预测与真实世界现象之间没有任何差异。然而,对于特定的智能体,可能存在一个发现边界,其中 接近零但仍然为正。这些差异来自实际约束和 , 以及智能体其他设计空间的限制[872]。要实现低的发现边界,需要设计一个自适应的世界模型架构、高效的知识扩展策略和足够的行动空间。
12.2 智能体与知识的互动
科学知识的典型形式包括观察性知识(例如,实验测量、计算结果)、方法性知识(例如,实验方法、计算技术、协议)和理论性知识(例如,理论、定律、预测模型)。这些知识形式能够促进科学理解,只要它们包含的数据和信息能够以某种方式处理,从而影响未知信息 的概率分布,减少 ,并促进决策制定。
原则上,外部科学知识已被证明在提高智能体在推理和决策制定中的表现方面具有重要作用[873,874]。然而,本调查的重点是探讨智能体如何自主发现并利用知识来增强自身。科学知识发现工作流程通常涉及假设生成、协议规划、进行实验和计算、分析数据、推导含义以及修正假设——这些过程通常是迭代周期的一部分。能够感知、学学习、推理和行动的智能体具有推动这些工作流程的潜力,例如通过使用应用程序接口(API)与物理仪器交互,获取科学知识并迭代地增强其知识库(如图12.2所示)。智能体将利用获得的知识更新其心理状态 ,以便在与世界 互动时做出更好的决策。接下来,我们将重点介绍三个智能体发现科学知识并增强自身的场景。
图12.2:可持续进化的知识发现闭环
12.2.1 假设生成与测试
假设生成与测试(图12.2)是智能体在自主科学发现中的一个关键应用,因为它有潜力推动突破性创新[749]。本质上,假设生成是形成潜在规则,这些规则支配着从单一观察到大数据集的数据分布,涉及未观察到的科学现象。根据卡尔·波普尔爵士的观点,一个科学假设必须是可被证伪的[875, 876];在本讨论中,我们将经过证伪的假设定义为一个正当的真假设[877, 860]。通常,科学家通过进行实验来测试假设,以证明或证伪这些假设。如果一个假设足够广泛,能够解释大量数据,并且很可能是正确的,那么这个假设通常被认为更有价值。
为了应对一个科学问题,智能体根据其心理状态 (其中包含关于部分可观察世界 的不完全信息)制定一个或少数几个高价值的假设。通过实验或计算测试后,一个经过证伪的假设成为有益的知识,扩展 ,从而以一种快速的方式最小化。因此,生成和测试高价值假设可以迅速推动知识发现,并提高。在这种情境下,智能体使用学习函数 ,将假设测试中的观察结果 转化为知识,并更新其心理状态 。
-
生成具有物理意义的假设是一个关键步骤
智能体通常结合使用大型语言模型(LLMs)、协作架构和领域知识来生成假设[878]。Si等人[742]进行了一项大规模的人类研究,涉及100多名自然语言处理(NLP)研究人员,发现LLM生成的创意比人类专家的创意更具新颖性(p < 0.05),尽管可行性稍弱。Ghafarollahi等人[743]开发了SciAgents,这是一种生成和优化材料科学假设的工具,用于阐明生物启发材料的基本机制、设计原理和意外属性。基于大规模本体知识图,SciAgents在感兴趣的概念之间采样一个可行路径,形成相关假设,并将其扩展成一个完整的研究提案,提供详细的假设测试方法和标准。它采用两个专门的智能体来审查、批评和改进提出的假设,但没有包括通过实际实验进行假设测试的步骤。类似地,Su等人[879]和Baek等人[880]提出了利用团队合作(如协作讨论和智能体批评)来产生新颖和有效的科学假设。此外,Gower等人[881]推出了LGEM+,它利用一阶逻辑框架描述生化途径,并为酵母S. cerevisiae的基因组规模代谢模型的自动推理改进生成2,094个独特的候选假设。
假设只有通过计算或实验观察得到证实后,才能成为知识。Lu等人[745]提出了AI Scientist,这是一种旨在完全自动化科学发现的系统。AI Scientist能够独立进行研究并传达其发现,已在三个机器学习子领域——扩散建模、基于变换器的语言建模和学习动态——中进行了展示。它能够生成原创的研究想法、编写代码、执行计算实验、可视化结果、草拟完整的科学论文,甚至模拟同行评审过程以进行评估。例如,它提出了“自适应双尺度去噪可以通过平衡生成样本中的全局结构和局部细节来改进扩散模型”的假设,并通过在四个二维数据集上的图像生成测试来证实这一假设。类似地,Schmidgall等人[746]开发了Agent Laboratory,以自动化执行整个研究过程,包括文献回顾、计算实验和报告写作。他们通过解决计算机视觉和自然语言处理中的五个研究问题,评估了Agent Laboratory在知识发现方面的能力,获得了平均人类评估实验质量分数3.2(满分5分)。此外,Tiukova等人[744]开发了Genesis,这是一个自动化系统,能够控制一千个微型生物反应器,进行质谱分析、访问结构化的领域信息数据库,并利用实验观察改进系统生物学模型。Genesis每天可以启动并执行1,000个假设驱动的闭环实验周期。通过类似的方法,Genesis团队推动了酵母(S. cerevisiae)的二氧化氮转变模型,超越了之前的最佳成果,并扩展了其知识库,包括92个基因(+45%)和1,048个相互作用(+147%)[882]。这一知识还推动了我们对癌症、免疫系统和衰老的理解。类似地,Gottweis等人[749]推出了AI共同科学家,它能够自动生成和完善新的研究假设,并在三个生物医学领域进行体外验证:药物再利用、新靶点发现以及细菌进化和抗微生物耐药机制。
-
发现的知识增强了智能体的心理状态
如 、 和 。例如,Tang 等人[747]开发了 ChemAgent,它通过动态自我更新的记忆 来提升化学推理能力。ChemAgent 提出假设性的化学问题答案,并与实际答案进行比较,模拟现实世界研究中假设测试的过程。正确的答案会被存储在它的记忆中,以支持未来的化学问题回答。这个自我更新的记忆使得 ChemAgent 在应用于来自 SciBench[883]的四个化学推理数据集时,性能提升了多达 46%(使用 GPT-4)。Wang 等人[884]介绍了分子语言增强进化优化(MOLLEO),它通过迭代提出修改候选药物分子假设,并更新 中的候选分子,评估它们的药物相似性,从而增强药物发现。类似地,Jia 等人[885]开发了LLMatDesign,它采用假设引导的结构生成和自我更新的 来设计无机光伏材料,理想性由匹配目标带隙和具有最负的形成能来定义。
Sim 等人[748]介绍了 ChemOS 2.0,它在化学自驱动实验室 (SDLs) 中协调闭环操作。ChemOS 2.0 整合了从头计算、实验协调和统计算法,用于自主发现高性能材料。一个关于发现有机激光分子的案例研究展示了其能力。它使用贝叶斯优化器 Altas 作为其世界模型 ,来预测假设分子的光学特性——特别是 Bis[(N-咔唑)苯乙烯]联苯 (BSBCz) 衍生物——包括增益截面和光谱颗粒因子。基于这些预测,ChemOS 2.0 推荐在实验过程中更有可能成功的分子。然后,它利用光学表征平台和 AiiDA 软件包来测量和模拟测试分子的特性。结果被用来更新 ,从而提高未来实验预测的准确性。
Hysmith 等人[886]发表了一篇观点文章,强调了奖励函数设计在开发面向未来的 SDL 工作流中的关键作用。智能体在模拟环境中,如计算机游戏或仿真中解决 POMDP 问题时非常有效,但在现实世界应用中常常面临困难。一个明确定义的奖励函数对迭代自我进化至关重要。然而,在许多现实世界的科学研究问题中,由于缺乏直接测量、实验结果的复杂性以及需要平衡多个目标,奖励函数在实验周期结束时往往未得到充分定义或根本不存在。新知识的发现可以作为一个宝贵的资源,用于优化 ,引导假设探索和实验数据收集。
12.2.2 协议规划与工具创新
规划实验协议和优化工具使用的能力使得智能体能够在自主发现循环中解决复杂的科学难题。正如在第9.4节中介绍的那样,智能体可以系统地评估和完善其选择、调用和整合可用工具的方法——甚至可以开发专门为特定任务需求量身定制的新工具。尽管优化的协议和工具使用并不会直接减少 ,它们通过提高执行效率和有效性,优化未知信息的概率分布 ,从而加速知识发现。在这种情况下,智能体利用推理功能 ,将其不断更新的新知识转化为现实世界的行动 ,以进行更有效和更快速的假设测试(图12.2)。
-
调度和协调现有工具的选择与重组至关重要
科学实验通常依赖于多种仪器来分析反应产物,而决策通常不仅依赖于一个测量结果。有效地利用所需的仪器而不浪费资源和时间要求智能体学习以集成和适应的方式使用工具。Dai等人[750]设计了一个模块化工作流程,集成了移动机器人、自动化合成平台和各种表征仪器,用于自主发现。他们在三个领域展示了这一系统的应用:结构多样化化学、超分子主客体化学和光化学合成。移动机器人遵循合成-分析-决策循环,模仿人类实验策略,自动确定后续工作流程步骤。它选择合适的仪器,例如用于合成的Chemspeed ISynth平台,用于测量化学峰信号对应的质量谱的液相色谱-质谱仪(UPLC-MS),以及用于追踪从起始材料到产品的化学转化的台式核磁共振光谱仪(NMR)。
在单个实验室之外,工具协调对于分散式和异步的科学发现至关重要。Strieth-Kalthoff等人[751]展示了跨越三个大洲的五个材料科学实验室的闭环集成,推动了分散化和民主化的科学发现。这五个实验室各有其强项——例如,不列颠哥伦比亚大学专注于连续优先结晶,而九州大学则在薄膜制备和表征方面表现出色。Strieth-Kalthoff等人采用了一种基于云的实验规划器,能够持续从传入的数据中学习,并有效地优先安排跨五个实验室的有信息量的实验,最终发现了21种用于有机固态激光器的新型尖端材料。
-
智能体还可以优化现有工具,甚至创造新工具以增强其能力
Swanson等人[752]开发了虚拟实验室,这是一个由AI驱动的研究环境,便于新型SARS-CoV-2纳米抗体的设计和实验验证。在虚拟实验室中,AI智能体在团队会议中进行科学讨论,并在单独的会话中执行专门的任务。智能体的一个关键议程是开发帮助设计纳米抗体结合物的工具[887],包括:(1)一个序列分析工具,使用ESM蛋白语言模型的对数似然比对候选点突变进行排名[888];(2)一个结构评估工具,从AlphaFold-Multimer预测中提取界面pLDDT评分[889],提供抗体-抗原结合亲和力的智能体;(3)一个基于Rosetta[890]的能量估算工具,用于量化纳米抗体变体与刺突蛋白之间的结合强度。这些由智能体生成的工具使虚拟实验室能够发现两种新型纳米抗体,这些抗体增强了与JN.1或KP.3 SARS-CoV-2变种的结合,同时保留了与祖先病毒刺突蛋白的强亲和力。
12.2.3 数据分析与含义推导
尽管大多数知识发现过程依赖于生成假设并在现实世界中进行测试——其中观察数据 是至关重要的——但大量的知识也可以通过纯粹的内部行动来推导,例如迭代推理和深度思考,这在理论学科中尤为常见。例如,欧几里得几何中的所有定理都可以从五条公理中推导出来,但在这些定理被推导出来之前,它们在心理状态中并不存在。给定所有必要的前提条件,如欧几里得的五个公设,假设的真实概率可能依然难以捉摸。然而,通过使用演绎和归纳推理,从已知前提和数据中推导含义,可以帮助验证或证伪假设,从而减少 并增强 (见图12.2)。在这种情境下,智能体利用认知功能 ,利用先前的心理状态 和内部行动 推导出新知识,并更新心理状态为 。
-
演绎推理通过逻辑实现知识的推导
Trinh等人[753]开发了AlphaGeometry,用于基于欧几里得平面几何中的现有定理进行新的数学定理的前向推导。AlphaGeometry 使用神经语言模型在平面几何问题中构建辅助点,并集成专门的符号引擎,全面推导出新的真实陈述,从而扩展已知真理的联合闭包。通过利用这一扩展的闭包,它在辅助构造和符号推理引擎之间交替进行,揭示进一步的含义。AlphaGeometry 在30个最新的奥林匹克级问题测试集上展示了卓越的表现,解决了其中的25个问题——是之前最佳方法解决的10个问题的两倍多——并接近国际数学奥林匹克(IMO)金牌获得者的水平。
-
归纳推理通过模式识别和统计学习实现知识的推导
Liu等人[754]提出了AI科学家团队(TAIS),模拟数据科学家的角色以简化数据分析。TAIS 将复杂的数据分析问题分解为不同的计算任务,包括编码、自我批评和回归分析,以从复杂的数据集中提取有意义的见解。在应用于识别与疾病相关的预测基因时,TAIS 在包含457个遗传问题的基准数据集上取得了45.73%的总体成功率。理想情况下,提取的见解应该是逻辑上合理的;否则,必须舍弃它们,以确保只有准确的发现才能安全地整合到心理状态中。然而,数据覆盖的局限性和分析算法的实施可能导致虚假的见解,这突显了需要可靠的数据分析器和推理工具,以防止过度分析。
12.3 技术准备度与挑战
智能体的自我进化,进而推动人类知识的进步,得益于其在创新周期中的早期成功。这个周期包括生成有意义的假设、设计实时测试协议、协调各种实验和计算工具、分析数据、推导含义以及进行自我反思。然而,实现完全自主的自我进化仍然是一个重大挑战,考虑到当前三项基本能力的技术准备度(TRLs):与现实世界的互动、复杂推理和前知识的整合。为了改善自我驱动创新的循环,还需要进一步的技术进步。
12.3.1 现实世界互动挑战
智能体主要通过应用编程接口(APIs)与现实世界进行交互。尽管已有许多展示[891]表明智能体能够有效地使用各种API,但在自主知识发现中依然存在一个重要瓶颈:缺乏能够让智能体直接在物理实验室中执行任务的API。物理API——能够直接控制实验室设备的接口——远不如计算API普遍,因为开发这些API需要大量的时间、专业知识和成本。尽管现有的自主实验室已展现出一定潜力,但它们仍处于早期发展阶段(通常是TRL 4-6),此时简单的复制或扩展仍然具有挑战性。因此,构建进一步的系统或将其应用拓展到更多科学领域,仍然需要大量的定制工作,以满足领域特定的需求,并需要专业的技术支持。
实现与现实世界的互动需要完成两个关键任务:操作实验设备和在设备之间转移样品。物理硬件和实验样品的无缝集成对于维持不间断的工作流程至关重要。然而,大多数实验仪器最初是为人工操作设计的。使这些设备可供智能体使用需要在多个学科领域进行广泛的努力,包括机器人学、电气工程、机械工程和软件编程。随着SDL(自驱动实验室)的崛起,推动了将人工操作设备转变为智能体可访问系统的进程,这一转变是通过API实现的。在进行复杂实验的自主实验室中,通常采用两种平行且互补的方法,将硬件与智能体系统进行集成。这两种方法都是模块化、可重新配置的,并且都具有重要价值,但它们仍需要持续、专门的开发。
-
方法1:通过直接设备适配的API集成
这种方法涉及为各个设备配备专门的机械适配器和I/O控制器,使其能够接收并执行来自中央控制PC的命令。例如,为实现无机材料的固态合成和结构表征,A-lab已经实施了16种设备来自动化实验任务,如粉末计量、加热和衍射[892]。这种方法通过最大化设备利用率、优化空间和资源并启用定制工具,使实验室能够作为完全集成的实体运作。然而,这种方法成本高、耗时且需要专家知识来原型设计或改装设备以实现自动化。大语言模型(LLMs)已被应用于促进对各种工具的访问,正如CACTUS(化学智能体连接工具使用与科学)所示[893]。
对于小型团队来说,一个更易接近的替代方案是云实验室或科学工厂[894],在这种方案中,设备工程的责任从单个实验室转移到专门的用户设施或商业服务提供商。例如,Boiko等人[895]展示了一种自主化学研究智能体Coscientist,该智能体能够使用Emerald Cloud Lab的实验设置执行交叉偶联的铃木反应和Sonogashira反应[896]。然而,云实验室仅提供一套固定的预构建设备,这些设备针对常见的实验程序进行了优化,这对于那些实验需要设备定制的研究人员可能构成潜在挑战,因为集成非标准工具可能涉及漫长的谈判和开发过程。
-
方法2:实验设备的机器人操作
此方法涉及使用移动机器人或机器人臂来操作现有设备并转移样品。在许多情况下,机器人可以在不进行修改的情况下与仪器进行互动,只需进行一些小调整,如添加专用的执行器、夹爪或支架。例如,Dai等人[750]使用移动机器人探索合成化学。在他们的自主实验室中,移动机器人实现了空间上分离的合成和分析设备之间的物理连接,自动化了样品运输和处理。从理论上讲,机器人可以执行实验室中人类研究人员所需的所有操作。然而,当前的机器人系统仍依赖于人类预编程来绘制实验室布局、定义运动轨迹和登记设备位置。处理意外或适应性情境仍然是一个挑战,因为预编程无法预测实验设置的每一个可能状态。实时学习和自适应操作是活跃的研究领域,需要进一步的技术进展。从长远来看,具身人工智能[897]预计将增强机器人的学习能力,使智能体能够快速适应新的环境和工具。
这两种方法可以结合使用。例如,Vescovi等人[894]定义了一种模块化的实验室机器人架构,能够将高级命令转化为各种机器人设备和实验室设备的具体操作,并将机器人设备与AI驱动的发现架构的其他元素(如高性能计算)连接起来[898]。该架构已被用于生物学和物理学领域的实验自动化[899]。类似地,Fernando等人[900]将一个兼容机器人操作系统2(ROS2)的机器人集成到Bluesky实验协调框架中。Lo等人[901]提倡开发和整合低成本的“节俭双胞胎”设备,以便促进实验并使访问更加普及。
12.3.2 复杂推理挑战
一个基本的哲学问题是:由大型语言模型(LLMs)驱动的代理是否真的具备推理能力。从定义上来看,语言模型通过预测下一个词元(token)来生成输出,这种机制在本质上与人类的推理方式截然不同。从结果导向的角度来看,这些输入输出系统在现象上表现出一定的推理能力,因为与生成随意回应的参考系统相比,它们能生成有意义的输出[902]。然而,无论采用何种视角来看,这种能力依然是不完美的——特别是在处理复杂的逻辑和数值问题时尤为明显,而这些问题对于科学知识的发现至关重要。
-
智能体和大语言模型(LLM)在处理困难推理任务时存在困难
Glazer等人[903]提出了FrontierMath,这是一个基准,包含数百个原创且具有挑战性的数学问题,涵盖了现代数学的主要分支。对最先进的LLM驱动智能体进行评估,包括o1-preview(OpenAI)、o1-mini(OpenAI)、GPT-4o(OpenAI,2024-08-06版)、Claude 3.5 Sonnet(Anthropic,2024-10-22版)、Grok 2 Beta(XAI)和Gemini 1.5 Pro 002(Google DeepMind),结果显示,没有任何模型在完整基准上达到2%的成功率。Chen等人[873]提出了ScienceAgentBench,这是一个旨在评估语言智能体在数据驱动的科学发现中的基准。在来自四个学科的44篇同行评审文献中衍生的102个任务中,OpenAI o1成功解决了其中的42.2%。Chollet[865]提出了抽象和推理挑战(ARC),以评估LLM在不依赖记忆或外部知识的情况下执行抽象归纳推理的能力。即使进行了仔细的提示,GPT-4o仅正确解决了19%的任务,远低于约75%的平均人类表现[904, 905]。Zhu等人[906]建议对AI智能进行四级分类,包括L1(裁定争议)、L2(审核审查)、L3(审查论文)和L4(撰写论文)。他们将当前最先进的LLM驱动智能体分类为接近L2级别的能力。为了增强智能体的推理能力,研究人员提出了如链式思维[907]、思维树[72]和[70]等技术。尽管新方法不断出现,如第2.2节所述,但推理能力的进一步提升仍然是实现科学研究中可靠因果推理的关键。
-
智能体和大语言模型(LLM)在处理定量和符号性问题时也存在困难
例如,GPT-4和GPT-3.5经常难以可靠地进行复杂的算术运算,如乘法计算12,345 × 98,765,或者将IUPAC化学名称转换为准确的分子图[908, 697]。一种常见的克服这些限制的方法是使用外部工具,而不是依赖LLM本身进行推理。例如,在数学问题求解中,通常会选择符号求解器等工具,而不是直接依赖LLM推理[753]。然而,这种方法并没有解决数值理解中的固有缺陷,这对科学推理构成了潜在风险。此外,Yu等人[909]发现,增强工具的LLM在化学问题求解中并不总是优于不使用工具的基础LLM。例如,对于专业化的化学任务,如合成预测,使用专门的工具增强LLM可以显著提高性能;然而,对于一般性的化学问题,如考试中的问题,工具增强的效果较小,因为没有特定的工具可以直接解决给定的问题。在这些情境中,智能体通过使用多种化学知识进行正确推理的能力变得更加重要。
前面的讨论强调了为评估AI智能体作为科学研究助手而开发稳健方法的重要性,这一话题在Cappello等人[910]的研究中进行了详细讨论。
12.3.3 整合先验知识的挑战
先验知识是更高智能的重要因素。如第12.1节所述,智能体的先验知识 有助于减少 并提高智能体的智能水平 。人类主导的科学发现通常能在相对较小的数据集上取得突破,这得益于人类拥有广泛的先验知识。驱动自主智能体的最先进的大型语言模型(LLMs)已经在几乎所有公开可用的文本数据上进行训练,包括网站、书籍和其他来源,从而涵盖了大多数常识以及公开可得的专业知识。然而,要实现一个能够无缝整合所有现有的人类知识的智能体仍然是一个重大挑战。
至少有三种类型的知识来源可能未包含在LLM的预训练中:(1)付费墙或未发布的知识,包括非开放访问的出版物、行业特定数据和失败的实验[911]。这些通常无法公开访问,尽管它们在完善领域特定的见解方面具有潜在价值。(2)经验性知识。专家的启发式决策通常是有效的,尤其是在没有现有数据来解决新问题的情况下。然而,大量的专家启发式方法通常无法作为文本数据访问。(3)情境或情境知识。与现实世界条件相关的知识,如化学反应中的安全协议或设备操作,通常缺失于预训练模型中,但对于实际应用至关重要。
此外,整合多样化的知识来源还面临着调和冲突信息的挑战。例如,OpenAI的Deep Research[912]积极收集在线信息并进行多步推理,在“人类的最后考试”和GAIA基准测试中取得了先进的表现。然而,它仍然难以区分权威信息和谣言,并且在置信度校准方面存在局限,经常误表示其确定性水平[912]。为了有效地融合知识,可能需要建立一个系统来评估不同知识片段的证据水平[913],例如量化可靠性和验证引用。
【往期回顾】