《Scientific discovery in the age of artificial intelligence》全文翻译

酿久诗

已于 2023-09-08 22:40:48 修改

阅读量1.1k

点赞数 5

分类专栏：论文阅读笔记文章标签： AI时代的科学发现

于 2023-08-07 21:21:34 首次发布

本文链接：https://blog.csdn.net/qq_41731861/article/details/132132984

版权

论文阅读笔记专栏收录该内容

12 篇文章 10 订阅

订阅专栏

论文信息

题目：《Scientific discovery in the age of artificial intelligence》
作者：Hanchen Wang, Yoshua Bengio, Marinka Zitnik and et al.
期刊：Nature
发表时间：2 August 2023
文章类型：综述类文章

摘要

人工智能（AI）正越来越多地融入科学发现中，以增强和加速研究，帮助科学家生成假设、设计实验、收集和解释大型数据集，并获得仅使用传统科学方法可能无法实现的见解。在这里，我们研究了过去十年的突破，包括自监督学习，它允许模型在大量未标记的数据上进行训练，以及几何深度学习，它利用有关科学数据结构的知识来提高模型的准确性和效率。生成式人工智能方法可以通过分析各种数据模式（包括图像和序列）来创建设计，例如小分子药物和蛋白质。我们将讨论这些方法如何在整个科学过程中帮助科学家，以及尽管取得了这些进步，但仍然存在的核心问题。人工智能工具的开发人员和用户都需要更好地了解这些方法何时需要改进，而数据质量和管理能力差带来的挑战仍然存在。这些问题跨越科学学科，需要开发有助于科学理解或自主获取科学理解的基础算法方法，使其成为人工智能创新的关键重点领域。

1. 介绍部分

形成科学见解和理论的基础是由如何收集、转换和理解数据奠定的。深度学习在2010年代初的兴起大大扩展了这些科学发现过程的范围和雄心。人工智能（AI）越来越多地用于跨科学学科，以整合海量数据集、优化测量、指导实验、探索与数据兼容的理论空间，并提供与科学工作流程集成的可操作且可靠的模型，以实现自主发现。

数据收集和分析是科学理解和发现的基础，这是科学的两个中心目标，以及定量方法和新兴技术，从显微镜等物理仪器到自举等研究技术，长期以来一直被用来实现这些目标。1950年代数字化的引入为科学研究中计算的普遍使用铺平了道路。自 2010 年代以来，数据科学的兴起使人工智能能够通过从大型数据集中识别科学相关的模式来提供有价值的指导。
在这里插入图片描述

图1|人工智能时代的科学。科学发现是一个多方面的过程，涉及几个相互关联的阶段，包括假设形成、实验设计、数据收集和分析。人工智能有望通过增强和加速科学发现过程每个阶段的研究来重塑科学发现。这里展示的原理和说明性研究强调了对增强科学理解和发现的贡献。

尽管不同科学研究阶段的科学实践和程序有所不同，但人工智能算法的发展跨越了传统上孤立的学科（图1）。此类算法可以增强科学研究的设计和执行。通过优化参数和功能，它们正在成为研究人员不可或缺的工具、自动化收集、可视化和处理数据的程序，探索大量候选假设以形成理论，并生成假设并估计其不确定性以建议相关实验。

Box 1
词汇表

当数据标记成本高昂时，主动学习可以通过选择信息最丰富的训练点来改进人工智能模型。贝叶斯优化是一种顺序策略，用于优化昂贵的黑盒函数，通常与主动学习一起确定黑盒函数的下一个查询。
自动编码器是一种学习未标记数据的压缩表示的神经架构，由编码器（将数据映射到表示）和解码器（从表示重建数据）组成。
数据增强是一种通过从现有数据样本创建新数据样本来增强模型稳健性和泛化性的策略。此过程可能涉及替换序列中的标记、改变图像的视觉效果或更改原子位置，始终保留基本信息。这项技术不仅增加了数据的多样性，还增加了数据的数量，从而有助于模型的训练。
分布偏移是人工智能方法应用中的一个普遍问题，即算法最初训练的底层数据分布与其在实现过程中遇到的数据分布不同。
端到端学习使用可微分组件（例如神经网络模块）将原始输入直接连接到输出，避免了手工制作输入特征的需要，并能够从输入直接生成预测。
生成模型估计基础数据的概率分布，然后可以根据该分布生成新样本。例子包括变分自动编码器、生成对抗网络、标准化流、扩散模型和生成预训练变压器。
几何深度学习是机器学习的一个领域，处理几何数据，例如图形或流形。它通常在变换下保持几何数据的不变性，并且可以应用于 3D 结构。
归纳偏差是指指导人工智能模型决策过程的一组假设或偏好，例如卷积网络中的平移等方差。
逆问题是一种科学或数学挑战，其目标是破译导致特定观察或数据集的根本原因或参数。逆问题不是从原因到结果进行直接的、向前的预测，而是朝相反的方向运作，试图从所得的观察中推断出原始条件。由于非唯一性和不稳定性，这些问题通常很复杂，多组原因可能导致类似的结果，而数据的微小变化可能会极大地改变解决方案。
基于物理的人工智能是指将物理定律作为先验知识的一种形式融入人工智能模型的技术。
强化学习涉及顺序决策，并表示为马尔可夫决策过程，包括代理、一组状态、动作空间、环境（决定状态如何随动作变化）和奖励函数。强化学习代理经过训练，可以根据导致最大预期累积奖励的状态选择最佳动作。
表示学习技术自动生成数据的表示，例如图像、文档、序列或图形。这些表示通常是密集、紧凑的向量，称为嵌入或潜在向量，经过优化以捕获输入数据的基本特征。
自监督学习是一种从未标记数据中学习的训练策略。例如，生成式自我监督学习涉及根据原始数据的其余部分来预测部分原始数据，而对比性自我监督学习则涉及定义输入的积极和消极观点，然后对齐积极因素并分离消极因素。这两种方法都旨在增强模型在不需要标记数据的情况下学习有意义特征的能力。
代理模型是分析上易于处理的模型，用于近似复杂系统的属性。
对称性。等变性，在物理学中也称为协方差，表征函数的对称性。等变函数在特定组的运算下等效地变换输入。不变性是对称性的另一种形式，如果输入变换时输出保持不变，则函数对于一组变换来说是不变的。
Transformer 是一种神经架构，它通过一系列步骤使用注意力来并行处理顺序数据。在每一步中，注意力机制都会选择并组合前一步序列中的元素，以可微且软的方式为序列中的每个位置形成新的表示。
弱监督学习利用不完美、部分或嘈杂的监督形式（例如有偏见或不精确的标签）来训练人工智能模型。

自 2010 年代初以来，由于大型数据集的可用性、快速大规模并行计算和存储硬件（图形处理单元和超级计算机）以及新算法的帮助，人工智能方法的威力已大大增强。后者包括深度表示学习（方框 1），特别是能够识别基本、紧凑特征的多层神经网络，这些特征可以同时解决科学问题背后的许多任务。其中，几何深度学习（方框 1）已被证明有助于整合科学知识，以物理关系、先验分布、约束和其他复杂描述符（例如分子中原子的几何形状）的紧凑数学陈述的形式呈现。自监督学习（方框1）使在标记或未标记数据上训练的神经网络能够将学习到的表示转移到具有很少标记示例的不同域，例如，通过预训练大型基础模型并使其适应不同领域的不同任务域。此外，生成模型（方框1）可以估计复杂系统的底层数据分布并支持新设计。与人工智能的其他用途不同，强化学习方法（方框1）通过探索许多可能的场景并根据指标（例如从经过考虑的实验中预期的信息增益）为不同的操作分配奖励来找到环境的最佳策略。

在人工智能驱动的科学发现中，可以使用适当的归纳偏差（方框1）将科学知识纳入人工智能模型中，这些假设是将结构、对称性、约束和先验知识表示为紧凑的数学陈述。然而，应用这些定律即使使用传统的数值方法，也会导致人类无法求解的方程。一种新兴的方法是将科学知识融入人工智能模型中，方法是包含有关基本方程的信息，例如物理定律或分子结构原理和蛋白质折叠中的结合。这种归纳偏差可以通过减少达到相同准确度水平所需的训练样本数量并将分析扩展到大量未经探索的科学假设来增强人工智能模型。

与利用人工智能的人类努力的其他领域相比，使用人工智能进行科学创新和发现提出了独特的挑战。最大的挑战之一是科学问题中假设空间的巨大性，使得系统的探索变得不可行。例如，在生物化学中，估计存在 1060 种药物样分子可供探索。人工智能系统有潜力通过加速流程并提供接近实验精度的预测来彻底改变科学工作流程。然而，获得可靠注释的人工智能模型数据集存在挑战，这可能涉及耗时且资源密集的实验和模拟。尽管存在这些挑战，人工智能系统可以实现高效、智能和高度自主的实验设计和数据收集，其中人工智能系统可以在人类监督下运行，以评估、评估结果并根据结果采取行动。这些能力促进了人工智能代理的开发，这些智能代理可以在动态环境中持续交互，并且可以做出实时决策以导航平流层气球。人工智能系统可以在解释科学数据集以及以通用方式从科学文献中提取关系和知识方面发挥重要作用。最近的研究结果表明，无监督语言人工智能模型有可能捕获复杂的科学概念（例如元素周期表），并在功能材料发现前数年预测其应用，这表明有关未来发现的潜在知识可能嵌入在过去的出版物中。

最近的进展，包括成功解决 50 年前的蛋白质折叠问题以及人工智能驱动的具有数百万粒子的分子系统模拟，证明了人工智能解决具有挑战性的科学问题的潜力。然而，发现的巨大前景也伴随着新兴领域“人工智能科学”（AI4Science）面临的重大挑战。与任何新技术一样，AI4Science 的成功取决于我们将其融入日常实践并了解其潜力和局限性的能力。在科学发现中广泛采用人工智能的障碍包括发现过程每个阶段特有的内部和外部因素，以及对方法、理论、软件和硬件的实用性以及潜在滥用的担忧。我们探索 AI4Science 的发展并解决关键问题，包括科学行为、传统怀疑论和实施挑战。

2. 人工智能辅助科学研究数据收集和管理

实验平台收集的数据集的规模和复杂性不断增加，导致科学研究越来越依赖实时处理和高性能计算来选择性地存储和分析高速率生成的数据。

2.1 数据选择

典型的粒子碰撞实验每秒生成超过 100 TB 的数据。此类科学实验正在突破现有数据传输和存储技术的极限。在这些物理实验中，超过 99.99% 的原始仪器数据代表必须实时检测并丢弃的背景事件，以管理数据速率。为了识别未来科学探究的罕见事件，深度学习方法用搜索外围信号的算法取代了预编程的硬件事件触发器，以检测在压缩过程中可能会错过的不可预见或罕见的现象。可以使用深度自动编码器对后台进程进行生成建模（方框1）。对于超出背景分布的先前未见过的信号（罕见事件），自动编码器返回更高的损失值（异常分数）。与监督异常检测不同，无监督异常检测不需要注释，已广泛应用于物理学、神经科学、地球科学、海洋学和天文学。

2.2 数据标注

训练监督模型需要带有注释标签的数据集，这些标签提供监督信息来指导模型训练并估计输入中目标变量的函数或条件分布。伪标签和标签传播是费力的数据标签的诱人替代方案，允许仅基于一小部分准确注释对大量未标记数据集进行自动注释。在生物学中，由于实验生成标签的困难，为新表征的分子分配功能和结构标签的技术对于监督模型的下游训练至关重要。例如，尽管新一代测序技术不断涌现，但只有不到 1% 的已测序蛋白质带有生物学功能注释。数据标记的另一种策略利用在手动标记数据上训练的代理模型来注释未标记的样本，并使用这些预测的伪标签来监督下游预测模型。相反，标签传播通过基于特征嵌入构建的相似图将标签扩散到未标记的样本（方框1）。除了自动标记之外，主动学习（方框1）还可以识别要由人类标记的信息最丰富的数据点或要执行的信息最丰富的实验。这种方法允许使用更少的专家提供的标签来训练模型。数据注释的另一个策略是开发利用领域知识的标记规则。

2.3 数据生成

深度学习性能随着训练数据集质量、多样性和规模的提高而提高。创建更好模型的一种富有成效的方法是通过自动数据增强和深度生成模型生成额外的合成数据点来增强训练数据集。除了手动设计此类数据增强（方框 1）之外，强化学习方法还可以发现自动数据增强策略，该策略灵活且与下游模型无关。深度生成模型，包括变分自动编码器、生成对抗网络、归一化流和扩散模型，学习底层数据分布，并可以从优化的分布中采样训练点。生成对抗网络（方框1）已被证明对科学图像有益，因为它们可以在许多领域合成真实图像，包括粒子碰撞事件、病理幻灯片、胸部 X 光片、磁共振对比、三维 (3D) 材料微观结构，蛋白质功能到遗传序列。生成建模中的一项新兴技术是概率编程，其中数据生成模型被表达为计算机程序。

2.4 数据细化

超高分辨率激光器和非侵入式显微镜系统等精密仪器可以直接测量物理量或通过计算现实世界的物体来间接测量，从而产生高精度的结果。人工智能技术显着提高了测量分辨率，降低了噪声并消除了圆度测量误差，从而实现了跨站点的高精度一致。人工智能在科学实验中的应用示例包括黑洞等时空区域的可视化、捕捉物理粒子碰撞、提高活细胞图像的分辨率以及更好地检测跨生物环境的细胞类型。深度卷积方法利用光谱反卷积、灵活稀疏性和生成能力等先进算法，可以将较差的时空分辨率测量结果转化为高质量、超分辨率和结构化图像。各个科学学科中的一项重要人工智能任务是去噪，其中涉及区分相关信号和噪声并学习消除噪声。去噪自动编码器可以将高维输入数据投影成基本特征的更紧凑的表示。这些自动编码器最大限度地减少了未损坏的输入数据点与从噪声损坏版本的压缩表示中重建的数据之间的差异。其他形式的分布学习自动编码器，例如变分自动编码器（VAE；方框 1），也经常使用。 VAE 通过潜在自动编码学习随机表示，保留基本数据特征，同时忽略非基本变异源（可能代表随机噪声）。例如，在单细胞基因组学中，自动编码器优化数百万个细胞中基于计数的基因激活载体，通常用于改进蛋白质-RNA 表达分析。

3. 学习科学数据的有意义的表示

深度学习可以在不同抽象层次上提取科学数据的有意义的表示，并对其进行优化以指导研究，通常是通过端到端学习（方框 1）。高质量的表示应该保留尽可能多的数据信息，同时保持简单和易于访问。具有科学意义的表示是紧凑的、区分性的、解开变异的潜在因素并编码可泛化到众多任务的潜在机制。在这里，我们介绍三种满足这些要求的新兴策略：几何先验、自我监督学习和语言建模。

3.1 几何先验

事实证明，将几何先验融入学习表示中是有效的，因为几何和结构在科学领域中发挥着核心作用。对称性是几何学中广泛研究的概念。它可以用不变性和等变性（方框1）来描述，以表示数学函数（例如神经特征编码器）在一组变换（例如刚体动力学中的 SE(3) 组）下的行为。重要的结构特性，例如分子系统的二级结构含量、溶剂可及性、残基致密性和氢键模式，对于空间方向是不变的。在科学图像的分析中，对象在图像中平移时不会发生变化，这意味着图像分割掩模在平移上是等变的，因为它们在输入像素平移时等效地变化。通过增加训练样本，将对称性纳入模型可以使 AI 与有限的标记数据集（例如 3D RNA 和蛋白质结构）一起使用，并且可以改进对与模型训练期间遇到的输入明显不同的输入的外推预测。

3.2 几何深度学习

在这里插入图片描述

图2|学习科学数据的有意义的表示。 a，几何深度学习通过利用图形和神经消息传递策略来整合有关科学数据的几何、结构和对称性的信息，例如分子和材料。这种方法通过沿着图中的边缘交换神经消息来生成潜在表示（嵌入），同时考虑其他几何先验，例如不变性和等方差约束。因此，几何深度学习可以将复杂的结构信息合并到深度学习模型中，从而更好地理解和操作底层几何数据集。 b，为了有效地表示卫星图像等不同样本，捕获它们的相似点和差异至关重要。自我监督学习策略（例如对比学习）通过生成增强对应项并在分离负对的同时对齐正值来实现这一目标。这个迭代过程增强了嵌入，从而产生信息丰富的潜在表示和下游预测任务的更好性能。 c，掩码语言建模有效地捕获序列数据的语义，例如自然语言和生物序列。这种方法涉及将输入的屏蔽元素馈送到转换器块中，其中包括预处理步骤，例如位置编码。自注意力机制由灰线表示，颜色强度反映注意力权重的大小，结合非屏蔽输入的表示来准确预测屏蔽输入。这种方法通过在输入的许多元素上重复此自动完成过程来生成序列的高质量表示。

图神经网络已成为对具有底层几何和关系结构的数据集进行深度学习的主要方法（图2a）。从更广泛的意义上讲，几何深度学习涉及发现关系模式并为神经网络模型配备归纳偏差，这些偏差通过神经消息传递算法显式地利用以图和转换组形式编码的局部信息。根据科学问题，开发了各种图形表示来捕获复杂的系统。有向边缘可以促进玻璃系统的物理建模，具有连接多个节点的边缘的超图用于理解染色质结构，在多模态图上训练的模型用于创建基因组学中的预测模型，以及稀疏、不规则和高度相关的图已应用于许多大型强子对撞机物理任务，包括从探测器读数重建粒子以及根据背景过程区分物理信号。

3.3 自监督学习

当只有少数标记样本可用于模型训练或特定任务的标记数据过于昂贵时，监督学习可能是不够的。在这种情况下，利用标记和未标记数据可以提高模型性能和学习能力。自监督学习是一种使模型能够在不依赖显式标签的情况下学习数据集的一般特征的技术。有效的自我监督策略包括预测图像的遮挡区域、预测视频中过去或未来的帧，以及使用对比学习来教导模型区分相似和不相似的数据点（图2b）。自监督学习可以是一个关键的预处理步骤，可以在小型标记数据集上微调模型以执行下游任务之前，学习大型未标记数据集中的可转移特征。这种对科学领域具有广泛理解的预训练模型是通用预测器，可以适应各种任务，从而提高标签效率并超越纯监督方法。

3.4 语言建模

掩码语言建模是一种流行的自然语言和生物序列自监督学习方法（图 2c）。将原子或氨基酸（标记）排列成结构以产生分子和生物功能，类似于字母如何形成单词和句子以定义文档的含义。随着自然语言和生物序列处理的不断发展，它们相互促进发展。在训练过程中，目标是预测序列中的下一个标记，而在基于屏蔽的训练中，自监督任务是使用双向序列上下文恢复序列中的屏蔽标记。蛋白质语言模型可以编码氨基酸序列以捕获结构和功能特性并评估病毒变体的进化适应性。这种表示可以跨各种任务转移，从序列设计到结构预测。在处理生化序列时，化学语言模型有助于有效探索广阔的化学空间。它们已被用来预测性质、规划多步合成以及探索化学反应的空间。

3.5 Transformer 架构

Transformer（方框1）是神经架构模型，可以通过灵活地建模任意标记对之间的交互来处理标记序列，超越了早期使用循环神经网络进行顺序建模的努力。 Transformer 在自然语言处理中占据主导地位，并已成功应用于一系列问题，包括地震信号检测、DNA 和蛋白质序列建模、序列变化对生物功能影响的建模以及符号回归。尽管 Transformer 统一了图神经网络和语言模型，但 Transformer 的运行时间和内存占用可以随序列长度呈二次方扩展，从而导致远程建模和线性化注意力机制解决效率挑战。因此，无监督或自监督的生成式预训练 Transformer 以及随后的参数高效微调被广泛使用。

3.6 神经算子

标准神经网络模型可能不足以满足科学应用的需要，因为它们假设固定的数据离散化。这种方法不适合以不同分辨率和网格收集的许多科学数据集。此外，数据通常是从连续域中的基础物理现象中采样的，例如地震活动或流体流动。神经算子通过学习函数空间之间的映射来学习离散化不变的表示。神经算子保证是离散化不变的，这意味着它们可以处理输入的任何离散化，并在网格细化时收敛到极限。一旦神经算子经过训练，就可以在任何分辨率下对其进行评估，而无需重新训练。相比之下，当部署期间的数据分辨率因模型训练而发生变化时，标准神经网络的性能可能会下降。

4. 基于人工智能的科学假设生成

可检验的假设是科学发现的核心。它们可以采取多种形式，从数学中的符号表达到化学中的分子和生物学中的遗传变异。提出有意义的假设可能是一个费力的过程，约翰内斯·开普勒就是一个例子，他花了四年时间分析恒星和行星数据，然后得出了一个假设，从而发现了行星运动定律。人工智能方法可以在此过程的几个阶段提供帮助。他们可以通过从嘈杂的观察中识别候选符号表达来生成假设。它们可以帮助设计物体，例如与治疗靶点结合的分子或与数学猜想相矛盾的反例，建议在实验室中进行实验评估。此外，人工智能系统可以学习假设的贝叶斯后验分布（方框1），并用它来生成与科学数据和知识兼容的假设。

4.1 科学假设的黑盒预测器

在这里插入图片描述

图3|人工智能引导科学假设的生成。 a，高通量筛选涉及使用在实验生成的数据集上训练的人工智能预测器来选择少量具有所需属性的筛选对象，从而将候选池总数的大小减少几个数量级。这种方法可以利用自监督学习在大量未筛选对象上预训练预测器，然后在带有标记读数的筛选对象数据集上微调预测器。实验室评估和不确定性量化可以改进这种方法，以简化筛选过程，使其更具成本效益和时间效率，最终加速候选化合物、材料和生物分子的识别。 b，人工智能导航器采用强化学习代理和设计标准（例如奥卡姆剃刀）预测的奖励，以在符号回归过程中关注候选假设中最有希望的元素。所示示例说明了代表牛顿万有引力定律的数学表达式的推论。低分搜索路径在符号表达式树中显示为灰色分支。在与最高预测奖励相关的行动的指导下，这个迭代过程收敛于与数据一致并满足其他设计标准的数学表达式。 c，AI 微分器是自动编码器模型，可将离散对象（例如化合物）映射到可微的连续潜在空间中的点。该空间允许优化对象，例如从庞大的化学库中选择化合物，以最大化特定的生化终点。理想化的景观图描绘了学习到的潜在空间，更深的颜色表示具有更高预测分数的对象丰富的区域。通过利用这个潜在空间，人工智能区分器可以有效地识别能够最大化红星所指示的所需属性的物体。

识别有希望的科学探究假设需要有效地检查许多候选假设并选择那些可以最大限度地提高下游模拟和实验产量的假设。在药物发现中，高通量筛选可以评估数千到数百万个分子，算法可以优先考虑要进行实验研究的分子。可以训练模型来预测实验的效用，例如相关的分子特性或符合观察结果的符号公式。然而，对于许多分子来说，这些预测因子的实验真实数据可能无法获得。因此，弱监督学习方法（方框1）可用于训练这些模型，其中使用噪声、有限或不精确的监督作为训练信号。这些可以作为人类专家注释的经济有效的代理，在计算机计算或更高保真度的实验中成本昂贵（图3a）。

经过高保真模拟训练的人工智能方法已用于有效筛选大型分子库，例如 160 万个有机发光二极管候选材料和 110 亿个基于合成子的配体候选物。在基因组学中，经过训练以根据 DNA 序列预测基因表达值的 Transformer 架构可以帮助确定遗传变异的优先级。在粒子物理学中，识别质子中的内在粲夸克涉及筛选所有可能的结构并拟合每个候选结构的实验数据。为了进一步提高这些过程的效率，人工智能选择的候选者可以被发送到中或低通量实验，以便使用实验反馈不断完善候选者。结果可以使用主动学习和贝叶斯优化（方框1）反馈到人工智能模型中，从而使算法能够完善其预测并专注于最有希望的候选者。为了进一步提高这些过程的效率，人工智能选择的候选者可以被发送到中或低通量实验，以便使用实验反馈不断完善候选者。结果可以使用主动学习和贝叶斯优化（方框1）反馈到人工智能模型中，从而使算法能够完善其预测并专注于最有希望的候选者。

当假设涉及分子等复杂物体时，人工智能方法就变得非常有价值。例如，在蛋白质折叠中，Alpha-Fold 可以以原子精度从氨基酸序列预测蛋白质的 3D 原子坐标，即使对于结构与训练数据集中的任何蛋白质都不同的蛋白质也是如此。这一突破促进了各种人工智能驱动的蛋白质折叠方法的发展，例如 RoseTTAFold。除了正向问题之外，人工智能方法也越来越多地用于逆向问题，旨在了解产生一组观察结果的因果因素。逆问题，例如反向折叠或固定主链设计，可以使用在数百万个蛋白质结构上训练的黑盒预测器从蛋白质主链 3D 原子坐标预测氨基酸序列。然而，这种黑盒人工智能预测器需要大量的训练数据集，并且尽管减少了对现有科学知识可用性的依赖，但可解释性有限。

4.2 导航组合假设空间

尽管对与数据兼容的所有假设进行采样是一项艰巨的任务，但一个可管理的目标是寻找一个好的假设，可以将其表述为优化问题。人工智能策略可以用来估计每次搜索的奖励，并优先考虑具有较高值的搜索方向，而不是依赖于手动设计的规则的传统方法。通常采用经过强化学习算法训练的代理来学习策略。代理学习在搜索空间中采取行动来最大化奖励信号，奖励信号可以被定义为反映生成的假设或其他相关标准的质量。

为了解决优化问题，可以使用进化算法来解决符号回归任务，该算法生成随机符号定律作为初始解集。在每一代中，候选解决方案都会略有不同。该算法检查是否有任何修改产生了比先前解决方案更适合观察结果的符号定律，为下一代保留最好的解决方案。然而，强化学习方法正在逐渐取代这种标准策略。强化学习使用神经网络通过添加预定义词汇表中的数学符号来顺序生成数学表达式，并使用学习到的策略来决定接下来添加哪个符号符号。数学公式表示为解析树。学习到的策略将解析树作为输入来确定要扩展哪个叶节点以及要添加什么符号（来自词汇表）（图 3b）。使用神经网络解决数学问题的另一种方法是将数学公式转换为符号的二进制序列。然后，神经网络策略可以按概率顺序将序列增长为一次一个二进制字符。通过设计一个衡量反驳猜想能力的奖励，这种方法可以在没有关于数学问题的先验知识的情况下找到对数学猜想的反驳。

组合优化还适用于发现具有所需药物特性的分子等任务，其中分子设计的每个步骤都是一个离散的决策过程。在此过程中，部分生成的分子图作为学习策略的输入，对在何处添加新原子以及在分子中选定位置添加哪个原子做出离散选择。通过迭代执行此过程，该策略可以生成一系列可能的分子结构，并根据它们对目标属性的适合度进行评估。搜索空间太大，无法探索所有可能的组合，但强化学习可以通过优先考虑值得研究的最有希望的分支来有效地指导搜索。强化学习方法可以通过训练目标进行训练，该训练目标鼓励最终的策略从所有合理的解决方案（具有高奖励）中进行抽样，而不是像强化中的标准奖励最大化那样专注于单个好的解决方案学习。这些强化学习方法已成功应用于各种优化问题，包括最大化蛋白质表达、规划水电以减少对亚马逊盆地的不利影响以及探索粒子加速器的参数空间。

人工智能代理学习的策略具有预见性的行动，这些行动最初看似非常规，但事实证明是有效的。例如，在数学中，监督模型可以识别数学对象之间的模式和关系，并帮助指导直觉并提出猜想。这些分析指出了以前未知的模式，甚至是新的世界模式。然而，强化学习方法可能无法很好地推广到模型训练期间未见过的数据，因为一旦发现一系列效果良好的动作，代理可能会陷入局部最优。为了提高泛化能力，需要一些探索策略来收集更广泛的搜索轨迹，这可以帮助代理在新的和修改的设置中表现更好。

4.3 优化可微假设空间

科学假设通常采用离散对象的形式，例如物理学中的符号公式或制药和材料科学中的化学化合物。尽管组合优化技术已成功解决其中一些问题，但可微空间也可用于优化，因为它适用于基于梯度的方法，可以有效地找到局部最优值。为了能够使用基于梯度的优化，经常使用两种方法。第一种是使用 VAE 等模型将离散候选假设映射到潜在可微空间中的点。第二种方法是将离散假设放松为可以在可微空间中优化的可微对象。这种放松可以采取不同的形式，例如用连续变量替换离散变量或使用原始约束的软版本。

符号回归在物理学中的应用使用语法 VAE。这些模型使用上下文无关语法将离散符号表达式表示为解析树，并将树映射到可微的潜在空间。然后采用贝叶斯优化来优化符号定律的潜在空间，同时确保表达式在语法上有效。在一项相关研究中，Brunton 及其同事引入了一种通过将可训练权重分配给预定义的基函数来区分符号规则的方法。稀疏回归用于选择基函数的线性组合，该组合可以准确地表示动态系统，同时保持紧凑性。与使用预定义的归纳偏差来强制对称性的等变神经网络不同，对称性可以作为域的特征行为被发现。例如，Liu 和 Tegmark 将不对称性描述为平滑损失函数，并最小化损失函数以提取先前未知的对称性。这种方法被用来揭示黑洞波形数据集中隐藏的对称性，揭示历史上难以发现的意想不到的时空结构。

在天体物理学中，VAE 已被用于根据预训练的黑洞波形模型来估计引力波探测器参数。该方法比传统方法快六个数量级，使得捕获瞬态引力波事件变得可行。在材料科学中，热力学规则与自动编码器相结合，设计一个可解释的潜在空间，用于识别晶体结构的相图。在化学中，诸如简化分子输入行输入系统 (SMILES)-VAE 之类的模型可以将 SMILES 字符串（计算机可以轻松理解的一系列离散符号形式的化学结构的分子符号）转换为可微分的字符串。可以使用贝叶斯优化技术优化的潜在空间（图3c）。通过将分子结构表示为潜在空间中的点，我们可以设计可微分的目标，并使用自我监督学习来优化它们，以根据分子的潜在表示来预测分子特性。这意味着我们可以通过将人工智能预测器的梯度反向传播到分子输入的连续值表示来优化离散分子结构。解码器可以将这些分子表示转化为近似对应的离散输入。这种方法用于蛋白质和小分子的设计。

与原始假设空间中的机械方法相比，在潜在空间中执行优化可以更灵活地对底层数据分布进行建模。然而，在假设空间的稀疏探索区域中的外推预测可能很差。在许多科学学科中，假设空间可能比通过实验检验的空间大得多。例如，据估计大约有 1060 个分子，而即使是最大的化学库也包含不到 1010 个分子。因此，迫切需要在这些很大程度上未探索的区域中有效搜索和识别高质量候选解决方案的方法。

5. 人工智能驱动的实验和模拟

通过实验评估科学假设对于科学发现至关重要。然而，实验室实验可能成本高昂且不切实际。计算机模拟已成为一种有前途的替代方案，为更高效、更灵活的实验提供了潜力。虽然模拟依赖于手工设计的参数和启发式方法来模仿现实世界的场景，但与物理实验相比，它们需要在准确性和速度之间进行权衡，因此需要了解潜在的机制。然而，随着深度学习的出现，这些挑战正在通过识别和优化假设以进行有效测试以及使计算机模拟能够将观察结果与假设联系起来来解决。

5.1 有效评估科学假设

人工智能系统提供了实验设计和优化工具，可以增强传统的科学方法，减少所需的实验数量并节省资源。具体来说，人工智能系统可以协助实验测试的两个基本步骤：规划和指导。在传统方法中，这些步骤通常需要反复试验，这可能效率低下、成本高昂，有时甚至危及生命。人工智能规划提供了一种系统的方法来设计实验、优化实验效率和探索未知领域。与此同时，人工智能引导将实验过程引向高产假设，使系统能够从之前的观察中学习并调整实验过程。这些人工智能方法可以是基于模型的，使用模拟和先验知识，也可以是无模型的，仅基于机器学习算法。

人工智能系统可以通过优化资源的使用和减少不必要的调查来帮助规划实验。与假设搜索不同，实验计划涉及科学实验设计中涉及的程序和步骤。一个例子是化学中的合成规划。合成规划涉及找到一系列步骤，通过这些步骤可以从可用的化学品合成目标化合物。人工智能系统可以设计所需化合物的合成路线，减少人工干预的需要。主动学习也被应用于材料发现和合成。主动学习涉及与实验反馈进行迭代交互并从中学习以完善假设。材料合成是一个复杂且资源密集的过程，需要对高维参数空间进行有效探索。主动学习使用不确定性估计来探索参数空间并以尽可能少的步骤减少不确定性。
在这里插入图片描述

图4|人工智能与科学实验和模拟的结合。 a，利用人工智能对复杂动态系统进行核聚变控制：Degrave 等人。开发了一种人工智能控制器，通过托卡马克反应堆中的磁场来调节核聚变。人工智能代理接收电压水平和等离子体配置的实时测量结果，并采取措施控制磁场并满足实验目标，例如维持功能性电源。使用具有奖励函数的模拟来训练控制器来更新模型参数。 b，在复杂系统的计算模拟中，人工智能系统可以加速罕见事件的检测，例如蛋白质不同构象结构之间的转变。王等人。使用基于神经网络的不确定性估计器来指导添加补偿原始势能的电位，使系统能够摆脱局部最小值（灰色）并更快地探索配置空间。此处所示的这种方法可以提高模拟的效率和准确性，从而更深入地了解复杂的生物现象。 c，用于求解偏微分方程的神经框架，其中 AI 求解器是经过训练以估计目标函数 f 的物理信息神经网络。变量 x 的导数是通过自动微分神经网络的输出来计算的。当微分方程的表达式未知（由 η 参数化）时，可以通过求解多目标损失来估计，该多目标损失优化方程的函数形式及其对观测值 y 的拟合。

在正在进行的实验中，决策通常必须实时调整。然而，当仅由人类经验和直觉驱动时，这个过程可能会很困难并且容易出错。强化学习提供了一种替代方法，可以不断对不断变化的环境做出反应，并最大限度地提高实验的安全性和成功率。例如，强化学习方法已被证明对于托卡马克等离子体的磁控制是有效的，其中算法与托卡马克模拟器交互以优化控制过程的策略（图4a）。在另一项研究中，强化学习代理使用风速和太阳高度等实时反馈来控制平流层气球并找到有利于导航的风流。在量子物理学中，实验设计需要动态调整，因为未来实现复杂实验的最佳选择可能是违反直觉的。强化学习方法可以通过迭代设计实验并接收反馈来克服这个问题。例如，强化学习算法已用于优化量子系统的测量和控制，他们提高了实验效率和准确性。

5.2 使用模拟从假设中推导出可观测值

计算机模拟是从假设中推导出可观测值的强大工具，可以评估无法直接测试的假设。然而，现有的模拟技术严重依赖于人类对所研究系统的底层机制的理解和知识，这可能不是最理想的且效率低下。人工智能系统可以通过更好地拟合复杂系统的关键参数、求解控制复杂系统的微分方程以及对复杂系统中的状态进行建模，从而通过更准确、更高效的学习来增强计算机模拟。

科学家经常通过创建涉及参数化形式的模型来研究复杂系统，这需要领域知识来识别参数的初始符号表达式。一个例子是分子力场，它是可解释的，但其表示广泛功能的能力有限，并且需要很强的归纳偏差或科学知识才能生成。为了提高分子模拟的准确性，我们开发了一种适合昂贵但准确的量子力学数据的基于人工智能的神经势来取代传统的力场。此外，不确定性量化已被用来定位高维自由能表面中的能垒，从而提高分子动力学的效率（图4b）。对于粗粒度分子动力学，人工智能模型已被用来通过从学习的隐藏复杂结构中确定系统需要粗化的程度来降低大型系统的计算成本。在量子物理学中，神经网络由于其灵活性和准确拟合数据的能力，在波函数或密度泛函参数化中取代了手动估计的符号形式。

微分方程对于复杂系统的空间和时间动力学建模至关重要。与数值代数求解器相比，基于人工智能的神经求解器可以更无缝地集成数据和物理。这些神经求解器通过将神经网络扎根于领域知识，将物理学与深度学习的灵活性结合起来（图 4c）。人工智能方法已应用于求解各个领域的微分方程，包括计算流体动力学、预测玻璃系统的结构、解决刚性化学动力学问题以及求解 Eikonal 方程以表征地震波的传播时间。在动力学建模中，连续时间可以通过神经常微分方程来建模。神经网络可以使用物理信息损失来参数化时空域中纳维-斯托克斯方程的解。然而，标准卷积神经网络对解决方案的精细结构特征进行建模的能力有限。这个问题可以通过学习使用神经网络对函数之间的映射进行建模的算子来解决。此外，求解器必须能够适应不同的领域和边界条件。这可以通过将神经微分方程与图神经网络相结合以通过图划分来离散化任意值来实现。

统计建模是一种强大的工具，可以通过对复杂系统中的状态分布进行建模来提供对复杂系统的完整定量描述。由于其捕获高度复杂分布的能力，深度生成建模最近已成为复杂系统仿真中的一种有价值的方法。一个众所周知的例子是基于归一化流的玻尔兹曼发生器（方框1）。归一化流可以使用一系列可逆神经网络将任何复杂分布映射到先验分布（例如，简单的高斯分布）并返回。尽管计算成本很高（通常需要数百或数千个神经层），但归一化流提供了精确的密度函数，从而可以进行采样和训练。与传统的模拟不同，归一化流可以通过直接从先验分布中采样并应用具有固定计算成本的神经网络来生成平衡状态。这增强了格场和规范理论中的采样，并改进了马尔可夫链蒙特卡罗方法，否则这些方法可能会因模式混合而无法收敛。

6. 巨大的挑战

为了利用科学数据，必须通过模拟和人类专业知识来构建和使用模型。这种整合为科学发现开辟了机会。然而，要进一步增强人工智能跨学科的影响力，还需要在理论、方法、软硬件基础设施方面取得重大进展。跨学科合作对于实现通过人工智能推动科学发展的全面且实用的方法至关重要。

6.1 实际考虑

科学数据集通常不能直接接受人工智能分析，因为测量技术的限制会产生不完整的数据集和有偏见或冲突的读数，并且由于隐私和安全问题而导致可访问性有限。需要标准化和透明的格式来减轻数据处理的工作量。模型卡和数据表是记录科学数据集和模型的操作特征的努力的示例。此外，联邦学习和密码学算法可用于防止将具有高商业价值的敏感数据发布到公共领域。利用开放科学文献、自然语言处理和知识图谱技术可以促进文献挖掘，以支持材料发现、化学合成和治疗科学。

深度学习的使用给人工智能驱动的人机交互设计、发现和评估带来了复杂的挑战。为了实现科学工作流程自动化、优化大规模模拟代码和操作仪器，自主机器人控制可以利用预测并在高通量合成和测试线上进行实验，从而创建自动驾驶实验室。生成模型在材料探索中的早期应用表明，可以识别数百万种可能具有所需特性和功能的材料，并评估其可合成性。例如，King 等人。将逻辑人工智能和机器人技术结合起来，自主生成有关酵母的功能基因组学假设，并使用实验室自动化对这些假设进行实验测试。在化学合成中，人工智能优化候选合成路线，然后由机器人按照预测的合成路线引导化学反应。

人工智能系统的实际实现涉及复杂的软件和硬件工程，需要一系列相互依赖的步骤，从数据管理和处理到算法实现以及用户和应用程序界面的设计。实施过程中的微小变化可能会导致性能发生巨大变化，并影响将人工智能模型集成到科学实践中的成功。因此，数据和模型标准化都需要考虑。由于模型训练的随机性、不同的模型参数和不断变化的训练数据集（这些都依赖于数据和任务），人工智能方法可能会受到可重复性的影响。标准化基准和实验设计可以缓解此类问题。提高可重复性的另一个方向是通过开源计划，发布开放模型、数据集和教育计划。

6.2 算法创新

为了促进科学理解或自主获取科学理解，需要算法创新来建立一个基础生态系统，并在整个科学过程中使用最合适的算法。

分布外泛化问题是人工智能研究的前沿问题。对来自特定状态的数据进行训练的神经网络可能会发现在其基本分布已发生变化的不同状态中无法推广的规律（方框1）。尽管许多科学定律并不具有普适性，但它们的适用性总体上是广泛的。与最先进的人工智能相比，人类大脑可以更好更快地泛化到修改过的环境。一个有吸引力的假设是，这是因为人类不仅构建了一个他们所观察到的统计模型，而是一个因果模型，即由所有可能的干预措施（例如，不同的初始状态、代理的行为或不同的制度）索引的一系列统计模型。将因果关系纳入人工智能仍然是一个年轻的领域还有很多工作要做。自我监督学习等技术对于解决科学问题具有巨大潜力，因为它们可以利用大量未标记的数据并将其知识转移到低数据体系中。但是，当前的转移学习方案可能是临时的，缺乏理论指导并且容易受到潜在分布变化的影响。尽管初步尝试已经解决了这一挑战，但还需要更多的探索来系统地衡量跨领域的可转移性并防止负转移。此外，要解决科学家关心的困难，人工智能方法的开发和评估必须在现实世界的场景中完成，例如药物设计中合理可实现的合成路径，并包括经过良好校准的不确定性估计器，以在将模型过渡到现实世界实施之前评估模型的可靠性。

科学数据是多模态，包括图像（例如宇宙学中的黑洞图像）、自然语言（例如科学文献）、时间序列（例如材料的热泛黄）、序列（例如生物序列）、图表（例如复杂系统）和结构（例如 3D 蛋白质-配体构象）。例如，在高能物理学中，射流是高能夸克和胶子产生的粒子的准直喷雾。从辐射模式识别它们的子结构可以帮助寻找新的物理。射流子结构可以用图像、序列、二叉树、通用图和张量集来描述。尽管使用神经网络处理图像已被广泛研究，但单独处理粒子图像是不够的。类似地，使用射流子结构的其他表示形式- 孤立的图景无法给出复杂系统的整体和集成系统视图。尽管集成多模态观测仍然是一个挑战，但神经网络的模块化性质意味着不同的神经模块可以将不同的数据模态转换为通用向量表示。

科学知识，例如分子中的旋转等变性、数学中的等式约束、生物学中的疾病机制以及复杂系统中的多尺度结构，都可以纳入人工智能模型中。然而，哪些原理和知识对人工智能模型最有帮助和实用。由于人工智能模型需要海量数据来拟合，当数据集较小或注释稀疏时，将科学知识融入模型可以帮助学习。因此，研究必须建立将知识集成到人工智能模型中的原则性方法，并理解之间的权衡领域知识和从测量数据中学习。

人工智能方法通常作为黑匣子运行，这意味着用户无法完全解释输出是如何生成的，以及哪些输入对于产生输出至关重要。黑匣子模型会降低用户对预测的信任，并具有在现实世界实施之前必须了解模型输出的领域，例如载人太空探索，以及预测为政策提供信息的领域，例如气候科学，其适用性有限。透明的深度学习模型仍然难以捉摸大量的可解释性技术。然而，人类大脑可以综合高层次的解释，即使不完美，也可以说服其他人，这一事实提供了希望，即通过在类似的高抽象水平上对现象进行建模，未来的人工智能模型将提供可解释的解释至少与人类大脑提供的解释一样有价值。这也表明，研究更高层次的认知可能会激发未来的深度学习模型，将当前的深度学习能力和操纵可语言抽象、因果推理和分布外泛化的能力结合起来。

6.3 科学行为和科学企业

展望未来，对人工智能专业知识的需求将受到两股力量的影响。首先，存在一些即将受益于人工智能应用的问题——例如自动驾驶实验室。其次，智能工具能够增强最先进的水平并创造新的机会，例如检查在实验中无法达到的长度和时间尺度上发生的生物、化学或物理过程。在这两种力量的基础上，我们预计研究团队的组成将发生变化，包括人工智能专家、软件和硬件工程师，以及涉及各级政府、教育机构和企业的新型合作形式。最近最先进的深度学习模型的规模继续增长。这些模型由数百万甚至数十亿个参数组成，并且规模逐年增加十倍。训练这些模型涉及通过复杂的参数化数学运算传输数据，并更新参数以将模型输出推向所需值。然而，计算这些更新的计算和数据要求是巨大的，导致大量的能源足迹和高计算成本。因此，大型科技公司在计算基础设施和云服务上投入巨资，突破了规模和效率的极限。尽管营利性和非学术组织可以使用庞大的计算基础设施，但高等教育机构可以更好地跨多个学科进行整合。此外，学术机构往往拥有独特的历史数据库和测量技术，这些数据库和测量技术可能在其他地方不存在，但对于 AI4Science 来说是必要的。这些互补的资产促进了产学界合作的新模式，这可以影响所追求的研究问题的选择。

随着人工智能系统的性能接近并超越人类，将其用作常规实验室工作的直接替代品变得可行。这种方法使研究人员能够根据实验数据迭代开发预测模型，并选择实验来改进它们，而无需手动执行费力且重复的任务。为了支持这种范式转变，不断涌现的教育项目旨在培训科学家在科学研究中设计、实施和应用实验室自动化和人工智能。这些程序帮助科学家了解何时适合使用人工智能，并防止人工智能分析得出错误的结论。

人工智能工具的误用和对其结果的误解可能会产生重大的负面影响。广泛的应用加剧了这些风险。然而，人工智能的滥用不仅仅是一个技术问题；它还取决于那些引领人工智能创新和投资人工智能实施的人的激励。建立道德审查流程和负责任的实施策略至关重要，包括全面概述人工智能的范围和适用性。此外，必须考虑与人工智能相关的安全风险，因为重新调整算法实现的双重用途变得更加容易。由于算法适用于广泛的应用程序，因此它们可以为一种目的而开发，但可以用于另一种目的，从而造成威胁和操纵的漏洞。

7. 结论

人工智能系统可以促进科学理解，能够调查无法以任何其他方式可视化或探测的过程和对象，并通过从数据构建模型并将其与模拟和可扩展计算相结合来系统地激发想法。为了实现这一潜力，必须通过负责任且深思熟虑的技术部署来解决使用人工智能带来的安全问题。为了在科学研究中负责任地使用人工智能，我们需要衡量人工智能系统的不确定性、错误和效用水平。这种理解对于准确解释人工智能输出并确保我们不会过度依赖潜在有缺陷的结果至关重要。随着人工智能系统的不断发展，优先考虑可靠的实施并采取适当的保障措施是最小化风险和最大化收益的关键。人工智能有潜力解锁以前无法实现的科学发现。