顶刊Nature刊登了一篇来自斯坦福大学计算机科学与基因技术学院的博士后 Hanchen Wang,与佐治亚理工学院计算科学与工程专业的 Tianfan Fu,以及康奈尔大学计算机系的 Yuanqi Du 等 30 人的论文《Scientific discovery in the age of artificial intelligence》,综述了过去十年中人工智能在科学发现中的突破和挑战,以及如何利用自监督学习、几何深度学习和生成式AI方法来解决不同领域的科学问题。
人工智能 (AI) 越来越多地融入科学发现中,以增强和加速研究,帮助科学家提出假设、设计实验、收集和解释大型数据集,并获得仅使用传统科学方法可能无法获得的见解。在这里,我们回顾了过去十年的突破,包括自我监督学习(允许在大量未标记数据上训练模型)和几何深度学习(利用有关科学数据结构的知识来提高模型的准确性和效率)。生成式人工智能方法可以通过分析包括图像和序列在内的多种数据模式来创建小分子药物和蛋白质等设计。我们讨论这些方法如何在整个科学过程中帮助科学家,以及尽管取得了这些进步仍然存在的核心问题。人工智能工具的开发人员和用户都需要更好地了解何时需要改进这些方法,而数据质量和管理不佳带来的挑战仍然存在。这些问题跨越科学学科,需要开发有助于科学理解或自主获取科学理解的基础算法方法,使它们成为人工智能创新的关键领域。
一、AI辅助的数据收集和整理
这篇文献介绍了AI方法如何提高数据的选择、标注、生成和精炼的效率和质量,以及如何从大规模的无标签数据中学习有意义的数据表示,例如利用几何先验、自监督学习和语言建模等技术。
主要包括以下几个方面:
-
数据选择:AI可以帮助科学家从海量的数据中筛选出有价值的信息,例如在粒子物理实验中,使用深度自编码器来检测罕见的事件,或者在地球科学、海洋学和天文学中,使用无监督的异常检测方法来发现新的现象。
-
数据标注:AI可以利用伪标签、标签传播、主动学习等技术来自动或半自动地给大量的无标签数据添加标签,从而减少人工标注的成本和时间。例如,在生物学中,可以使用基于图的方法来给新发现的分子或蛋白质赋予功能和结构的标签。
-
数据生成:AI可以利用数据增强和深度生成模型等技术来创建更多的合成数据,从而提高模型的鲁棒性和泛化能力。例如,在医学影像、材料科学、化学和生物学等领域,可以使用生成对抗网络来合成逼真的图像或序列。
-
数据精炼:AI可以利用深度卷积方法等技术来提高数据的质量和精度,例如去噪、超分辨率、结构恢复等。例如,在单细胞基因组学、高能物理、生物显微镜等领域,可以使用自编码器或变分自编码器等方法来提取数据的本质特征并消除噪声的影响。
该图展示了如何利用人工智能方法学习科学数据的有意义的表示,包括几何深度学习、自监督学习和语言建模。每个子图都给出了一个具体的例子,说明了这些方法在不同的科学领域中的作用。例如,几何深度学习可以处理分子和材料等具有几何和关系结构的数据,自监督学习可以通过对比学习等策略来提取图像或序列数据的相似性和差异性,语言建模可以通过遮盖语言模型等技术来捕捉自然语言和生物序列的语义。该图的目的是展示人工智能如何通过不同的方式来理解和操作科学数据,从而为科学研究提供有价值的指导和预测。
-
二、AI驱动的科学假设生成
这篇文献讨论了AI方法如何生成可测试的科学假设,包括使用黑盒预测器、组合优化、可微分假设空间等策略,以及如何使用强化学习、贝叶斯优化等技术指导假设的搜索和评估。
人工智能驱动的科学假设生成是指利用人工智能技术,如机器学习、自然语言处理、知识图谱等,来帮助科学家从海量的数据和文献中发现潜在的规律、关联和创新点,从而提出新的科学假设。这些假设可以指导科学家进行实验设计、数据分析和理论建模,加速科学发现的过程。
以上图中:展示了人工智能(AI)在科学假设生成方面的三种方法。图中的每个子图都对应一个不同的领域和任务,如物理、化学和数学。图中的每个子图都包含以下元素:
-
a:高通量筛选。这个子图展示了如何使用AI预测器来从一个庞大的候选池中选择具有期望性质的对象,如化合物、材料或生物分子。这个过程可以利用自监督学习来预训练预测器,然后在有标签的数据集上微调预测器。实验室评估和不确定性量化可以优化这个过程,使其更加高效和准确。
-
b:AI导航器。这个子图展示了如何使用强化学习来在符号回归中导航假设空间。以牛顿万有引力定律为例,这个子图展示了如何使用奖励函数和设计准则,如奥卡姆剃刀,来聚焦于最有前途的表达式树。通过不断地执行这个过程,AI导航器可以收敛于与数据一致并满足其他设计准则的数学表达式。
-
c:AI差分器。这个子图展示了如何使用自编码器模型来将离散的对象,如化学化合物,映射到一个可微分的连续潜在空间。这个空间可以用于优化对象,如从一个庞大的化学库中选择最大化某个生化指标的化合物。这个子图展示了一个理想化的潜在空间,其中颜色深浅表示对象的预测分数的高低。通过利用这个潜在空间,AI差分器可以高效地识别具有期望性质的对象。
人工智能驱动的科学假设生成的主要挑战包括如何有效地搜索和优化假设空间,如何结合先验知识和数据证据,如何评估和验证假设的可靠性和创新性,以及如何提高人工智能的可解释性和可信度。文中列举了一些人工智能驱动的科学假设生成的应用案例,如在物理、化学、生物、医学等领域中发现新的材料、分子、蛋白质、基因变异等。网页还介绍了一些人工智能驱动的科学假设生成的工具和平台,如Iris.ai、Semantic Scholar、Microsoft Academic等,它们可以帮助科学家快速地浏览和探索相关的文献和数据,提取和可视化关键的信息,生成和优化候选的假设,以及进行自动化的实验和模拟。
三、AI驱动的实验和模拟
这篇文献展示了AI可以帮助科学家设计实验方案,选择最有价值的数据点,控制实验过程,解决复杂的微分方程,生成新的数据样本,等等。AI驱动的实验和模拟的目标是提高科学发现的效率和质量,以及探索新的科学领域和问题。这部分内容包括以下几个方面:
-
高效评估科学假设:AI可以通过规划和引导实验来选择最有前景的假设进行验证,例如在药物发现、材料设计、量子物理等领域。AI可以利用强化学习、主动学习、贝叶斯优化等技术来动态调整实验参数和策略,以最大化实验的收益和安全性。
-
利用模拟推断假设的可观测结果:计算机模拟是一种强大的工具,可以根据假设来推断实际系统的行为和性质,例如在分子动力学、流体力学、天文学等领域。AI可以提高计算机模拟的准确性和效率,通过更好地拟合复杂系统的关键参数,求解控制复杂系统的微分方程,以及建模复杂系统的状态分布。
-
在组合假设空间中导航:AI可以通过生成模型和自监督学习来探索巨大的假设空间,例如在化学合成、蛋白质折叠、符号回归等领域。AI可以利用潜在空间的优化和变换来搜索和设计新的分子结构、数学表达式、物理定律等,以及评估它们的可行性和有效性。
该图介绍了三种利用人工智能(AI)来加速和优化科学实验和模拟的方法,分别是:
-
a:利用AI控制复杂动态系统的核聚变:Degrave等人166开发了一个AI控制器,用来通过磁场调节托卡马克反应堆中的核聚变。AI控制器接收实时的电压水平和等离子体配置的测量数据,并采取行动来控制磁场和实现实验目标,如维持一个可用的电源。控制器是通过模拟和奖励函数来训练和更新模型参数的。
-
b:利用AI加速复杂系统的计算模拟中的稀有事件检测:例如蛋白质的不同构象结构之间的转变。Wang等人169使用了一个基于神经网络的不确定性估计器,来引导添加一些补偿原始势能的势能,使得系统能够逃离局部最小值(灰色区域)并更快地探索配置空间。这种方法可以提高模拟的效率和准确性,从而深入理解复杂的生物现象。
-
c:利用AI求解偏微分方程的神经网络框架:AI求解器是一个物理信息神经网络,用来估计目标函数f。变量x的导数是通过自动求导神经网络的输出来计算的。当偏微分方程的表达式未知(由η参数化)时,可以通过求解一个多目标损失函数来估计方程的函数形式和对观测数据y的拟合程度。图中的核聚变图标来源于iStockphoto/VectorMine。
四、AI在科学中的挑战和机遇
这篇文献分析了AI在科学中的局限性和风险,例如数据质量和管理、模型可解释性和可靠性、分布偏移和泛化能力等,以及如何通过跨学科合作、开放共享、伦理规范等措施促进AI在科学中的发展和应用。
1)利用科学数据的实际过程中需要考虑:
2)在算法创新方面:
主要包括以下几点:
-
-
数据的质量和可用性:科学数据往往受到测量技术的限制,导致数据不完整、有偏差或有冲突,同时也受到隐私和安全的保护,难以公开共享。因此,需要建立标准化和透明化的数据格式,以减轻数据处理的工作量 。此外,还可以利用联邦学习和加密算法来防止将具有高商业价值的敏感数据泄露到公共领域。利用开放的科学文献,自然语言处理和知识图谱技术可以促进文献挖掘,以支持材料发现,化学合成和治疗科学。
-
人机协同的AI驱动的设计、发现和评估:深度学习的使用给人机协同的AI驱动的设计、发现和评估带来了复杂的挑战。为了自动化科学工作流,优化大规模的模拟代码和操作仪器,自主机器人控制可以利用预测并在高通量的合成和测试线上进行实验,创建自动驾驶实验室。生成模型在材料探索中的早期应用表明,可以识别出具有期望性质和功能并可合成的数百万种可能的材料。例如,King等人结合了逻辑AI和机器人,自主地生成关于酵母的功能基因组学假设,并使用实验室自动化来实验性地测试假设。在化学合成中,AI优化候选合成路线,然后由机器人引导化学反应在预测的合成路线上进行。
-
AI系统的实现和标准化:AI系统的实现涉及复杂的软件和硬件工程,需要一系列相互依赖的步骤,从数据策划和处理到算法实现和用户和应用接口的设计。实现中的细微变化可能导致性能的显著变化,并影响AI模型在科学实践中的集成成功。因此,需要考虑数据和模型的标准化。AI方法可能会因为模型训练的随机性,模型参数的变化和训练数据集的演化而导致可重复性的问题,这些问题既依赖于数据,也依赖于任务。标准化的基准和实验设计可以缓解这些问题。另一个改善可重复性的方向是通过开源倡议,发布开放的模型、数据集和教育计划。
-
超分布泛化:这是AI研究的前沿问题,指的是AI模型能否在不同的数据分布下保持有效和可靠。作者认为人类能够更好地泛化,是因为人类能够建立因果模型,而不仅仅是统计模型。
-
因果推理:这是AI领域的一个新兴方向,目的是让AI模型能够理解和控制数据和现象背后的因果关系,从而提高AI的智能性和可靠性。
-
自监督学习:这是一种利用大量无标签数据来学习有用表示的技术,有助于AI模型在数据稀缺的情况下迁移知识和泛化能力。
-
迁移学习:这是一种利用已有领域的知识来提高新领域的学习效果的技术,目前还存在一些问题,如缺乏理论指导,容易受到数据分布变化的影响,以及可能出现负迁移的现象。
-
实际应用:为了解决科学家关心的难题,AI方法的开发和评估必须在真实的场景中进行,如药物设计中的合成路径,同时还要考虑模型的不确定性和可靠性。
-
多模态数据的处理和融合:科学数据具有多种形式和特征,如图像、文本、时间序列、序列、图和结构等。不同的数据形式可以描述同一个科学对象或现象的不同方面,如高能物理中的喷流结构。使用神经网络处理图像已经有很多研究,但仅仅处理图像是不够的。同样,单独使用其他数据形式也不能给出一个完整和综合的系统视角。因此,需要探索如何有效地整合多模态的观测数据,利用神经网络的模块化特性,将不同的数据形式转换为通用的向量表示。
-
科学知识的引入和平衡:科学知识,如分子的旋转对称性、数学的等式约束、生物学的疾病机制和复杂系统的多尺度结构等,可以加入到AI模型中,提高模型的性能和可解释性。然而,如何选择和实现最有用和最实用的科学知识还不清楚。由于AI模型需要大量的数据来拟合,当数据量小或稀疏标注时,引入科学知识可以帮助模型学习。因此,需要建立原则性的方法,将知识融入到AI模型中,并理解领域知识和数据学习之间的权衡。
-
模型的可解释性和可信度:AI模型往往是黑箱的,意味着用户不能完全解释模型是如何产生输出的,以及哪些输入对输出的产生是关键的。黑箱模型会降低用户对模型预测的信任,并限制模型在需要在实际应用前理解模型输出的领域的适用性,如人类太空探索和气候科学等。透明的深度学习模型仍然难以实现,尽管有很多可解释性技术。然而,人类大脑能够合成高层次的解释,即使不完美,也能说服其他人类,这给我们希望,通过在类似的高层次抽象上建模现象,未来的AI模型将提供至少与人类大脑提供的一样有价值的可解释性。这也表明,研究高层次的认知可能会激发未来的深度学习模型,结合当前的深度学习能力和操纵符号和概念的能力。
-
3)科学和科学企业的行为方面:
-
AI的需求受到两种力量的影响:一是有利于AI应用的问题的存在,如自动化实验室;二是智能工具提升现有水平和创造新机会的能力,如探索实验无法触及的生物、化学或物理过程。
-
研究团队的组成将包括AI专家、软硬件工程师,以及涉及政府、教育机构和企业的新型合作形式。
-
AI模型的规模和复杂度不断增长,导致巨大的能源和计算成本。因此,大型科技公司投资了大量的计算基础设施和云服务,而高等教育机构则在多学科整合和数据资源方面有优势。这些互补的资产促进了产学合作的新模式。
-
AI系统的性能逐渐超越人类,使其成为实验室常规工作的替代品。这种方式使研究人员能够从实验数据中迭代地开发预测模型,并选择实验来改进它们,而无需手动执行繁琐和重复的任务。为了支持这种范式转变,出现了一些教育项目,培训科学家在科学研究中设计、实施和应用实验室自动化和AI。这些项目帮助科学家理解何时使用AI是合适的,以及如何避免AI分析的误解。
-
AI工具的误用和结果的误解可能会带来严重的负面影响。AI的应用范围很广,增加了这些风险。然而,AI的滥用不仅是技术问题,也取决于推动AI创新和投资AI实施的人的动机。建立道德审查流程和负责任的实施策略是必要的,包括对AI的范围和适用性的全面概述。此外,还必须考虑AI的安全风险,因为算法的实现更容易被用于双重用途。由于算法适用于广泛的应用,它们可能被开发用于一个目的,但被用于另一个目的,从而造成威胁和操纵的漏洞。
大语言模型(LLM)|ChatGPT相关文章(以下点击可阅读):
1个小时利用ChatGPT完成神经外科领域的完全虚构的论文!AI写论文的逼真程度令人震惊
以色列一对师生借助ChatGPT,1小时完成1篇论文糖尿病论文
利用ChatGPT,这位医生4个月内完成16篇论文,且已发表5篇!医生科研开启加速模式!
AI论文 | ChatGPT在医学中的应用概述:应用、优势、局限性、未来前景和伦理思辨
AI论文 | 从临床和科研场景分析ChatGPT在医疗健康领域的应用可行性
AI论文 | ChatGPT可以撰写研究文章吗?以人群层面疫苗有效性分析为例
ChatGPT在PubMed上的发表数量超过1000篇:展望未来之路
GPT辅助论文降重教程,100%降至13%(实用指令,赶紧收藏)
国自然基金委:在各科学部设立科普类项目!面青地等将科普成果列入项目成果;资助强度较大项目,应围绕项目开展科普工作
2023年国自然医学科学学部人工智能及大模型相关课题项目汇总
科研之心,致力于探索AI大模型与科研结合。科研之心为您提供最新的AI资讯、最实用的AI工具、最深入的AI分析,帮助您在科学研究中发掘AI的无限潜力。
欢迎关注,保持交流!