250+篇文献！最新综述全面解析科学领域大模型及其在科学发现中的应用-CSDN博客

本文链接：https://blog.csdn.net/c9Yv2cf9I06K2A9E/article/details/140119357

本文作者为 UIUC 在读博士生张彧。在许多科学领域，大语言模型改变了我们处理文本和其他模态数据的方式，在各种应用中实现了卓越的性能，并辅助研究人员进行科学发现。然而，以往对科学领域大语言模型的综述通常集中在一两个领域或单一模态上。在本文中，我们旨在通过揭示科学领域大语言模型在架构和预训练技术方面跨领域和跨模态的相似之处，为该方面的研究提供更全面的视角。

为此，我们全面调研了超过 250 个科学领域大语言模型，涵盖了不同学科（如数学、物理、化学、材料科学、生物学、医学和地学），不同模态（如文本、图、图像、表格、分子、蛋白质、基因组和气候时间序列）以及不同模型大小（从 ~100M 到 ~100B 的参数量），讨论它们的共性和差异，并总结了每个领域和模态的预训练数据集和评估任务。此外，我们还讨论了大语言模型如何部署以促进科学发现。

研究背景

下图展示了不同科学领域的大语言模型训练时的共通之处。图中共有 3 列，每一列对应一种预训练策略。对于每种策略我们给出 4 个示例（即，类型 A 到 D）。

在第 1 列中，遵循 BERT 和 RoBERTa，现有研究使用掩码语言建模（masked language modeling）来预训练编码器语言模型。在这里，输入数据可以是天然的序列（例如，论文标题和摘要，FASTA 格式表示的蛋白质、DNA 和 RNA）或人为序列化的（例如，SMILES 格式表示的分子，学术图谱中的会议、作者、论文等节点形成的序列）。

在第 2 列中，受 GPT 和 LLaMA 的启发，先前的研究采用下一个词预测（next token prediction）来预训练解码器语言模型，其中一些进一步采用指令调优和偏好优化。

除了纯文本输入（例如，来自知识库或考试的问题-答案对），我们看到更多序列化复杂科学数据的方法，例如展平表格单元格和使用粒子坐标描述晶体。即使对于更难以序列化的图像数据，在几何学和医学影像学中也分别有研究利用视觉编码器将图像投影到多个视觉 token 上，并将它们置于文本 token 之前，作为大语言模型的输入。

在第 3 列中，遵循 DPR 和 CLIP，两个编码器通过对比学习预训练，将一对相关数据在表示空间中映射得更近。当一对数据的两种模态都是天然的序列（例如，文本-文本或者文本-蛋白质），模型就建立在两个编码器之上。当我们希望保持一种模态的非顺序性质（例如，分子图、胸部 X 光片和航拍图像），可以使用相应的图或图像编码器。

总之，对科学领域大语言模型进行跨领域、跨模态的综述将更准确地描绘不同模型之间的共通之处，并可能指导未来对它们的设计。

模型综述

我们的 GitHub 整理了超过 250 个科学领域大语言模型，包含了论文、代码和模型的链接。下图中截取了一部分。

GitHub:

https://github.com/yuzhimanhua/Awesome-Scientific-Language-Models

在本文的附录中，我们每个领域的大语言模型的模态、参数数量、模型架构、预训练数据、预训练任务和评估任务总结成了表格。在每个领域内，我们根据模态对模型进行分类；在每个模态内，我们按时间顺序对模型进行排序。具体信息可以参考原文。

在科学发现中的应用

针对不同领域，我们介绍大语言模型如何通过帮助科学发现过程中的不同方面和阶段（如假设生成、理论证明、实验设计、预测）来惠及科学。

首先，大语言模型在想法生成和评估中被广泛应用。之前的研究者（1）将它们整合到搜索引擎中，用于发现科学挑战和方向；（2）利用大语言模型生成基于先前文献的新科学理念；（3）依靠大语言模型为每篇提交论文寻找专家审稿人；（4）使用 GPT-4 为论文提供建设性的反馈以促进自动审稿生成。

具体到每个领域，数学大语言模型在提供证明方面具有巨大潜力。例如，AlphaGeometry 结合大语言模型和符号推理引擎解决了国际数学奥林匹克中的 30 个经典几何问题中的 25 个。

通过在 AlphaGeometry 中添加吴方法，可以进一步解决了 30 个问题中的 27 个，超越了人类金牌得主。FunSearch 将大语言模型与程序搜索集成，在组合优化中找到对 Cap Set 问题的新解决方案。这些生成的解决方案可以比人类专家设计的更快更有效。

化学大语言模型促进了自动的化学研究并帮助药物和催化剂设计。例如，Bran 等提出了一个化学大语言模型 Agent，ChemCrow，可以集成专家设计的有机合成、药物发现和材料设计工具。

Boiko 等开发了一种大语言模型赋能的智能系统 Coscientist，能够设计、计划和执行化学研究；ChatDrug 使用带有提示模块、领域反馈模块和对话模块的大语言模型进行药物编辑；DrugAssist 通过人机对话进行分子优化；Sprueill 等使用大语言模型作为 Agent，通过蒙特卡洛树搜索和原子神经网络模型的反馈寻找有效的催化剂。

生物和医学大语言模型也被用于自动化实验研究。例如，CRISPR-GPT 通过领域知识增强的大语言模型 Agent 改进 CRISPR 基因编辑实验的设计过程。此外，大语言模型可以编码生物序列以捕捉结构特性，指导蛋白质设计，并评估病毒变体的进化适应性。

例如，ESM-2 可以在没有昂贵且耗时实验的情况下准确预测蛋白质结构；Ferruz 和 Höcker 在蛋白质数据上微调大语言模型，可以生成高度分化但仍具有潜在功能的新序列；Hie 等开发了可以预测病毒逃逸突变的大语言模型。

地学大模型具有在可持续性、生活、经济、灾害和环境等视角下进行城市规划的潜力。此外，地学大模型还被应用于天气预报、地震检测以及气候科学对话。

总结

在这篇综述中，我们调研了科学领域大语言模型预训练所用的数据、架构和任务，并探讨了它们在科学发现中的下游应用。特别是，我们强调了在不同领域和模态中观察到的类似架构、任务和趋势。除了回顾先前的研究，我们还提出一些挑战以激发对这一主题的进一步探索。

深入细粒度的主题大多数现有的科学领域大语言模型针对的是粗粒度的领域（例如化学），而某些任务依赖于细粒度主题的专业知识（例如，铃木偶联反应）。当科学领域大语言模型在更粗粒度的语料库上进行预训练时，频繁出现的信号可能会主导模型参数空间，而领域特定的尾部知识可能会被抹去。我们认为，自动建立细粒度的、主题集中的知识图谱并使用它们来指导生成过程将是解决这一问题的一个有前途的方向。

推广到分布外的科学数据在科学领域，测试分布与训练分布发生偏移是常见的：新发表的论文中不断涌现新的科学概念；测试过程中可能出现具有分布外骨架的分子和具有分布外肽链数量的蛋白质。处理这种数据仍然是科学领域大语言模型的一个挑战。据我们所知，不变学习可以作为分布外分析的理论基础，而如何将其整合到大语言模型预训练中值得探索。

促进可信赖的预测大语言模型可能会生成看似合理但实际上错误的输出，通常称为幻觉，这在化学和生物医学等高风险科学领域尤为危险。为缓解这一问题，检索增强生成为大语言模型提供相关的、最新的和可信的信息。然而，先前在科学领域的检索增强生成研究主要集中在检索文本和知识，而科学数据是异构和多模态的。我们认为，跨模态的检索增强生成（例如，用相关的化学物质和蛋白质指导文本生成）将进一步增强科学大语言模型的可信度。

更多阅读