科学大语言模型及其在科学发现中的应用

全文速览

在许多科学领域,大型语言模型(LLM)已经彻底改变了处理文本和其他模式数据(如分子和蛋白质)的方式,在各种应用中实现了卓越的性能,增强了科学发现过程。然而,以往对科学 LLM 的研究往往集中在一到两个领域或单一模式上。在本文中,作者旨在通过揭示科学 LLM 在架构和预训练技术方面的跨领域和跨模式联系,为研究领域提供更全面的视角。为此,作者全面调查了 250 多种科学 LLM,讨论了它们的共性和差异,并总结了每个领域和模式的预训练数据集和评估任务。此外,还调查了如何利用 LLM 来促进科学发现。与本调查相关的资源可以访问 https://github.com/yuzhimanhua/Awesome-Scientific-Language-Models。

背景介绍

大型语言模型(LLMs)的出现为自然语言处理(NLP)带来了一种新的范式,即用对各种问题都相当有效的统一模型取代为每项任务设计的专门模型。在科学领域,这种范式不仅重塑了人们处理自然语言相关任务(如科学论文、医疗记录和气候报告)的策略,还激发了人们处理其他类型数据(如分子、蛋白质、表格和元数据)的类似想法。除了理解现有的科学数据,LLMs 还显示出通过生成、规划等加速科学发现的潜力。鉴于 LLM 在不同科学领域的广泛而深远的影响,有必要全面回顾这方面的相关工作。然而,现有的科学LLM调查通常只关注一到两个领域(如生物医学和化学)或一种模式(如文本)。事实上,如果从整体上审视研究领域,就会发现不同领域和不同模式的 LLMs 都采用了类似且相互关联的技术。

图文解析

图 1 描述了三大类科学 LLM 预训练策略(即第 1 至第 3 栏),分别给出了 4 个示例(即第 A 至第 D 栏)。在第 1 栏中,继 BERT和 RoBERTa之后,现有研究使用掩码语言建模来预训练编码器语言模型。在这里,输入可以是自然顺序的(如各领域的论文、FASTA 格式的蛋白质/DNA/RNA 序列),也可以是人为线性化的(如 SMILES 格式的分子、引文图中的地点/作者/参考文献节点序列)。在 COLUMN 2 中,受 GPT和 LLaMA的启发,之前的研究采用了下一个标记预测来预训练(编码器-)解码器语言模型,其中一些还进一步采用了指令调整和偏好优化。除了纯文本输入(如知识库或考试中的问答对),还有更多将复杂科学数据序列化的方法,如扁平化表格单元格和使用粒子坐标描述晶体。甚至对于图像,数学和生物医学领域都有研究利用视觉编码器将图像投射到多个视觉标记上,并将其作为线性化 LLM 输入预置到文本标记中。在 COLUMN 3 中,继 DPR和 CLIP之后,两个编码器经过预先训练,通过对比学习将相关数据对映射到更接近的潜空间中。当两种模式都是序列模式(如文本-文本或文本-蛋白质)时,模型建立在两个 LLM 编码器上。当我们倾向于保持一种模态的非序列性时(如分子图、胸部 X 光和鸟瞰图),可以使用相应的图或图像编码器。总之,跨领域跨模态将更准确地勾勒出不同科学 LLM 之间的联系,展示它们的共性,并为它们的未来设计提供潜在指导。

在这里只介绍在化学和材料科学中的应用,普通科学、数学、物理、生物学、医学和地球科学请见原文https://arxiv.org/pdf/2406.10833

化学和材料科学领域的 LLM

语言

化学和材料科学领域的 LLM 预训练语料通常来自研究论文和数据库(如 Materials Project)。此外,最近的研究还采用了特定领域的指令调整数据集(如 MolInstructions (Fang et al., 2023a) 和 SMolInstruct (Yu et al., 2024)),这些数据集来自 PubChem (Kim et al., 2019)、MoleculeNet (Wu et al., 2018)等。关于化学 LLM 的早期研究大多采用用 MLM(TYPE 1.A,如 ChemBERT、MatSciBERT和 BatteryBERT)预训练的中等规模纯编码器架构。这些模型通常在下游任务中进行评估,包括反应角色标记和抽象分类。最近,研究人员更加关注通过下一个标记预测和指令调整(TYPE 2.A)训练的大规模纯解码器 LLM。这方面的例子包括 ChemDFM、ChemLLM、和 LlaSMol。考虑到这些模型所需的泛化能力,作者在名称转换、反应预测、逆合成、基于文本的分子设计和晶体生成等多种任务中对它们进行了评估。

语言 + 图形

图是描述分子特征的合适数据结构。包含分子图的流行数据集包括 ChEBI-20、ZINC和 PCDes。在某些情况下,分子图与文本信息同时出现,因此现有的研究工作都在探索如何有效地对二者进行编码。第一类此类模型采用 GNN 作为图形编码器,LLM 作为文本编码器。这两种模式通过对比学习连接起来。例如,Text2Mol使用 GCN和 SciBERT 分别对分子及其相应的自然语言描述进行编码,用于文本到分子检索。第二类模型利用 LLM 同时对文本和图形进行编码。图形既可以线性化为 SMILES 字符串(类型 2.C),也可以通过图形编码器投射到虚拟标记上(类型 2.D)。例如,3D-MoLM使用三维分子编码器将分子表示为令牌,并将它们与指令一起输入 LLaMA-2,用于分子到文本检索和分子字幕。

语言+视觉

作为对文本和图形模式的补充,分子图像构成了化学中的视觉模式。现有工作采用与 BLIP2类似的理念,将每幅图像表示为标记,并将其输入 LLM(TYPE 2.D)。例如,GIT-Mol将包括图形和图像在内的所有模态投射到潜在文本空间,并使用 T5进行编码和解码。

分子

本小节将介绍处理没有相关文本信息的分子模型。尽管如此,受 LLMs 启发的类似方法也被用来开发分子语言模型。具体来说,大多数研究采用 SMILES 或 SELFIES(字符串作为分子的序列表示。与 "语言 "模式的趋势类似,分子 LLM 的先驱也侧重于使用双向变换器编码器(TYPE 1.C,例如 SMILES-BERT和 MoLFormer)进行表征学习。例如,ChemBERTa采用了与 RoBERTa相似的架构和预训练策略。这些模型在分子性质预测(如毒性分类和雾化能回归以及虚拟筛选)等分子理解任务中表现出非凡的能力。后来的工作探索了以自回归方式表示分子(TYPE 2.C,例如 BARTSmiles和 ChemGPT)。例如,T5Chem采用了 T5 骨干和序列到序列的预训练目标。这些模型在生成任务中进行了评估,其中包括分子生成、反应预测和逆合成。除了对分子进行线性化处理外,还有一些研究修改了 Transformer 架构以接纳分子图,如 MAT和 R-MAT。

科学发现中的应用

以往的研究表明,LLM 可促进自主化学研究。例如,Bran 等人提出了一个化学 LLM 代理 ChemCrow,它可以整合专家设计的有机合成、药物发现和材料设计工具;Boiko 等人开发了一个 LLM 驱动的智能系统 Coscientist,它可以设计、规划和执行化学研究。LLM 还有助于药物和催化剂设计。例如,ChatDrug利用具有提示模块、领域反馈模块和对话模块的 LLMs 探索药物编辑;DrugAssist提出了一种基于 LLM 的交互模型,通过人机对话进行分子优化;Sprueill 等人利用 LLMs 作为代理,通过蒙特卡罗树搜索和原子神经网络模型的反馈来寻找有效的催化剂。

贡献

在本文中,受上述讨论的启发,系统地调查了 250 多个科学 LLM,涵盖不同领域(如普通科学、数学、物理、化学、材料科学、生物学、医学和地球科学)、模式(如语言、图形、视觉、表格、分子、蛋白质、基因组和气候时间序列)和规模(从 ∼100M 到 ∼100B 个参数)。针对每个领域/模式,研究了常用的预训练数据集、模型架构以及科学 LLM 的评估任务。根据动机,当详细讨论模型架构时,会将它们与图 1 联系起来,以建立跨领域跨模态的联系。此外,在表 A1-Table A6(附录 A)中对这些科学 LLM 进行了结构化总结。此外,针对不同领域,介绍了如何部署 LLM,通过增强科学发现过程的不同方面和阶段(如假设生成、定理证明、实验设计、药物发现和天气预报)来造福科学。

论文DOI: https://doi.org/10.48550/arXiv.2406.10833

如何学习大模型 AI ?

由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。

但是具体到个人,只能说是:

“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。

这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。

我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。

我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。

在这里插入图片描述

第一阶段(10天):初阶应用

该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。

  • 大模型 AI 能干什么?
  • 大模型是怎样获得「智能」的?
  • 用好 AI 的核心心法
  • 大模型应用业务架构
  • 大模型应用技术架构
  • 代码示例:向 GPT-3.5 灌入新知识
  • 提示工程的意义和核心思想
  • Prompt 典型构成
  • 指令调优方法论
  • 思维链和思维树
  • Prompt 攻击和防范

第二阶段(30天):高阶应用

该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。

  • 为什么要做 RAG
  • 搭建一个简单的 ChatPDF
  • 检索的基础概念
  • 什么是向量表示(Embeddings)
  • 向量数据库与向量检索
  • 基于向量检索的 RAG
  • 搭建 RAG 系统的扩展知识
  • 混合检索与 RAG-Fusion 简介
  • 向量模型本地部署

第三阶段(30天):模型训练

恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。

到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?

  • 为什么要做 RAG
  • 什么是模型
  • 什么是模型训练
  • 求解器 & 损失函数简介
  • 小实验2:手写一个简单的神经网络并训练它
  • 什么是训练/预训练/微调/轻量化微调
  • Transformer结构简介
  • 轻量化微调
  • 实验数据集的构建

第四阶段(20天):商业闭环

对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。

  • 硬件选型
  • 带你了解全球大模型
  • 使用国产大模型服务
  • 搭建 OpenAI 代理
  • 热身:基于阿里云 PAI 部署 Stable Diffusion
  • 在本地计算机运行大模型
  • 大模型的私有化部署
  • 基于 vLLM 部署大模型
  • 案例:如何优雅地在阿里云私有部署开源大模型
  • 部署一套开源 LLM 项目
  • 内容安全
  • 互联网信息服务算法备案

学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。

如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。

这份完整版的大模型 AI 学习资料已经上传CSDN,朋友们如果需要可以微信扫描下方CSDN官方认证二维码免费领取【保证100%免费

在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值