论文1md_large language models for scientific discovery in -CSDN博客

本文链接：https://blog.csdn.net/WRyaoyao/article/details/147168408

题目与发表时间

题目：Large language models for scientific discovery in molecular property prediction
发表时间：2025年2月25日在线发表于《Nature Machine Intelligence》。

简介

本文提出了一种名为LLM4SD的框架，旨在利用大语言模型（LLMs）驱动分子属性预测领域的科学发现。该框架通过整合文献知识（如分子量对溶解度的关键影响）和从分子数据（如SMILES编码结构）中推理出的新规则，生成可解释的特征向量，并结合随机森林等可解释模型进行预测。实验表明，LLM4SD在58个分子属性预测任务中优于现有最先进的图神经网络（GNNs），并提供了可解释的规则，为科学假设的提出提供了新思路。

研究背景/研究动机

科学发现的效率下降：科学领域进展速度放缓，传统方法在复杂任务中表现不足。
LLMs的潜力：LLMs具备自然语言理解和推理能力，且在化学等科学文献上进行了预训练，但尚未充分用于科学发现。
分子属性预测的挑战：药物设计与材料发现依赖对分子属性的准确预测，现有模型（如GNNs）缺乏可解释性，且难以融入先验知识。
核心动机：探索LLMs能否利用文献知识和数据推理能力，提升分子属性预测的准确性和可解释性。

主要贡献

LLM4SD框架设计：
- 知识合成：从文献中提取已知规则（如分子量<500 mol更易通过血脑屏障）。
- 知识推理：从数据中识别新规律（如含卤素的分子更可能通过血脑屏障）。
规则到特征向量的转化：将自然语言描述的规则转化为可执行的代码函数（如RDKit计算分子量），生成可解释的特征向量。
可解释性驱动：结合随机森林等模型，量化每条规则的重要性，为科学假设提供依据。
跨领域适用性：覆盖生理学、生物物理学、物理化学和量子力学四大领域，验证框架的通用性。

方法

知识合成（Knowledge Synthesis）：
- 输入：分子属性预测任务描述（如“预测分子溶解度”）。
- 输出：LLM生成的规则（如“分子量与溶解度相关”）。
- 数学表示：规则集 Rsyn={r1,r2,…,r**n}，每条规则 r**i 对应一个二值或连续特征。
知识推理（Knowledge Inference）：
- 输入：分子数据（SMILES字符串）与标签。
- 输出：LLM从数据中推导的规则（如“含卤素基团与血脑屏障渗透性相关”）。
- 数学表示：规则集 Rinf={r1′,r2′,…,r**m′}。
特征向量生成：
- 将规则转化为RDKit函数，生成特征向量 x∈Rn+m。
- 例如，分子量规则对应的特征为== x1=I(rdMolDescriptors.CalcExactMolWt(mol)<500)。==
模型训练：
- 使用随机森林等可解释模型训练分类或回归任务，特征重要性通过模型权重或决策树分裂点评估。

实验

5.1 实验设计及目的

数据集：MoleculeNet的58个任务，涵盖四大领域：
- 生理学（如血脑屏障渗透性BBBP、毒性预测Tox21）。
- 生物物理学（如HIV抑制活性、BACE-1酶抑制）。
- 物理化学（溶解度ESOL、亲脂性Lipophilicity）。
- 量子力学（QM9的12项属性，如偶极矩、HOMO能量）。
目的：验证LLM4SD在跨领域任务中的性能、可解释性及对科学发现的推动作用。

5.2 对比基准与效果

对比模型：
- 传统方法：基于ECFP4指纹的随机森林。
- 先进GNNs：AttrMask、GraphCL、MolCLR、3DInfomax、GraphMVP、MoleBERT、GROVER、UniMol。
结果：
- 生理学与生物物理学：LLM4SD的AUC-ROC达76.60%（提升2.07%）。
- 物理化学与量子力学：MAE为5.8233（较次优模型提升48.2%），RMSE为1.28（提升12.9%）。
- 全面领先：在58项任务中均优于所有基线。

5.3 消融实验与模块分析

知识合成 vs. 知识推理：
- 两者结合时性能最优（如生理学AUC-ROC 73.62 vs. 单独70.46和69.25）。
- 文献知识提供理论支持，数据推理补充新规律。
LLM规模与领域适配性：
- 大规模通用LLM（如GPT-4）表现稳定，但科学专用小模型（如Galactica-6.7B）因领域预训练数据优势，性能接近GPT-4。
- 通用模型（如Falcon）需更大参数量才能匹配科学专用模型。

不足

文中提到的不足：
- 复杂序列处理局限：蛋白质/基因序列比SMILES更长，当前LLMs受上下文长度限制，难以有效分析。
潜在不足与改进方向：
规则提取的可靠性：LLM生成的规则可能存在噪声或冗余，需结合领域专家验证。
- 解决方案：设计混合人机协同框架，引入专家反馈迭代优化规则库。
计算资源依赖：LLM推理与特征生成需较高算力，限制实时应用。
- 解决方案：开发轻量化规则压缩算法，或预计算特征库供快速调用。
领域泛化能力：当前实验集中于化学分子，对其他科学领域（如材料科学）的迁移性未验证。
- 解决方案：扩展框架至多模态数据（如晶体结构、光谱数据），结合跨领域预训练。
动态知识更新：科学知识随时间演进，静态规则库可能过时。
- 解决方案：构建持续学习机制，定期从新文献和数据中更新规则。

补充信息

7.1 论文作者及机构

作者：Yizhen Zheng（莫纳什大学）、Huan Yee Koh（莫纳什大学）、Jiaxin Ju（格里菲斯大学）、Anh T.N. Nguyen（莫纳什大学）、Lauren T. May（莫纳什大学）、Geoffrey I. Webb（莫纳什大学）、Shirui Pan（格里菲斯大学）。
机构：莫纳什大学（澳大利亚）、格里菲斯大学（澳大利亚）。