题目与发表时间
题目:Large language models for scientific discovery in molecular property prediction
发表时间:2025年2月25日在线发表于《Nature Machine Intelligence》。
简介
本文提出了一种名为LLM4SD的框架,旨在利用大语言模型(LLMs)驱动分子属性预测领域的科学发现。该框架通过整合文献知识(如分子量对溶解度的关键影响)和从分子数据(如SMILES编码结构)中推理出的新规则,生成可解释的特征向量,并结合随机森林等可解释模型进行预测。实验表明,LLM4SD在58个分子属性预测任务中优于现有最先进的图神经网络(GNNs),并提供了可解释的规则,为科学假设的提出提供了新思路。
研究背景/研究动机
- 科学发现的效率下降:科学领域进展速度放缓,传统方法在复杂任务中表现不足。
- LLMs的潜力:LLMs具备自然语言理解和推理能力,且在化学等科学文献上进行了预训练,但尚未充分用于科学发现。
- 分子属性预测的挑战:药物设计与材料发现依赖对分子属性的准确预测,现有模型(如GNNs)缺乏可解释性,且难以融入先验知识。
- 核心动机:探索LLMs能否利用文献知识和数据推理能力,提升分子属性预测的准确性和可解释性。
主要贡献
- LLM4SD框架设计:
- 知识合成:从文献中提取已知规则(如分子量<500 mol更易通过血脑屏障)。
- 知识推理:从数据中识别新规律(如含卤素的分子更可能通过血脑屏障)。
- 规则到特征向量的转化:将自然语言描述的规则转化为可执行的代码函数(如RDKit计算分子量),生成可解释的特征向量。
- 可解释性驱动:结合随机森林等模型,量化每条规则的重要性,为科学假设提供依据。
- 跨领域适用性:覆盖生理学、生物物理学、物理化学和量子力学四大领域,验证框架的通用性。
方法
- 知识合成(Knowledge Synthesis):
- 输入:分子属性预测任务描述(如“预测分子溶解度”)。
- 输出:LLM生成的规则(如“分子量与溶解度相关”)。
- 数学表示:规则集 Rsyn={r1,r2,…,r**n},每条规则 r**i 对应一个二值或连续特征。
- 知识推理(Knowledge Inference):
- 输入:分子数据(SMILES字符串)与标签。
- 输出:LLM从数据中推导的规则(如“含卤素基团与血脑屏障渗透性相关”)。
- 数学表示:规则集 Rinf={r1′,r2′,…,r**m′}。
- 特征向量生成:
- 将规则转化为RDKit函数,生成特征向量 x∈Rn+m。
- 例如,分子量规则对应的特征为== x1=I(rdMolDescriptors.CalcExactMolWt(mol)<500)。==
- 模型训练:
- 使用随机森林等可解释模型训练分类或回归任务,特征重要性通过模型权重或决策树分裂点评估。
实验
5.1 实验设计及目的
- 数据集:MoleculeNet的58个任务,涵盖四大领域:
- 生理学(如血脑屏障渗透性BBBP、毒性预测Tox21)。
- 生物物理学(如HIV抑制活性、BACE-1酶抑制)。
- 物理化学(溶解度ESOL、亲脂性Lipophilicity)。
- 量子力学(QM9的12项属性,如偶极矩、HOMO能量)。
- 目的:验证LLM4SD在跨领域任务中的性能、可解释性及对科学发现的推动作用。
5.2 对比基准与效果
- 对比模型:
- 传统方法:基于ECFP4指纹的随机森林。
- 先进GNNs:AttrMask、GraphCL、MolCLR、3DInfomax、GraphMVP、MoleBERT、GROVER、UniMol。
- 结果:
- 生理学与生物物理学:LLM4SD的AUC-ROC达76.60%(提升2.07%)。
- 物理化学与量子力学:MAE为5.8233(较次优模型提升48.2%),RMSE为1.28(提升12.9%)。
- 全面领先:在58项任务中均优于所有基线。
5.3 消融实验与模块分析
- 知识合成 vs. 知识推理:
- 两者结合时性能最优(如生理学AUC-ROC 73.62 vs. 单独70.46和69.25)。
- 文献知识提供理论支持,数据推理补充新规律。
- LLM规模与领域适配性:
- 大规模通用LLM(如GPT-4)表现稳定,但科学专用小模型(如Galactica-6.7B)因领域预训练数据优势,性能接近GPT-4。
- 通用模型(如Falcon)需更大参数量才能匹配科学专用模型。
不足
-
文中提到的不足:
- 复杂序列处理局限:蛋白质/基因序列比SMILES更长,当前LLMs受上下文长度限制,难以有效分析。
-
潜在不足与改进方向:
规则提取的可靠性:LLM生成的规则可能存在噪声或冗余,需结合领域专家验证。
-
解决方案:设计混合人机协同框架,引入专家反馈迭代优化规则库。
计算资源依赖:LLM推理与特征生成需较高算力,限制实时应用。
-
解决方案:开发轻量化规则压缩算法,或预计算特征库供快速调用。
领域泛化能力:当前实验集中于化学分子,对其他科学领域(如材料科学)的迁移性未验证。
-
解决方案:扩展框架至多模态数据(如晶体结构、光谱数据),结合跨领域预训练。
动态知识更新:科学知识随时间演进,静态规则库可能过时。
- 解决方案:构建持续学习机制,定期从新文献和数据中更新规则。
-
补充信息
7.1 论文作者及机构
- 作者:Yizhen Zheng(莫纳什大学)、Huan Yee Koh(莫纳什大学)、Jiaxin Ju(格里菲斯大学)、Anh T.N. Nguyen(莫纳什大学)、Lauren T. May(莫纳什大学)、Geoffrey I. Webb(莫纳什大学)、Shirui Pan(格里菲斯大学)。
- 机构:莫纳什大学(澳大利亚)、格里菲斯大学(澳大利亚)。
7.2 发表信息
- 期刊名称:Nature Machine Intelligence
- DOI:10.1038/s42256-025-00994-z