论文1md

题目与发表时间

题目:Large language models for scientific discovery in molecular property prediction
发表时间:2025年2月25日在线发表于《Nature Machine Intelligence》。


简介

本文提出了一种名为LLM4SD的框架,旨在利用大语言模型(LLMs)驱动分子属性预测领域的科学发现。该框架通过整合文献知识(如分子量对溶解度的关键影响)和从分子数据(如SMILES编码结构)中推理出的新规则,生成可解释的特征向量,并结合随机森林等可解释模型进行预测。实验表明,LLM4SD在58个分子属性预测任务中优于现有最先进的图神经网络(GNNs),并提供了可解释的规则,为科学假设的提出提供了新思路。


研究背景/研究动机

  1. 科学发现的效率下降:科学领域进展速度放缓,传统方法在复杂任务中表现不足。
  2. LLMs的潜力:LLMs具备自然语言理解和推理能力,且在化学等科学文献上进行了预训练,但尚未充分用于科学发现。
  3. 分子属性预测的挑战:药物设计与材料发现依赖对分子属性的准确预测,现有模型(如GNNs)缺乏可解释性,且难以融入先验知识
  4. 核心动机:探索LLMs能否利用文献知识和数据推理能力,提升分子属性预测的准确性和可解释性。

主要贡献

  1. LLM4SD框架设计:
    • 知识合成:从文献中提取已知规则(如分子量<500 mol更易通过血脑屏障)。
    • 知识推理:从数据中识别新规律(如含卤素的分子更可能通过血脑屏障)。
  2. 规则到特征向量的转化:将自然语言描述的规则转化为可执行的代码函数(如RDKit计算分子量),生成可解释的特征向量。
  3. 可解释性驱动:结合随机森林等模型,量化每条规则的重要性,为科学假设提供依据。
  4. 跨领域适用性:覆盖生理学、生物物理学、物理化学和量子力学四大领域,验证框架的通用性。

方法

  1. 知识合成(Knowledge Synthesis)
    • 输入:分子属性预测任务描述(如“预测分子溶解度”)。
    • 输出:LLM生成的规则(如“分子量与溶解度相关”)。
    • 数学表示规则集 Rsyn={r1,r2,…,r**n},每条规则 r**i 对应一个二值或连续特征。
  2. 知识推理(Knowledge Inference)
    • 输入:分子数据(SMILES字符串)与标签。
    • 输出:LLM从数据中推导的规则(如“含卤素基团与血脑屏障渗透性相关”)。
    • 数学表示规则集 Rinf={r1′,r2′,…,r**m′}。
  3. 特征向量生成
    • 将规则转化为RDKit函数,生成特征向量 x∈Rn+m
    • 例如,分子量规则对应的特征为== x1=I(rdMolDescriptors.CalcExactMolWt(mol)<500)。==
  4. 模型训练
    • 使用随机森林等可解释模型训练分类或回归任务,特征重要性通过模型权重决策树分裂点评估。

实验

5.1 实验设计及目的
  • 数据集:MoleculeNet的58个任务,涵盖四大领域:
    • 生理学(如血脑屏障渗透性BBBP、毒性预测Tox21)。
    • 生物物理学(如HIV抑制活性、BACE-1酶抑制)。
    • 物理化学(溶解度ESOL、亲脂性Lipophilicity)。
    • 量子力学(QM9的12项属性,如偶极矩、HOMO能量)。
  • 目的:验证LLM4SD在跨领域任务中的性能、可解释性及对科学发现的推动作用。
5.2 对比基准与效果
  • 对比模型:
    • 传统方法:基于ECFP4指纹的随机森林。
    • 先进GNNs:AttrMask、GraphCL、MolCLR、3DInfomax、GraphMVP、MoleBERT、GROVER、UniMol。
  • 结果:
    • 生理学与生物物理学:LLM4SD的AUC-ROC达76.60%(提升2.07%)。
    • 物理化学与量子力学:MAE为5.8233(较次优模型提升48.2%),RMSE为1.28(提升12.9%)。
    • 全面领先:在58项任务中均优于所有基线。
5.3 消融实验与模块分析
  1. 知识合成 vs. 知识推理:
    • 两者结合时性能最优(如生理学AUC-ROC 73.62 vs. 单独70.46和69.25)。
    • 文献知识提供理论支持,数据推理补充新规律。
  2. LLM规模与领域适配性:
    • 大规模通用LLM(如GPT-4)表现稳定,但科学专用小模型(如Galactica-6.7B)因领域预训练数据优势,性能接近GPT-4。
    • 通用模型(如Falcon)需更大参数量才能匹配科学专用模型。

不足

  1. 文中提到的不足

    • 复杂序列处理局限:蛋白质/基因序列比SMILES更长,当前LLMs受上下文长度限制,难以有效分析。
  2. 潜在不足与改进方向

    规则提取的可靠性:LLM生成的规则可能存在噪声或冗余,需结合领域专家验证。

    • 解决方案:设计混合人机协同框架,引入专家反馈迭代优化规则库。

    计算资源依赖:LLM推理与特征生成需较高算力,限制实时应用。

    • 解决方案:开发轻量化规则压缩算法,或预计算特征库供快速调用。

    领域泛化能力:当前实验集中于化学分子,对其他科学领域(如材料科学)的迁移性未验证。

    • 解决方案:扩展框架至多模态数据(如晶体结构、光谱数据),结合跨领域预训练。

    动态知识更新:科学知识随时间演进,静态规则库可能过时。

    • 解决方案:构建持续学习机制,定期从新文献和数据中更新规则。

补充信息

7.1 论文作者及机构
  • 作者:Yizhen Zheng(莫纳什大学)、Huan Yee Koh(莫纳什大学)、Jiaxin Ju(格里菲斯大学)、Anh T.N. Nguyen(莫纳什大学)、Lauren T. May(莫纳什大学)、Geoffrey I. Webb(莫纳什大学)、Shirui Pan(格里菲斯大学)。
  • 机构:莫纳什大学(澳大利亚)、格里菲斯大学(澳大利亚)。
7.2 发表信息
  • 期刊名称:Nature Machine Intelligence
  • DOI:10.1038/s42256-025-00994-z
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值