在 AI 驱动药物研发领域,分子性质预测与分子生成长期被视为独立任务。清华大学联合中科院团队提出 UniGEM 模型,首次基于扩散模型实现两任务协同增强。研究团队指出,生成与性质预测依赖于有效的分子表示而高度相关。
人工智能技术正在深刻重塑药物研发的进程,其中分子性质预测与分子生成作为两大核心任务,长期以来却沿着独立的技术路径发展。分子性质预测的目的是给定分子结构信息,预测分子多样的化学、生物性质,加速药物筛选。分子生成旨在估计分子数据分布,潜在地学习原子间相互作用与构象信息,能够从头生成化学合理的新分子,开拓药物设计的可能性边界。尽管近年来在这些领域已经进行了大量研究,但它们基本上是独立发展的,始终未能有效打通这两个关键环节的协同通道。
针对于此,清华大学联合中科院团队提出 UniGEM 模型,首次基于扩散模型实现两任务协同增强。研究团队指出,生成与性质预测依赖于有效的分子表示而高度相关。团队创新地提出两阶段生成过程,克服了传统联合训练中的不一致性,为分子生成与性质预测领域开辟新路径。该成果以「UniGEM: A Unified Approach to Generation and Property Prediction for Molecules」为题,入选 ICLR 2025。
论文地址:
https://openreview.net/pdf?id=Lb91pXwZMR
QM9 量子化学数据集:
https://go.hyper.ai/zgPLs
GEOM-Drugs 3D 分子构象数据集:
https://go.hyper.ai/FOtLx
开源项目「awesome-ai4s」汇集了 200 余篇 AI4S 论文解读,并提供海量数据集与工具:
https://github.com/hyperai/awesome-ai4s
生成与预测任务统一的动机
研究团队认为,生成与预测任务的本质均在于学习分子表示。一方面,各种分子预训练方法的有效性表明,分子性质预测依赖于稳健的分子表示作为基础。另一方面,分子生成需要对分子结构有深入的理解,从而能够在生成过程中创建良好的表示。
最近的研究结果为这一观点提供了支持。例如,计算机视觉领域的工作表明,扩散模型本身具有学习有效图像表征的能力。在分子领域,研究表明生成式预训练可以增强分子性质预测任务,不过这些方法通常需要额外的微调才能实现最佳预测性能。此外,虽然预测器可以通过 classifier guidance 方法指导分子生成,但预测器的训练是否可以直接提高生成性能仍不清楚。
因此,现有研究尚未充分阐明生成任务和预测任务之间的关系,这提出了一个关键问题:我们能否构建统一模型,实现生成与预测任务的协同增强?
传统方法失败的原因分析
将这两项任务结合的一个直接方法是使用传统的多任务学习框架,其中模型同时优化生成损失与预测损失。然而,该研究团队的实验表明,这种方法显著降低了生成任务和性质预测任务的性能 (生成稳定性骤降 6%,预测误差同步增大 1 倍以上)。即使冻结生成模型的权重,并为性质预测任务添加一个单独的 head 以保持生成性能,研究人员观察到与从头开始训练相比,性质预测的性能并没有改善。
研究人员将传统方法结果不理想归因于生成任务和预测任务之间固有的不一致性。在扩散生成过程中,分子结构需要历经从无序噪声到精细结构的渐进重构。然而,在预测任务中,有意义的分子性质只有在分子结构基本建立后才能定义。因此,仅仅采用简单的多任务优化方法会导致在早期扩散阶段,高度无序的分子构象会与性质标签形成错误关联,从而对分子生成和属性预测产生负面影响。
为了进一步说明这一观点,研究人员对扩散训练过程中去噪网络内的中间表示与目标分子之间的互信息进行了理论分析。进而从理论上证明,扩散模型隐式地最大化了中间表示与目标分子互信息的下界,表明具有扩散模型表示学习的能力。然而,中间表示与目标分子间的互信息呈现单调递减趋势,在较大时间步时趋近于零,这意味着无序阶段的中间表示无法支持有效预测。因此,直觉和理论都表明,只有在较小的时间步,即当分子仍然保持较为有序时,生成任务和预测任务才能对齐。
两阶段扩散生成机制
基于上述分析,研究团队提出了一种新颖的两阶段生成方法,旨在统一分子的性质预测和生成,如下图所示。
图注:UniGEM 的两阶段生成过程
研究人员将分子生成过程分为两个阶段,即「分子成核阶段」和「分子生长阶段」,这一划分灵感来源于物理学中的晶体形成过程。
在分子成核阶段,分子从完全无序状态形成其骨架,随后基于该骨架生长出完整的分子。这两个阶段通过「成核时间」来分隔。研究人员引入了一种新的分子生成方式来表述这两个阶段。其中,在「成核时间」之前,扩散模型逐步生成分子坐标;在成核之后,模型继续调整分子坐标,同时优化性质与原子类型预测损失。
不同于传统生成模型通常进行原子类型和坐标的联合扩散,这一创新方法仅专注于坐标的扩散,将原子类型作为单独的预测任务。因为研究人员观察到,原子类型通常可以根据成型的分子坐标推断出来。具体来说,在成核之前,扩散过程的目标是重建坐标;成核之后,其将原子类型和性质的预测损失整合进统一的学习框架中。
UniGEM 的训练策略
为了便于与传统的联合扩散方法进行比较,研究人员采用与 E(3) 等变扩散模型(EDM) 使用 EGNN 作为网络结构骨架。其中,生长阶段只占整个训练过程的约 1%。如果按照标准的扩散训练程序,并均匀地采样时间步长,预测任务的迭代次数仅占总训练过程的 1%,这将显著降低模型在该任务上的表现。因此,为了确保对预测任务的充分训练,研究人员在生长阶段对时间步长进行过采样。
然而,研究人员观察到,过采样可能导致整个时间步长范围内的训练不平衡,进而影响生成过程的质量。为了解决这个问题,其提出了一种多分支网络架构。该网络在浅层共享参数,但在更深的层次分裂成两个分支,每个分支拥有一套独立的参数。这些分支在训练的不同阶段激活:一个分支专注于成核阶段,另一个分支处理生长阶段,如下图所示。该设计确保了预测任务和生成任务能够有效训练,而不会相互影响。
图注:UniGEM 的训练过程
UniGEM 的推理过程
图注:UniGEM 的分子生成过程
在 UniGEM 中,分子生成是通过反向扩散过程来重建原子坐标,然后基于生成的坐标预测原子类型,如图。对于性质预测,固定网络输入的时间步为零,并使用性质预测 head。值得注意的是,这种方法对于生成任务和预测任务都不会产生额外的计算开销,总推理时间与基线相同。
对于分子生成任务,研究人员还分析了 UniGEM 与传统联合生成方法在生成误差上的差异。首先,其观察到在 UniGEM 中,原子类型预测损失的误差小于联合生成中的原子类型去噪生成损失。其次,在联合生成过程中,坐标生成会受到原子类型预测结果震荡的影响,进而导致误差增大。最后,联合生成方法还会引入更大的初始分布误差和离散化误差。这些因素共同解释了 UniGEM 如何实现更优的生成效果。
实验结果:在分子生成与性质预测任务上均优于基线模型
分子生成:UniGEM 优于基准模型
研究人员首先在 QM9 和 GEOM-Drugs 数据集上比较了基于 EDM 改造的 UniGEM 与 EDM 变体,UniGEM 几乎在所有评估指标上都优于基准模型,如下图所示。值得注意的是,与其他 EDM 变体相比,UniGEM 显著更简单,因为它既不依赖于先验知识,也不需要额外的自动编码器训练,但它的性能优于 EDM-Bridge 和 GeoLDM,突显了 UniGEM 的优势。
图注:UniGEM 的生成效果
为了展示 UniGEM 在适应各种生成算法方面的灵活性,研究人员将 UniGEM 应用于贝叶斯流网络 (BFN),在 QM9 数据集上超过了联合生成坐标与原子类型的 GeoBFN,从而取得了 SOTA 结果。
此外,研究人员还测试了 UniGEM 在条件生成任务中的表现,通过在采样过程中使用模型自带的性质预测模块作为指导,避免了重新训练条件生成模型的需求。
分子性质预测:UniGEM 超越了大多数预训练方法
图注:UniGEM 的性质预测效果
研究人员在 QM9 数据集上评估了 UniGEM 性质预测的效果,采用测试集上的平均绝对误差 (MAE) 作为评估指标。如图,UniGEM 显著优于从头训练的 EGNN,证明了统一建模的有效性。令人惊讶的是,尽管这些先进的预训练方法利用了额外的大规模预训练数据集,UniGEM 仍然超越了大多数预训练方法。这突显了其生成与预测统一模型的优势,能够在生成过程中有效利用分子表示学习的能力,而无需额外的数据和预训练步骤。
结语
UniGEM 模型统一了分子生成和性质预测任务,并显著提高了分子生成和性质预测的性能。UniGEM 的增强性能得到了坚实的理论分析和全面的实验研究支持。我们相信,创新的两阶段生成过程及其相应的模型为分子生成框架的发展提供了新的范式,并可能激发更多高级分子生成框架的开发,进而惠及更多特定应用领域的分子生成。
如何学习大模型 AI ?
由于新岗位的生产效率,要优于被取代岗位的生产效率,所以实际上整个社会的生产效率是提升的。
但是具体到个人,只能说是:
“最先掌握AI的人,将会比较晚掌握AI的人有竞争优势”。
这句话,放在计算机、互联网、移动互联网的开局时期,都是一样的道理。
我在一线互联网企业工作十余年里,指导过不少同行后辈。帮助很多人得到了学习和成长。
我意识到有很多经验和知识值得分享给大家,也可以通过我们的能力和经验解答大家在人工智能学习中的很多困惑,所以在工作繁忙的情况下还是坚持各种整理和分享。但苦于知识传播途径有限,很多互联网行业朋友无法获得正确的资料得到学习提升,故此将并将重要的AI大模型资料包括AI大模型入门学习思维导图、精品AI大模型学习书籍手册、视频教程、实战学习等录播视频免费分享出来。
第一阶段(10天):初阶应用
该阶段让大家对大模型 AI有一个最前沿的认识,对大模型 AI 的理解超过 95% 的人,可以在相关讨论时发表高级、不跟风、又接地气的见解,别人只会和 AI 聊天,而你能调教 AI,并能用代码将大模型和业务衔接。
- 大模型 AI 能干什么?
- 大模型是怎样获得「智能」的?
- 用好 AI 的核心心法
- 大模型应用业务架构
- 大模型应用技术架构
- 代码示例:向 GPT-3.5 灌入新知识
- 提示工程的意义和核心思想
- Prompt 典型构成
- 指令调优方法论
- 思维链和思维树
- Prompt 攻击和防范
- …
第二阶段(30天):高阶应用
该阶段我们正式进入大模型 AI 进阶实战学习,学会构造私有知识库,扩展 AI 的能力。快速开发一个完整的基于 agent 对话机器人。掌握功能最强的大模型开发框架,抓住最新的技术进展,适合 Python 和 JavaScript 程序员。
- 为什么要做 RAG
- 搭建一个简单的 ChatPDF
- 检索的基础概念
- 什么是向量表示(Embeddings)
- 向量数据库与向量检索
- 基于向量检索的 RAG
- 搭建 RAG 系统的扩展知识
- 混合检索与 RAG-Fusion 简介
- 向量模型本地部署
- …
第三阶段(30天):模型训练
恭喜你,如果学到这里,你基本可以找到一份大模型 AI相关的工作,自己也能训练 GPT 了!通过微调,训练自己的垂直大模型,能独立训练开源多模态大模型,掌握更多技术方案。
到此为止,大概2个月的时间。你已经成为了一名“AI小子”。那么你还想往下探索吗?
- 为什么要做 RAG
- 什么是模型
- 什么是模型训练
- 求解器 & 损失函数简介
- 小实验2:手写一个简单的神经网络并训练它
- 什么是训练/预训练/微调/轻量化微调
- Transformer结构简介
- 轻量化微调
- 实验数据集的构建
- …
第四阶段(20天):商业闭环
对全球大模型从性能、吞吐量、成本等方面有一定的认知,可以在云端和本地等多种环境下部署大模型,找到适合自己的项目/创业方向,做一名被 AI 武装的产品经理。
- 硬件选型
- 带你了解全球大模型
- 使用国产大模型服务
- 搭建 OpenAI 代理
- 热身:基于阿里云 PAI 部署 Stable Diffusion
- 在本地计算机运行大模型
- 大模型的私有化部署
- 基于 vLLM 部署大模型
- 案例:如何优雅地在阿里云私有部署开源大模型
- 部署一套开源 LLM 项目
- 内容安全
- 互联网信息服务算法备案
- …
学习是一个过程,只要学习就会有挑战。天道酬勤,你越努力,就会成为越优秀的自己。
如果你能在15天内完成所有的任务,那你堪称天才。然而,如果你能完成 60-70% 的内容,你就已经开始具备成为一名大模型 AI 的正确特征了。