跨领域的小样本药物发现基准

Meta-MolNet是一个数据和算法集合,用于评估药物发现中模型的泛化性和不确定性。它通过高分子/支架比率的数据集,尤其是Meta-GAT模型,解决了样本复杂性和跨领域迁移的问题。Meta-GAT通过元学习实现对新化学空间的可靠预测,挑战了现有模型的脆弱性和不确定性。
摘要由CSDN通过智能技术生成

预测分子的药理活性、毒性和药代动力学性质是药物发现的中心任务。然而,现有的模型可能对新的scaffold分子产生脆弱和高度不确定的预测。这些模型在不同的基准上进行了测试,严重影响了评估结果的质量。作者提出了Meta-MolNet,一个数据基准和算法集合,它是一个衡量模型泛化和不确定性量化能力的标准基准平台。MetaMolNet管理着scaffold比例高的分子数据集,这往往导致更困难的数据转移和泛化问题。在此基础上,作者提出了一种基于跨领域元学习的图注意力网络Meta-GAT,该网络利用双层优化从源领域的scaffold家族分子数据集中学习元知识。Meta-GAT受益于元知识,它降低了对样本复杂性的要求,通过对几个例子的内部迭代,可以可靠地预测目标域中的新scaffold分子。作者评估了现有的方法作为公共基准,Meta-MolNet基准测试证明了所提出算法在领域泛化和不确定性量化方面的有效性。大量的实验表明,Meta-GAT模型具有最先进的领域泛化性能。

来自:Meta-MolNet: A Cross-Domain Benchmark for Few Examples Drug Discovery
工程地址:https://github.com/lol88/Meta-MolNet

背景概述

药物发现过程的核心是寻找对生物靶点具有最佳治疗效果、提高药物活性、降低患者副作用风险的候选分子。在分子化学空间中探索和优化每个分子是不切实际的。药物化学家常用的策略是以已知的潜在分子为起始点,利用计算工具感知起始点周围分子的性质,进而缩小搜索空间,加速性质优化,指导虚拟筛选。然而,在初始阶段,通常只有少数经过验证的线索可用于优化。此外,由于经济限制,只有少数关于候选分子或类似分子的真实生物学数据可用。

机器学习技术在药物-靶标相互作用(DTI)、分子性质与活性预测、逆合成分析、分子从头设计等领域取得了关键进展。然而,标记数据的稀缺性限制了ML在实际药物发现领域的应用潜力。不同支架的分子可能存在很大差异,这种差异被称为domain shift。结构的微小变化可能导致完全相反的结果。由于分子组成的复杂性,在低数据药物发现的现实场景中预测新分子是具有挑战性的。

另一方面,目前缺乏一个高质量的评估基准来对量化ML for Drug Discovery的泛化性。目前,在大多数实验中普遍使用的随机交叉验证划分方法忽略了domain shift现象。并且忽略了化学空间中的结构相似性,导致训练数据和测试数据之间的信息泄漏。分子模型可能在测试数据上得分很高,但仍然可能过拟合训练数据。现有模型可能难以推广到领域外的新分子,产生不可靠的预测。这就产生了一个问题,即当应用于新的化学空间时,评估设置是否具有测量方法不确定度量化的能力。基于分子结构的支架划分方法满足了这一要求,因为它使训练集和测试集之间的分子支架零重叠。然而,在目前广泛使用的数据集中,分子/支架(Murcko)比值范围为1.31-4.22。在大多数分子支架上可能只有很少的数据点,这种差异不足以表示domain shift现象。之前的研究和实验证明,由于计算可靠统计数据的数据不足,即使开发的模型使用支架划分评估设置,在分子/支架比例较低的数据集上,模型也可能产生高度不确定的预测。评价结果的置信度是脆弱的。因此,为了更好地体现所提出的分子模型对新化学空间的不确定性量化和泛化能力,有必要根据泛化要求明确增加数据集中分子/支架的比例。

计算化学家并不一定需要大量的训练样本来了解候选分子。他们通常利用对观测数据背后的因果知识来帮助判断。基于元学习的直觉,作者建立了Meta-MolNet基准平台,以解决构建分子机器学习模型的两个核心问题:

  • 缺乏测量不确定度量化和领域泛化的基准平台;
  • 标记分子数据的可用性有限。

Meta-MolNet管理着分子基准集合来衡量所提出的算法在不确定性量化和泛化评估中的有效性。该基准包含广泛的公共数据集,按支架划分,分子/支架比例高,如图1所示。Meta-MolNet为用户提供了一种方便的方式来加载基准数据集。此外,作者提出了一种基于跨域元学习的Meta-GAT,该网络可以在少数示例场景下可靠地预测分子性质。具体来说,Meta-GAT模型通过对不同源域的相似分子进行先验分析来获得元知识。Meta-GAT受益于元知识,当转移到新的化学空间时,它降低了对样本复杂性的要求。然后,Meta-GAT通过几个例子的内部迭代,快速适应目标域中新的支架分子。Meta-MolNet不仅仅是数据和算法的简单集合。作者将与化学药物相关的公开数据整理成AI就绪数据,使AI研究人员能够专注于解决实际和有价值的生物医学挑战。

fig1

  • 图1:Meta-MolNet基准平台和分子元学习工作流程的小样本药物发现。重组后的数据基准具有较高的分子/支架比率(右上),为衡量现有模型的不确定度量化和泛化能力提供了基准测试。跨域元学习的元训练阶段(右下)对源域的支架家族执行双层优化工作流。元测试阶段(左下)显示了分子数据集围绕靶点域中一个unseen支架的测试细节。

方法

主要贡献是数据集。分子数据通常是高度异构、昂贵和广泛的,使得数据收集非常昂贵、耗时和费力。Meta-MolNet基准测试重组了以前的公共数据库,并将许多子基准测试合并为一个多样化的基准测试,涵盖了广泛的分子特性,从量子力学特性到对人体的生理影响。该基准测试还涵盖了多任务、单任务、回归任务和分类任务。分子/支架比低于一定阈值的支架组被丢弃,具体见表1阈值列。以减少整体数据集大小为代价,它显著提高了数据质量,降低了基准测试的难度。表1列出了Meta-MolNet基准测试中单个数据集的详细信息,包括类别、类型、分子数量,支架数量,分子/支架比,阈值等。
tab1

  • 表1:数据集描述。

对于跨域的元学习,训练是在源域上训练的,源域上的support set与query set,预测是在目标域上测试的,即目标域上的support set和query set。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值