寻找具有良好药理活性、低毒性和适当药代动力学性质的候选分子是药物发现的重要任务。深度神经网络在加速和改进药物发现方面取得了令人印象深刻的进展。然而,这些技术依赖于大量的标记数据来形成分子性质的准确预测。在药物发现管道的每个阶段,通常只有少量候选分子和衍生物的生物学数据可用,这表明深度神经网络在低数据药物发现中的应用仍然是一个巨大的挑战。在这里,作者提出了一个带有GAT的元学习架构,Meta-GAT,用于预测低数据药物发现中的分子特性。GAT通过注意力机制在原子水平上捕捉原子群的局部效应,并隐含地在分子水平上捕捉不同原子群之间的相互作用。Meta-GAT进一步发展了基于双层优化的元学习策略,将来自其他属性预测任务的元知识转移到低数据目标任务中。总之,Meta-GAT展示了元学习如何减少在低数据情景下进行分子有意义预测所需的数据量。元学习很可能成为低数据药物发现中的新学习范式。
来自:Meta Learning With Graph Attention Networks for Low-Data Drug Discovery
工程地址:https://github.com/lol88/Meta-GAT
背景概述
药物发现的关键问题是候选分子的筛选和优化,候选分子必须满足一系列标准:化合物需要具有合适的生物靶点潜力,并具有良好的物理化学性质,比如吸收、分布、代谢、排泄和毒性等,这些性质简称ADMET。然而,通常只有少数经过验证的数据可用。因此,如何以低数据准确预测候选分子的物理化学性质越来越受到研究人员的重视。
近年来,深度学习技术在分子性质预测、药物相互作用预测、虚拟筛选等方面取得了一些关键进展。特别是图神经网络(GNNs),它可以直接从化学图结构中学习节点和边所包含的信息,引起了生物信息学家的强烈兴趣。深度学习的性能很大程度上取决于训练数据的大小,更大的样本量通常会产生更准确的模型。在有大量标注数据的情况下,深度神经网络有足够的能力学习输入的复杂表示。然而,这显然与新疾病下的药物发现相矛盾。由于标记数据的稀缺性,对低数据药物发现取得令人满意的结果仍然是一个挑战。
人脑对客观事物的理解并不一定需要大样本训练,很多情况下可以通过简单的类比来学习。DeepMind探索大脑如何在很少的经验下学习,即“元学习”或“学会学习”。与当下火热的大模型相反,对元学习模式的理解是实现通用智能的重要途径之一。
元学习利用元知识来降低对样本复杂度的要求。然而,分子结构通常是由原子之间的相互作用和复杂的电子构型组成的。即使分子结构的微小变化也可能导致完全相反的分子性质。一个模型学习了分子结构的复杂性,这就要求该模型能够完美地提取出邻近原子对中心原子的局部环境影响,以及拓扑上相距较远的原子对之间包含的丰富的非局部信息。因此,用于低数据药物发现的元学习高度依赖于图结构,并且需要针对广泛不同的任务进行重新设计。
元学习在预测分子性质方面做了一些有代表性的尝试。Altae-Tran等人[43]引入了一种迭代改进的长短期记忆(IterRefLSTM)架构,该架构使用IterRefLSTM为one-shot学习生成嵌入。Adler等[44]提出了跨域Hebbian集成小样本学习(CHEF),通过Hebbian学习器的集成作用于深度神经网络的不同层来实现表示融合。元分子图神经网络(MGNN)利用预训练的GNN,并引入额外的自监督任务,如键重建和原子型预测,与分子性质预测任务共同优化[45]。Meta-MGNN,CHEF通过对大规模分子语料库和附加的自监督模型参数进行预训练获得元知识。IterRefLSTM训练内存要求高,这限制了模型结构,只能在特定的领域场景中使用。如何有效地表示分子特征以及如何捕获不同任务之间的共同知识是元学习中存在的巨大挑战。
在这项工作中,作者提出了一种基于图注意网络的元学习架构Meta-GAT,用于预测低数据药物发现中分子的生化特性。图注意网络通过三重注意机制捕获原子水平上原子群的局部效应,从而使GAT能够了解原子群对化合物性质的影响。在分子水平上,GAT将整个分子视为连接分子中每个原子的虚拟节点,隐式地捕获不同原子群之间的相互作用。门控递归单元(GRU)分层模型主要致力于将有限的分子信息抽象或转化为更高层次的特征向量或元知识,提高门控递归单元感知化学环境和分子连通性的能力,从而有效降低样本复杂度。这对于低数据药物发现非常重要。Meta-GAT受益于元知识,并进一步发展了一种基于双层优化的元学习策略,该策略将元知识从其他属性预测任务转移到低数据目标任务,使模型能够快速适应少样本的分子属性预测。
贡献包括:
- 作者创造了一种化学工具来预测模型看不见的新分子的多种生理特性。这个工具可以推动低数据药物发现的分子表示的边界。
- 所提出的Meta-GAT通过三重注意机制在原子水平上捕捉原子群的局部效应,也可以在分子水平上模拟分子的全局效应。
- 作者提出了一种元学习策略,通过双层优化(bilevel optimization)有选择地更新每个任务中的参数,这对捕获不同任务之间共享的通用知识有帮助。
- Meta-GAT展示了元学习如何减少在低数据药物发现中对分子进行有意义预测所需的数据量。
方法
问题的公式化
考虑几个常见的药物发现任务 T T T,例如预测新分子的毒性和副作用, x x x是要测量的化合物分子,标记 y y y是分子性质的二元实验标记(正/负)。假设考虑了所有可能的规则 H H H(假设空间)。 h h h是从 x x x到 y y y的最优假设。期望风险 R ( h ) R(h) R(h)表示决策模型对所有样本的预测能力。经验风险 R ( h I ) R(h_I) R(hI)通过计算损失函数的平均值表示模型对训练集中样本的预测能力, I I I表示训练集中样本的个数。使用经验风险 R ( h I ) R(h_I) R(hI)来估计期望风险 R ( h ) R(h) R(h)。在实际应用中,对于新分子的性质预测任务,只有几个例子可用,即 I → I→ I→few。根据经验风险最小化理论,如果只提供少量的训练样本,使得经验风险 R ( h I ) R(h_I) R(hI)与期望风险 R ( h ) R(h) R(h)的近似值相去甚远,则得到的经验风险最小化器是不可靠的。学习的挑战是从几个例子中获得可靠的经验风险最小化: E [ R ( h I → f e w ) − R ( h ) ] = 0 \mathbb{E}[R(h_{I→few})-R(h)]=0 E[R(hI→few)−R(h)]=0经验风险最小化与样本复杂度密切相关。样本复杂度是指最小化经验风险 R ( h I ) R(h_I) R(hI)所需的训练样本数量。我们使用元知识 w w w来降低学习样本的复杂性,从而解决最小化不可靠经验风险的核心问题。
元学习
元学习,也称为learning to learn,是指通过系统地观察模型在广泛的学习任务中的表现来学习如何学习的经验。这种学习经验被称为元知识 w w w。元学习的目标是找到不同任务之间共享的 w w w,这样模型就可以快速泛化到只包含少数有监督示例的新任务。
元学习和迁移学习的区别在于,迁移学习通常是拟合一个数据的分布,而元学习是拟合多个相似任务的分布。因此,元学习的训练样本是一系列的任务。
MAML被用作Meta-GAT框架的基本元学习算法。Meta-GAT通过双层优化有选择地更新每个任务中的参数,并将元知识转移到标签样本较少的新任务中,如图1所示。双层优化意味着一个优化包含另一个优化作为约束。在内层优化中,我们希望从训练任务的支持集中学习一个通用的元知识 w w w,使不同任务的损失尽可能小。内层优化阶段可以形式化,如下所示: θ ∗ ( i ) ( w ) = a r g m i n θ L f θ t a s k ( θ , w , D t r a i n s ( i ) ) \theta^{*(i)}(w)=argmin_{\theta}L_{f_{\theta}}^{task}(\theta,w,D_{train}^{s(i)}) θ∗(i)(w)=argminθLfθtas