FP-GNN a versatile deep learning architecture for enhanced molecular property prediction

FP-GNN a versatile deep learning architecture for enhanced molecular property prediction

基本信息

2022年9月17日,华南理工大学王领老师团队在Briefings in Bioinformatics上发表文章。基于分子指纹(fingerprint,FP)和图神经网络(graph neural networks,GNN)的分子性质预测模型,结合了分子指纹表示和基于图神经网络的分子图表示。

博客贡献人

猪八戒

作者

Hanxuan Cai, Huimin Zhang, Duancheng Zhao, Jingxing Wu, Ling Wang*

*王领,华南理工大学

标签

artificial intelligence; drug design and discovery; machine learning; molecular representation; graph attention networks

摘要

Deep learning is an important method for molecular design and exhibits considerable ability to predict molecular properties, including physicochemical, bioactive, and ADME/T (absorption, distribution, metabolism, excretion, and toxicity) properties. In this study, we advanced a novel deep learning architecture, termed FP-GNN, which combined and simultaneously learned information from molecular graphs and fingerprints. To evaluate the FP-GNN model, we conducted experiments on 13 public datasets, an unbiased LIT-PCBA dataset, and 14 phenotypic screening datasets for breast cell lines. Extensive evaluation results showed that compared to advanced deep learning and conventional machine learning algorithms, the FP-GNN algorithm achieved state-of-the-art performance on these datasets. In addition, we analyzed the influence of different molecular fingerprints, and the effects of molecular graphs and 1molecular fingerprints on the performance of the FP-GNN model. Analysis of the anti noise ability and interpretation ability also indicated that FP-GNN was competitive in real-world situations.

引言

预测准确的分子特性,包括物理化学和生物活性特性,以及ADME/T(吸收、分布、代谢、排泄和毒性)特性,仍然是分子设计的一个基本挑战,特别是对于药物的发现和开发。定量构效(性质)关系(QSAR/QSPR)建模是分子性质预测[1,2]中应用最广泛、最成熟的计算方法之一。QSAR/QSPR模型是使用经验、线性或非线性函数构建的,该函数基于化学结构估计活性/性质,然后应用这些模型来预测和设计具有期望功能性质[3,4]的新分子。实验数据的不断积累(如化学、生物和药理相关数据),人工智能(AI)和机器学习(ML)算法已经成为不可或缺的工具建立QSAR/QSPR模型,促进快速、可靠和负担得起的预测和评价物理化学、生物和ADME/T属性小分子的药物发现实践。

通常,基于ml的QSAR/QSPR模型严重依赖于适当的分子表征[5]。分子表征在QSAR/QSPR分析中发挥着关键作用,因为在这类模型中有大量的分子特征,以及对模型可解释性的共同要求。目前,分子表示可以分为三类,包括分子描述符、分子指纹和分子图。分子描述符和指纹来源于人类专家领域的知识,用于全面介绍分子[6-8]的结构、物理化学、拓扑和结构特征。分子描述符和指纹很容易和快速计算,可以作为输入传统ML(例如,朴素贝叶斯(NB)[9],支持向量机(SVM)[10],随机森林(RF)[11],极端梯度增强(XGBoost)[12]),和深度学习(如深度神经网络)算法QSAR/QSPR建模任务。然而,基于分子描述符的QSAR/QSPR模型,特别是传统的ML模型,在大数据时代面临一个主要挑战:如何选择与大量的预定义和可计算的分子描述符[13]相关的最重要的描述符(称为手工描述符)。这一步不仅对模型的性能精度具有重要意义,而且与模型的可解释性直接相关。最近,深度学习(DL)方法的出现,通过将该任务委托给神经网络,可以提取最有价值的特征,以建模[14,15]手头的问题,从而消除了令人讨厌的专家和领域级的特征构建。相比之下,对于基于图的分子表示,分子的原子和键被视为节点和边缘,和聚合节点特征使用DL架构,如图卷积网络(GCN)[16]图注意网络(GAT)[17],注意FP [18]消息传递神经网络(MPNN)[19]和定向MPNN(D-MPNN)[20]化学学习任务。基于图的DL体系结构已经流行起来,并已成功地应用于分子性质预测任务[21-26]。

尽管据报道,基于图的DL体系结构在分子特性预测任务中产生了最先进的(SOTA)性能,但基于图的DL模型在分子特性学习任务中是否优于传统的基于描述符的ML模型仍然存在争议。以往的大多数研究认为,基于图的DL模型与传统的基于描述符或基于指纹的ML模型[20,27,28]相当或优越,而只有少数研究给出了相反的结论[29,30]。例如,2021年,Jiang等[30]对11个公共数据集上基于图的DL模型(即GCN、GAT、MPNN、从分子图中提取特征的注意FP)和传统描述符模型(即SVM、XGBoost、RF和DNN)进行了全面比较,证明传统的基于描述符的模型(特别是RF和XGBoost ML算法)在预测精度和计算效率方面优于基于图的DL模型。斯特皮斯尼克和同事最近的另一项研究也报告了类似的结论[31]。目前,基于图的DL模型仍然存在建模数据集不足的潜在局限性,因为图神经网络(GNN)的自动学习机制特征可能难以从不足的数据集[32]中学习鲁棒的图表示。2020年,雷法奥格鲁等人[28]发现,基于图谱和指纹的分类器在预测蛋白质家族的属性时表现出相反的趋势。我们假设通过图形或指纹所捕获的信息是不同的,并且可能是互补的。因此,指纹中所包含的重要的局部化学信息可能有助于模型获得更好的结果。

在本研究中,我们引入了一种新的DL神经网络结构,FP-GNN(图1),用于分子性质的预测。FP-GNN首先在一个结合了分子图和分子指纹的混合分子表示上进行操作。它不仅利用任务编码中的注意机制将节点信息从附近节点传播到更远的节点来表征局部原子环境,而且还利用固定和互补的分子指纹提供了强大的先验。我们评估了FP-GNN模型和其他最近发布的基于图的DL算法(如D-MPNN(Chemprop)、注意FP和HRGCN+)和一个古老的基于指纹的CML算法XGBoost,针对13个常用的公共基准。与所有基线模型相比,FP-GNN在13个公共数据集的16个实验中有11个获得了相当或优越的性能,因此,说明了它在建模广泛的分子特性时强大的开箱即用和SOTA性能。

FP-GNN也在LIT-PCBA上进行了测试,这是一个用于ML和虚拟筛选(VS)的无偏置数据集,与基于指纹的CML方法(如NB、SVM、RF和XGBoost)和基于图的DL方法(如GCN和GAT)具有相当或优越的性能。此外,与XGBoost CML方法和基于图的DL方法(如GAT、GCN、MPNN和注意FP)相比,FP-GNN在14个乳腺细胞系表型筛选数据集上表现良好。这些结果证实了我们的假设,即分子指纹可以提高基于图的DL算法的泛化能力。FP-GNN的抗噪声能力测试也显示了其优于注意FP、XGBoost和HRGCN+模型,同时保持了较高的预测能力。此外,FP-GNN的可解释性可以从基于图的表示中推断出重要片段,从基于指纹的表示中推断出重要子结构,这可以帮助化学家设计具有所需功能或特性的更好分子。

方法

具有注意力机制的图神经网络

分子是自然的图结构数据,因此我们选择空间-gnn[33]来从分子图中计算信息。在将数据输入GNN模型之前,我们将每个分子转化为一个无向图𝐺(𝑉,𝐸),其中𝑉={𝑥1,𝑥2,……,𝑥𝑛}是表示原子的节点集,𝐸是表示化学键的边集。Spatial-gnn通过根据聚合自身和邻居的信息来更新每个节点, 其中,ℎ𝑖为节点i的向量,𝑁(𝑖)为节点i的邻域。最后,模型根据,将总图聚合为输出:如图1a所示,我们使用了注意机制[17]来更新节点消息,最后求平均得到分子表示。

初始分子特质

与其他基于图的方法[18,20]类似,我们在将数据导入GNN模型之前,利用分子的特性来初始化分子图的节点。

分子指纹

分子指纹是根据不同的既定规则,从分子中映射出来的位串,是抽象的分子表示。分子指纹大致分为基于子结构的指纹、拓扑或路径的指纹和圆形指纹[34]。在FP-GNN模型中使用了三个互补指纹(MACCS指纹[35]、药效团ErG指纹[36]和PubChem指纹[37],因为它们可以补充和全息表达分子特征[38]。这三种指纹的描述如下:

MACCS指纹:基于智能模式的子结构指纹。MACCS包含了不同拓扑分离下的大多数原子性质、键性质和原子邻域,这对药物的发现具有重要意义。我们选择了1+166位的短变体进行本研究。

PubChem指纹:基于881位的子结构键指纹,广泛覆盖化学结构。

药效团ErG指纹:利用扩展简化图(ErG)方法的二维药效团指纹,并应用药效团类型节点描述来编码分子性质。

FP-GNN网络体系结构

如图1b所示,FP-GNN结构首先将分子图和三个互补的分子指纹结合到灵活动态的动态神经网络中。简化的分子符号(SMILES)被输入到FP-GNN结构的两条路径上。

图1

图1 FP-GNN的体系结构。(a)图注意网络计算每个节点与其相邻节点之间的注意力,然后用这些相对注意力对节点进行更新。(b)FP-GNN模型结合了来自分子图和指纹的信息来预测分子的性质。

在一条路径上,拼接三个互补指纹(MACCS、PubChem和药效团ErG指纹),称为混合指纹。

将指纹向量输入人工神经网络(ANN),得到以下表示:

V ′ = W 2 ⋅ F P + b V'=W_{2}·FP+b V=W2FP+b

在另一条路径上,使用GNN模型来捕获分子图的信息。节点表示通过注意机制从自身及其邻居中聚合起来。最后,生成所有节点的平均值作为输出来表示分子图。

然后,从这两条路径中收到的结果被安装在一起,并导入到完全连接的层中,以产生最终的输出。

超参数优化与训练协议

与其他DL模型类似,正确的超参数选择可以优化FP-GNN模型的性能。本研究采用超选项Python软件包[39]对超参数进行贝叶斯优化。我们选择了6个超参数:GNN的dropout、多头注意数、注意力的隐藏层大小、指纹网络(FPN)的隐藏层大小和dropout,以及GNN在FP-GNN中的比例。

FP-GNN是由Pytorch框架开发的。所有的FP-GNN模型都是在SCUTGrid(SCUT超级计算平台)上进行训练的,该平台使用了Matrox MGA G200e。FP-GNN的源代码以及培训细节都可以在GitHub(https://github.com/idrugLab/FP-GNN)上免费获得。

基准测试数据集和性能评估指标

使用三个基准数据集对FP-GNN模型的性能进行了广泛的评估。首先,我们使用13个与药物发现相关的常用公共数据集(补充表2)来测试FP-GNN的性能,包括3个物理化学数据集 (ESOL [40], FreeSolv [41] and Lipophilicity [42]), 6个生物活性和生物物理学数据集 (MUV [43], HIV [44], BACE [45], PDBbind-C, PDBbind-R and PDBbind-F [46]), 和4个生理学和毒性数据集 (BBBP [47], Tox21 [48], SIDER [49] and ClinTox [50, 51]). 其次,LIT-PCBA [52]是一个最近开发的无偏置和真实的数据集,包括15个靶点和7844个确认的活性和407,381个确认的非活性化合物(补充表4),用于评估FP-GNN的性能。最后,我们还利用14个乳腺细胞系的表型筛选数据集(表2)来评估FP-GNN [53]的预测能力。

ESOL(回归):是一个小型数据集,包含 1128 种化合物的水溶性数据。

FreeSolv(回归):是水中水合自由能的数据集。

Lipophilicity(回归),亲脂性数据集,指的是分子在非极性溶剂中的溶解能力。

BBBP(二分类):记录了一种化合物是否具有穿透血脑屏障的渗透性(亲水疏水)。

Tox21(多分类):目标是快速有效地测试某些化合物是否有可能破坏人体中可能导致不良健康影响的过程,包含了12个毒理试验测定的化学合成物质的结构信息。

根据CML和DL模型的评价方法,回归任务采用均方根误差(RMSE)进行评价,分类任务采用受试者工作特征曲线下面积(ROC-AUC)或精确召回曲线下面积(PRC-AUC)进行评价。

结果与讨论

FP-GNN网络架构在公共基准测试数据集上的性能

我们使用Wu等人[27]常用的13个与药物发现相关的公共基准数据集来评估FP-GNN模型的预测能力。如补充表2所示,基准数据集包括三类:物理化学、生物活性和生物物理学,以及生理学和毒性。数据集的大小差异很大,包括小数据集(例如,PDBbind-C只包含168个分子)和大数据集(例如,MUV数据集包含17个学习任务,由93,087个分子组成)。对于多任务数据集,计算每个模型的平均性能度量来代表最终的性能。除在MUV数据集上建立的分类模型外,其余均采用ROC-AUC作为所有分类任务的评价指标。对于一个高度不平衡的数据集,PRC-AUC可以比ROC-AUC更好地反映分类模型的性能。由于MUV数据集中的活动与不活动的比例高度不平衡,因此我们使用PRC-AUC来评估基于MUV数据集的分类模型的性能。回归模型采用RMSE进行评估。相当比较发布的性能SOTA基于图的DL模型(MoleculeNet[27],DMPNN(Chemprop)[20],Attentive FP [18]和HRGCN+ [54])和高级描述符的XGBoost [12]模型公共数据集,采用相同的数据分割代码随机分割每个数据集分成训练集,验证集和测试集,以8:1:1的比例。此外,BACE、BBBP和HIV数据集基于分子支架以相同的比例进行分割。为了减少数据分割的偶然性,保证结果的可靠性,对超参数进行了优化。以基于10种不同随机种子的FP-GNN模型评价指标的平均值作为最终结果。

来自生物活性和生物物理学(补充表2)数据集的活性化合物根据其对不同生物靶点的结合亲和力进行了测量。毫无疑问,准确地预测一个给定靶点的小分子的生物活性可以加速新的候选药物的发现和开发。总共有八个学习任务为这种类型的数据集(补充表2),包括四个分类任务基于随机和骨架分裂方法的艾滋病毒和BACE生物活性数据集,一个分类任务基于随机分裂方法MUV生物活性数据集,和三个回归任务基于随机分裂方法三个生物物理数据集(PDBbind-C,PDBbind-R和PDBbind-F)。如表1所示,FP-GNN在8个学习任务中表现最好,包括基于BACE和HIV的两个分类学习任务,PDBbind-C. Chemprop完成了4个最好的性能任务,包括一个基于BACE和HIV的分类任务,PDBbind-F和PDBbind-R。基于分子网的编织模型在包含17个子任务的MUV数据集上表现最好。值得注意的是,FP-GNN在HIV、MUV、PDBbind-F和PDBbind-R的随机分裂方面取得了第二好的表现。虽然FP-GNN在某些数据集上表现不是最好,但我们的模型在这些数据集上仍然表现相对较好。

表1 FP-GNN在13个数据集上的实验结果
在这里插入图片描述

每个数据集使用已发表研究的相应数据分割代码,这些数据集被分为训练、验证和测试集。FP-GNN模型使用相同的数据集和数据分割方法,公平地比较了MoleculeNet,DMPNN(Chemprop),Attentive FP和HRGCN+和XGBoost模型。粗体字体说明了优于所有其他模型的模型。使用分子网中最好的基于图的模型,化学道具模型的优化结果来自原始研究[20],注意FP、HRGCN+和XGBoost模型的最佳性能结果来自Wu等人[54]。MPNN:消息传递神经网络;GC:图形卷积模型;和Weave: Weave模型。

来自生理学和毒性数据集的分子记录了它们的影响将活在身体中,如血脑屏障穿透(BBBP)、副作用资源(内部)和毒性(Tox21和ClinTox)。因此,这些数据集与药物的生理特性和毒性特性密切相关。准确预测化合物的生理和毒理学特性,可以在药物发现的早期阶段排除不当的分子,有利于降低新药开发的成本。然而,准确预测其生理和毒理学特性仍然具有挑战性。如表1所示,FP-GNN在BBBP(来自随机和支架分裂方法)和内部数据集上获得了三种最佳的分类性能结果,而Chemprop在Tox21上表现最好,XGBoost在ClinTox上表现最好。FP-GNN在ClinTox数据集上也表现出了比Weave模型的分子网模型更好的性能。

一种特定药物的理化性质可以反映其在体内的药代动力学阶段。分子的理化性质在候选药物的开发中起着关键作用。因此,准确预测分子的理化性质有助于药物的发现和开发。FreeSolv、ESOL和亲脂性数据集用于评估FP-GNN网络体系结构对物理化学性质的预测能力。表1说明了FP-GNN在FreeSolv数据集上表现最好,HRGCN+在ESOL数据集上表现最好,注意FP在亲脂性数据集上表现最好。虽然FP-GNN在亲脂性数据集上的表现比注意FP差,但它在分子网络中优于其他基于图的DL方法(如GCN、MPNN和Weave)。

建立分子性质预测模型的最终目标是用新的支架预测新分子的性质,使其落在所需性质的适当范围内。因此,在BACE、BBBP和HIV数据集上使用了基于支架的分裂方法,以确保训练集、验证集和测试集中的支架尽可能不同。如表1所示,支架分裂分类模型的性能低于基于随机分裂的模型。这些数据表明,基于支架的分裂方法对学习任务更具挑战性。我们的FP-GNN模型在使用基于支架分裂的方法的所有三个数据集上表现最好,并显示了与随机分裂方法相同的突出性能。这些结果表明,FP-GNN在预测具有新支架的分子方面是稳定的。

在来自13个公共基准数据集的16个学习任务中(表1),FP-GNN在7个任务上表现最好,而Chemprop在5个任务上表现最好。分子网、注意FP、HRGCN+和XGBoost各在一项任务上表现最好。补充表3总结了我们的FP-GNN与每个基线模型的比较,包括四种常用的基于SOTA图的DL方法和古老的基于描述符的ML方法XGBoost。我们的FPGNN模型不仅在每个基线上单独匹配或优于它(补充表3),而且在所有基线上也始终匹配(表1),这表明耦合分子图和指纹可以提高基于图的DL算法的泛化程度,从而更好地预测分子性质。FP-GNN在药物发现相关数据集上的优异表现使FP-GNN成为药物发现实践中最具竞争力的DL方法之一。

FP-GNN在一个无偏置和真实的LIT-PCBA数据集上的性能

2020年,Viet-Khoa Tran-Nguyen等人[52]设计了一个名为LIT-PCBA,专门用于ML和VS方法。LIT-PCBA数据集克服了人工构建的公共基准数据集(如DUD、DUD-DE和MUV)的明显和隐藏的化学偏差,因此,没有高估ML方法的真实准确性。LIT-PCBA包括7844个已确认的活性化合物和407,381个已确认的非活性化合物,它们来自PubChem生物分析(PCBA)数据集[55]。对于每个目标,使用非对称验证嵌入(AVE)方法,以3:1的比例构建无偏的训练和验证集。LIT-PCBA数据集的细节汇总见补充表4。

因此,我们使用这个数据集来评估FP-GNN的预测能力。选择5种基于指纹的方法[56](如NB、SVM、RF、XGBoost和DNN)和两种基于图的方法(如GCN和GAT)作为基线模型。所有基于指纹的模型均基于Morgan指纹[57]和混合指纹(MACCS FP、PubChem FP和药效团ErG FP)构建。根据原论文和Jiang等人的[56],我们使用ROC-AUC来评价LITPCBA数据集的分类模型的性能。

如图2a所示,与5种基于Morgan指纹的模型和2种基于图的模型相比,FP-GNN在6个靶点(ADRB2、ALDH1、ESR1_ago、MAPK1、PPARG和TP53)上表现最好。同时,NB在两个目标(IDH1和VDR)上表现最佳,DNN在两个目标(FEN1和OPRK1)上表现最佳,GCN在两个目标(ESR1_ant和MTORC1)、SVM、XGBoost和GAT在一个任务(PKM2、GBA和KAT2A上表现最佳)。与基于混合指纹的模型相比,FP-GNN也表现出了类似的突出性能(图2b)。FP-GNN模型与每个基线模型之间的直接比较的细节列于补充表5中。很明显,我们的FP-GNN模型不仅优于基于指纹的模型,而且表现出与两种经典的基于图的DL模型(GCN和GAT)相当或优越的性能。即使在最具挑战性的LIT-PCBA数据集上,FP-GNN也表现出了强大的竞争力,可以用来准确预测分子的生物活性,用于药物发现活动。

在这里插入图片描述

图2 FP-GNN在LIT-PCBA数据集上与基线模型相比的性能。(a)以Morgan指纹为分子表示,建立NB、SVM、RF、XGBoost和DNN模型。(b)以混合指纹图谱(MACCS FP、PubChem FP和药效团ErG FP)为分子表示,建立NB、SVM、RF、XGBoost和DNN模型。基于摩根指纹的模型的性能来自Jiang等人[56]。利用相同的基准,构建了三个基于图的模型(GCN、GAT和FP-GNN)以及基于混合指纹的模型。

FP-GNN的消融实验

我们研究了从分子图中学习到的局部邻居信息和全局结构信息,以及从分子指纹中学习到的化学子结构信息是否可以相互补充,并帮助优化我们的FP-GNN模型。为了分析基于图的模块和基于指纹的模块在FP-GNN模型中的影响,我们基于13个公共数据集的每个最优超参数集(补充表6),计算了FP-GNN中GNN的比值(图3)。如图3所示,FP-GNN中超过一半(54.3%)的GNN比例在0.4~0.6之间,说明两个模块对FPGNN模型的贡献相对平衡。此外,纯GNN和纯FPN仅占所有模型的4.3%左右,说明将互补分子图和指纹策略与动态GNN耦合可以提高分子性质预测的性能。FP-GNN的消融实验是在无偏倚和真实的LIT-PCBA数据集上进行的。15个目标的模型分为具有原始超参数的FPN和GNN模型。FP-GNN也使用了相同的超参数,除了GNN在FP-GNN模块中的比例设置为0.5的比例。如图4所示,FPGNN模型在15个靶点中有10个优于FPN和GNN。FP-GNN模型表现中等,略低于GNN,但在其他5个靶点(ESR1_ago、FEN1、KAT2A、MTORC1和OPRK1)上明显高于FPN模型。这些结果表明,FP-GNN结合了FPN和GNN的优势,可以捕获了分子图和指纹的互补信息,从而获得更好的性能。这一发现的一个可能的原因是,我们使用FP-GNN模块的默认参数0.5作为构建FP-GNN模型时GNN的比例,并且从不利的GNN或FPN模块捕获的信息来影响FP-GNN在五个目标上的性能。总的来说,结合分子图和指纹可以从分子图和子结构中获得局部邻域和完整的结构信息,以及从分子指纹中获得药效团信息,从而更准确地预测分子性质。

图3
图3 FP-GNN中GNN的比值

在这里插入图片描述

图4 消融研究

不同类型指纹的影响

不同的分子表示有多种分子指纹,它们的优点也是不同的。因此,我们探讨了不同分子指纹对FP-GNN网络体系结构性能的影响。Morgan指纹是一种圆形指纹,用于记录直径为4的每个原子的结构环境特征,是QSAR/QSPR建模中最常用的指纹[58,63-67]。除了三个互补指纹的混合外,我们还将10个24位ECFP-4指纹[68](在RDKit中称为Morgan指纹)移植到FP-GNN架构中,然后在公共数据集上进行测试。

如图5所示,无论是对分类数据集(图5a)的FP-GNN模型还是对回归数据集(图5b)进行分析,基于混合指纹的FP-GNN模型都比基于Morgan指纹的FP-GNN模型表现更好。此外,我们利用LIT-PCBA数据集上的混合指纹和Morgan指纹,回顾了四种CML方法(即RF、SVM、NB和XGBoost)和一种DNN DL方法的性能。如图2所示,通过计算基于混合指纹的最佳预测模型的数量和基于Morgan指纹的最佳预测模型的数量,可以看到前者并没有表现出绝对的优势(42 vs. 30,三个结果相等)。此外,在比较基于摩根指纹的模型和基于指纹的混合模型的性能时,简单的NB和SVM方法可以从摩根指纹中获得更多的信息,而先进的算法(RF、XGBoost和DNN)可以从混合指纹中获取更多的信息。同时,基于混合指纹的FP-GNN的性能优于基于Morgen指纹的FP-GNN(图5)。因此,这些数据表明,与常用的摩根指纹相比,混合指纹与分子图的耦合可以实现最佳的互补性,从而表现出更好的性能。上述在互补性上的差异可能与指纹的特定生成算法有关。混合指纹记录了大部分的原子和键性质(MACCS指纹)、广泛的化学结构和子结构(PubChem指纹)和药效团特征(药效团ErG指纹)信息,这些信息可能不包括在分子图的特征中。然而,摩根指纹只记录了原子的局部环境信息,这可能与分子图的特征相似。因此,与摩根指纹不同的是,混合指纹可以更好地补充分子图谱的特征,并引出更好的分子表征。

在这里插入图片描述

图5 基于Morgan的FP-GNN模型,以及基于三种互补指纹混合的模型的性能比较。(a)表示三个分类数据集(BACE、BBBP和SIDER)的性能结果。(b)表示四个回归数据集(亲脂性、PDBbind-C、PDBbind-F和PDBbind-R)的性能结果。为了保证结果的可靠性,在对超参数进行优化后,计算基于10种不同随机种子的FPGNN模型的度量值平均值作为最终结果。

FP-GNN的抗噪声能力

DL模型对数据质量有广泛的要求,通常需要大量正确的数据。获得足够的高质量数据仍然是计算机辅助药物发现[32]的中心挑战。实际上,在药物发现实践中使用的现有数据通常很稀缺,而且质量一般。当该模型用于真实场景时,数据中的噪声会影响训练过程,降低模型的实用性。因此,我们对噪声数据运行FP-GNN,以测试其抗噪声能力。

我们将HIV数据集(41,127个化合物)按8:1:1的比例进行划分,以生成训练集、验证集和测试集。我们确保测试集中的标签保持不变,同时根据预定的比例改变训练集中和验证集中的标签,以人为地产生噪声。将FP-GNN的抗噪声能力与Wu等人[54]的两种DL方法(注意FP和HRGCN+)和一种先进的CML方法(XGBoost)进行了比较。Wu等人也采用了相同的数据、数据分割、评价度量(ROC-AUC)和噪声率,以确保公平的比较。图6表明,FP-GNN在抗噪声试验中达到了SOTA的性能。基于我们的FPGNN模型具有良好的抗噪声能力,可以预见它可以在真实的药物发现场景中处理糟糕的数据情况。

在这里插入图片描述

图6 不同噪声率的Attention FP、HRGCN+、XGBoost和FPGNN模型在HIV数据集上的抗噪声性能。注意FP、HRGCN+和XGBoost模型的抗噪声结果来自Wu等人[54]。

FP-GNN的可解释性

在药物发现领域,一个可解释的模型可以帮助理解潜在的机制,并捕获特定任务的有价值的分子信息(例如,铅优化)。FP-GNN在多个基准数据集上表现出了优异的性能,这促使我们去探索FP-GNN模型的可解释性。

利用基于包含分子血脑屏障通透性的BBBP数据集开发的FP-GNN模型来分析该模型的可解释性。由于血脑屏障可以阻断大多数药物和激素,因此准确预测血脑屏障分子的通透性对于开发针对中枢神经系统疾病的药物至关重要。面对人体中存在的天然血脑屏障,疏水分子(低极性和高ClogP)很容易绕过血脑屏障,而亲水分子则相反。

FP-GNN架构可以计算相邻原子的注意程度,然后将它们映射到与原子相连的键上(图1)。对于一个给定的分子,注意力系数可以用来定量地表征化学片段是否对分子性质的预测能够带来更大的贡献。如图7所示,分子中颜色较深的部分在预测分子是否能通过血脑屏障方面的作用更为显著,而浅色部分的作用则不那么重要。以一个活性分子为例(图7a),该化合物的大部分亚结构基团都是疏水的,为穿透血脑屏障奠定了基础。分子的苯环(C7-C12,用红色标记)的极性最小,对血脑屏障渗透的贡献最大。我们使用化学BioDraw(v.14.0.0.117)进一步定量分析了这些化学片段的ClogP值。ClogP的定量分析显示,红色标记的化学部分极性较低(ClogP = 2.142),而灰色标记部分极性较高(ClogP = 1.389)。事实上,我们的FP-GNN模型非常关注低极性苯环,这也与作为活性分子的预测结果一致。如图7b所示,对于一个非活性分子,深色部分(红色标记)代表一个暴露的取代基氨基,它提供了大部分的极性,以阻止分子通过血脑屏障。红色化学片段的ClogP值为-0.905,灰色化学片段的ClogP值为0.934。较低的ClogP表明分子的红色部分更亲水,难以穿过血脑屏障。来自我们FPGNN模型标记出来的红色部分与非活动的预测结果一致。这些案例不仅证明了我们的FP-GNN模型是可解释的,而且也暗示了FP-GNN网络结构可以学习分子亚结构(化学片段)与其分子性质之间的关系。因此,利用FP-GNN模型预测高度有利和不利的化学片段将有助于设计和优化具有所需性质或功能的新分子。

在这里插入图片描述

图7 分子结构在预测过程中的重要性。颜色越深,对结构就越重要。分子来源于BBBP(血脑屏障穿透)数据集。(a)分子1具有可渗透性,颜色较深的部分ClogP越高,说明亲脂性越强。(b)分子2不渗透,颜色较深的部分ClogP较低,说明亲脂性较弱。FP-GNN模型捕获的重要部分与预测结果一致。

除了GNN模块外,我们还分析了FPN模块的解释。我们选择了包含FreeSolv小分子水化自由能的自由(自由溶剂化)数据集。我们在FPN模型中使用的混合指纹(MACCS FP、药效团ErG FP和PubChem FP)总共有1489位。我们按顺序改变每个位的值,然后将混合指纹输入到训练模型中。不同变化位所产生的影响表明了指纹在模型中的重要性。修正值与原始预测偏离越大,指纹位对分子自由溶剂化的预测就越关键。这10个最重要的位如表3所示。如表3所示,以第4、5、7、10位为代表的子结构具有较强的极性和高水溶性,在分子的自由溶剂化过程中起着重要作用。我们计算了分子的无水化能与这十个指纹位之间的皮尔逊相关系数。第3、第6、第10位的皮尔逊值均在0.7以上,说明它们表现出很强的相关性。由此可以看出,我们的模型捕获了指纹的重要部分,而FP-GNN模型的预测结果可以得到解释。如表3所示,在前10个关键位中,分别有4位、3位和3位来自MACCS FP、药效团ErG FP和PubChem FP。这些结果表明,三个指纹共同在FP-GNN模型中起了重要作用。
表3 预测FreeSolv数据集时,混合指纹中最重要的10个bit
在这里插入图片描述

结论

在本研究中,我们提出了一种新的DL结构FP-GNN,它首先将基于分子图的图注意网络与基于混合分子指纹的人工神经网络耦合,生成更全面的分子表示。FP-GNN在13个经典公共数据集上的性能显示,我们的FP-GNN模型与最近发布的四种基于图的DL算法(分子cnet、Chemprop、注意FP和HRGCN+)和古老的XGBoost CML算法相比表现出色。我们还评估了FP-GNN在一个无偏倚和真实的LIT-PCBA数据集和14个与乳腺癌细胞系相关的表型药物筛选数据集上的预测能力。评价结果进一步表明,我们的FP-GNN模型具有高度的竞争力。分析了分子图和指纹对FP-GNN模型的影响,以及消融实验的结果发现。(1)FP-GNN体系结构中的分子图和混合分子指纹有助于提高模型的预测性能;(2)在FP-GNN体系结构中嵌入不同的指纹会影响其预测性能。目前,由原子和键的性质、子结构和药效团组成的三种指纹的混合物可以与基于图的模块实现最佳的互补性。消融实验还发现,(3)通过耦合分子图和混合分子指纹进行的互补分子表示在提高模型性能方面发挥了关键作用。此外,FP-GNN具有良好的抗噪声能力,表明我们的FP-GNN模型可以解决药物发现自然场景中的噪声(较差)数据。重要的是,FPGNN模型具有直观的可解释性,可以识别分子中重要的化学片段,这可以帮助设计和优化具有所需性质或功能的新分子。总的来说,我们希望FP-GNN作为一种新的DL结构将帮助化学家、生物学家和药剂师快速有效地预测分子特性。对于我们未来的工作,有几个优化路线。一方面,由于生物数据集的数量不足和质量较差,预训练的方法可能具有很大的潜力。在训练目标数据集之前,从大数据集中提取信息可以确保对目标数据集的规定的最小预测值。另一方面,在特定数据集上训练模型时,将蛋白质目标的信息导入改进的FP-GNN模型中,然后结合分子特征和蛋白质目标的特征共同预测分子性质是可行的。

基准实验涉及的论文

[20] Yang K, Swanson K, Jin W et al. Analyzing Learned Molecular Representations for Property Prediction, J Chem Inf Model 2019;59:3370-3388.
[27] Wu Z, Ramsundar B, Feinberg EN et al. MoleculeNet: a benchmark for molecular machine learning,
Chem Sci 2018;9:513-530.
[54] Wu Z, Jiang D, Hsieh CY et al. Hyperbolic relational graph convolution networks plus: a simple
but highly efficient QSAR-modeling method, Brief Bioinform 2021;22.

总结

亮点

  • 引入了多种分子指纹并进行拼接

不足

  • 图注意力网络的实际作用有限,起主要作用的是混合指纹,也就是化学领域知识。

BibTex

@article{cai2022fp,
  title={FP-GNN: a versatile deep learning architecture for enhanced molecular property prediction},
  author={Cai, Hanxuan and Zhang, Huimin and Zhao, Duancheng and Wu, Jingxing and Wang, Ling},
  journal={Briefings in Bioinformatics},
  year={2022}
  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值