论文解读:《AttenSyn:基于注意力的深度图神经网络用于抗癌协同药物组合预测》

文章地址:https://pubs.acs.org/doi/10.1021/acs.jcim.3c00709
DOI:https://doi.org/10.1021/acs.jcim.3c00709
期刊:Journal of Chemical Information and Modeling
2022年影响因子/分区:5.6/二区
发布时间:2023年8月11日
Web:https://github.com/badguyisme/SynPred

1.文章概述

确定协同药物组合对于治疗各种复杂疾病同时避免严重的药物间相互作用至关重要。尽管已经提出了几种计算方法,但它们高度依赖手工特征工程,无法学习药物对之间更好的交互信息,容易导致性能相对较低。最近,深度学习方法,特别是图神经网络,在该领域得到了广泛的发展,并证明了其解决复杂生物问题的能力。在这项研究中,作者基于注意力的深度图神经网络提出了一种用于准确预测协同药物组合的方法:AttenSyn。特别是,作者采用图神经网络模块仅基于分子图提取高潜在特征,并利用基于注意力的池化模块来学习药物对之间的交互信息,以加强药物对的表示。基准数据集的比较结果表明,AttenSyn 在预测抗癌协同药物组合方面比最先进的方法表现更好。此外,为了对模型提供良好的可解释性,作者通过注意力机制探索并可视化了药物中的一些关键子结构。此外,作者还通过可视化从我们的模型中学到的药物组合的特征,验证了所提出的 AttenSyn 对两种细胞系的有效性,表现出令人满意的泛化能力。

2.背景

近几十年来,可用的抗癌药物的数量迅速增加,同时人们对恶性肿瘤生物学复杂性的认识也不断发展。然而,在癌症中,细胞内的多种细胞机制经常发生改变。因此,用单一药物治疗并专注于单一目标通常是无效的。与传统的“单病种、单药、单靶点”的治疗模式相比,联合治疗具有提高疗效、降低宿主毒性和不良反应、克服耐药性的潜力。药物组合被广泛用于治疗多种复杂疾病,如高血压、感染性疾病、癌症等。然而,某些药物组合使用时会出现一些拮抗作用,甚至出现严重的不良药物相互作用,不仅无效。在提高疗效的同时也威胁着患者的健康。因此,准确发现针对特定疾病的协同药物组合至关重要。
传统的筛选协同抗肿瘤药物组合的实验方法在时间、效率和成本方面都非常具有挑战性,远远不能满足抗癌药物的迫切需求。由于药物组合数量庞大,即使是高通量筛选也是不可行的。得益于相关数据库和机器学习技术的快速发展,研究人员在药物相关相互作用预测方面取得了巨大突破。此外,在过去十年中,针对药物组合预测提出了各种计算方法,大大降低了药物相互作用预测的计算方法。机器学习的使用促进了药物组合预测方法的发展。然而,这些传统的机器学习工作流程有一些缺点。例如,训练一个好的模型通常需要很强的手工特征工程和机器学习算法的专业知识,这在一定程度上限制了它们在实际应用中的可用性。此外,由于计算能力相对较低,它们无法支持快速的大规模预测。
近年来,随着深度学习的快速发展和大规模药物组合数据集的发布,利用深度学习方法预测药物组合已经成为可能。深度学习方法在一定程度上使得利用深度学习更加方便地进行协同药物组合预测。然而,仍然存在一些需要解决的缺点。首先,大多数现有方法由于性能相对较低而无法满足研究界的高要求。其次,他们中很少有人能够解释他们的模型并检测他们的模型在训练过程中学到了什么。
近年来,图神经网络(GNN)在药物发现等许多现实应用中取得了显着的成功。许多研究在分子图上使用图神经网络来提取分子特征以进行药物组合预测。尽管图神经网络已经展示了其解决药物协同预测的能力,并在性能提升方面取得了一定的成功,但仍然存在一些局限性。首先,虽然一些不良药物相互作用方法考虑了药物对之间的相互作用信息,现有的协同药物组合预测方法侧重于单一药物的信息提取,而忽略了药物对之间相互作用信息的重要性。其次大多数的药物每个子结构对药物分子同样重要,并且无法检测到预测协同药物组合的重要子结构。
为了解决上述问题,在本研究中,作者提出了一种基于注意力的深度图神经网络 AttenSyn 来预测药物组合的协同效应。具体来说,作者提出的模型包含了以下几个新颖的功能。首先,作者采用深度图神经网络来自动学习和提取高潜在特征,而不是使用手工特征工程中的手动特征配置文件。其次,通过基于注意力的池化模块,不仅可以学习药物对之间的相互作用信息,还可以检测药物中重要的化学子结构,以识别抗癌协同药物组合。第三,与基准数据集上现有方法的比较结果表明,作者提出的模型不仅优于经典机器学习方法,而且优于深度学习方法,这表明 AttenSyn 具有成为强大且实用的抗癌深度学习工具的巨大潜力协同药物组合预测。

3.数据

为了将作者提出的模型的性能与最先进的方法进行比较,作者收集了 O’Neil 等人构建的药物组合数据集【An unbiased oncology compound screen to identify novel combination strategies】作为基准数据集。该数据集包含 23,052 个三联体,其中每个三联体包含两种药物和一个癌细胞系。数据集中有 39 种癌细胞系和 38 种独特药物,这些药物由 24 种 FDA 批准的药物和 14 种实验药物组成。然后使用Combenefit工具计算每个药物对的协同得分。根据之前的一项研究,作者选择 10 作为对药物对细胞系三联体进行分类的阈值。协同得分高于 10 的三联体被认为是积极的,而那些小于 10 的三联体被认为是消极的。对数据进行预处理后,作者获得了 13,243 个独特的三联体,由 38 种药物和 31 种细胞系组成。此外,药物的 SMILES 是从 DrugBank 获得的。
癌细胞系的基因表达数据是从癌细胞系百科全书(Cancer Cell Line Encyclopedia,CCLE)获得的,这是一个独立项目,致力于表征跨癌细胞系的基因组、mRNA 表达和抗癌药物剂量反应。基于全基因组读取计数矩阵,通过Transcripts Per Million(TPM)对表达数据进行标准化。

4.方法

在这里插入图片描述
AttenSyn的整体架构如图1所示。该网络架构主要包括三个部分:(1)基于图的药物嵌入模块,(2)基于注意力的池化模块,(3)预测模块。在基于图的药物嵌入模块中,首先将药物SMILES字符串转换为分子图,同时将从CCLE29获得的细胞系特征添加到药物分子的特征矩阵中。然后,采用几种图卷积网络(GCN)模型和LSTM模型来提取分子图的多分辨率特征。然后使用基于注意力的池化模块来学习药物对之间的交互信息并加强药物对的表示。最后,在预测模块中,将药物对的表示和细胞系的特征连接起来,并将它们输入到完全连接的神经网络中,以预测药物对在某些细胞系中的协同作用。

4.1 基于图的药物嵌入模块

通过使用开源Python包Rdkit,我们可以将SMILES 串成分子图,其中节点是原子,边是化学键。用图G=(V,E)来表示药物分子,其中V和E分别是节点的集合和边的集合。为了聚合带有细胞系信息的分子图,只需将细胞系向量添加到节点的特征中。
为了获得化学子结构的表示,作者采用了一个 GNN 模块,该模块使用化学图结构作为输入,并更新每个原子来自其邻居的向量嵌入。
为了获得分子图的多分辨率信息,作者使用 GCN 来提取图的多分辨率局部特征。使用多个 LSTM 模型来聚合多个 GCN 层的特征。具体来说,LSTM以感受野从小到大的顺序接收每个GNN层的输出作为输入。

4.2 基于注意力的池化模块

在这里插入图片描述
作者设计了一种基于注意力机制的池化,以学习更好的药物对交互信息并加强药物的表示。基于注意力的池的使用有助于所提出的模型考虑化学物质中的哪些子结构对于预测协同药物组合更为重要。如图 2 所示,基于注意力的池化模块用于为药物的每个子结构分配一个分数,并对所有节点的嵌入进行加权求和以获得图级表示。通过使用设计的基于注意力的池模块,不仅可以获得药物对之间的交互信息,还可以识别药物的重要化学子结构。

4.3 预测模块

首先将两种药物的所有特征与细胞系的特征向量整合,然后使用多层感知器(MLP)进行预测。

5.结果

5.1 与基准数据集上的现有方法进行比较

在这里插入图片描述
为了评估所提出的 AttenSyn 的有效性,作者通过在基准数据集进行五折交叉验证将 AttenSyn 与几种现有方法进行比较,包括基于机器学习的方法(随机森林(RF)、支持向量机(SVM)、多层感知器(MLP)、Adaboost 和 Elastic net)和深度学习方法(即 DTSyn、MR-GNN、和 DeepSynergy)。详细的比较结果如表1所示,其中最好的结果以粗体显示。
在这里插入图片描述
为了进一步证明我们的 AttenSyn 的良好性能,作者使用留一(肿瘤)交叉验证策略来评估 AttenSyn 和其他两种最先进的深度学习方法(DTSyn 和 DeepSynergy)。更准确地说,为了确保模型在训练过程中看不到特定类型肿瘤的任何基因表达信息,作者从训练集中排除了属于特定肿瘤的所有癌细胞系。然后重复该过程并迭代地使用排除的癌细胞系作为验证集,并将剩余样本作为训练集来训练和评估模型。图3a显示了AttenSyn和其他两种基于深度学习的方法在留肿瘤交叉验证任务上的比较结果。从图3a可以看出,AttenSyn 在AUROC、AUPR和TPR上取得了最好的成绩。图 3b 显示了 AttenSyn 和其他两种方法对每种肿瘤类型的 AUROC 评分。如图3b所示,可以看到 AttenSyn 在所有六种肿瘤类型中具有最好的AUROC评分,这表明 AttenSyn 有潜力预测各种肿瘤类型的协同药物组合。
在这里插入图片描述
交叉验证设置通常会导致训练集和测试集共享相同的样本。这导致了药物信息从训练集泄漏到测试集,使模型产生过于乐观的结果。因此,我们在冷启动设置下进行实验,结果列为补充图1。

5.2 消融研究

在这里插入图片描述
为了研究基于注意力的池化模块和基于图的药物嵌入模块对模型性能的影响,作者考虑 AttenSyn 的以下变体:(1)AttenSyn; (2)AttenSyn(add); (3) AttenSyn(mean); (4) AttenSyn (SAG); (5) AttenSyn(no graph)。AttenSyn (add) 使用全局添加池化方法。 AttenSyn(mean)使用全局平均池化方法。 AttenSyn(SAG)以 SAG 池化引入的方式计算自注意力分数,以更新其节点的嵌入,然后将它们相加以获得图级表示。 AttenSyn(no graph)删除了基于图的药物嵌入模块。

5.3 模型检测到的重要子结构的可视化

在这里插入图片描述
为了克服黑盒问题并探索药物对中的哪些子结构对协同药物组合预测提供最重要的贡献,作者通过模型的注意机制可视化了药物对最重要的子结构。图 5a-c 显示了三个随机选择的示例药物对的可视化结果,其中较深的颜色表示更重要的子结构。作者的模型检测到的化学结构之一是酰胺基团,它在生物分子(包括许多临床批准的药物)的组成中起着关键作用。酰胺在医学上重要的化合物中普遍存在,不仅因为它们特别稳定,而且因为它们极性,它允许含酰胺药物与生物受体和酶相互作用。这个结果表明我们的模型可以提供良好的可解释性。
为了进一步探索训练过程中子结构注意力分数的变化,作者还在模型训练之前可视化了药物对的注意力分数分布。如图5d−f所示,模型训练前的注意力分数分布比较均匀,这表明模型无法关注重要的结构。然而,随着训练的进行,模型认为某些特定结构比其他结构更重要。

5.4 通过降维进行特征表示和可视化

在这里插入图片描述
为了通过特征分析进一步解释深度学习在训练过程中的工作原理并直观地展示所提出的 AttenSyn 的特征学习能力,作者可视化了两种细胞系(即 A375 和 HT29)中药物组合的嵌入。作者分别使用 t-SNE 和 UMAP 将从经过和不经过训练过程的模型中提取的药物对的嵌入空间减少到二维空间,如图 6 所示。在图 6 的每个子图中,每个点代表药物对,用不同的颜色区分协同药物组合和拮抗药物组合类别。不同类别下的点越容易区分,分类效果就越好。如图6a所示,通过t-SNE的降维,与未经训练过程的模型相比,两类样本在训练模型的特征空间中分布更清晰,表明我们的模型可以捕获判别性和高判别性。 UMAP降维模型也存在类似的结果。从图 6b 中可以看出,与没有训练过程的模型相比,经过训练过程的模型学习并获得了更多可区分的特征。

6.结论

在这项研究中,作者开发了一种名为 AttenSyn 的新型基于注意力的深度图神经网络来预测抗癌药物组合的协同作用,这是快速虚拟药物筛选和药物开发的关键一步。首先生成药物的分子图,并使用基于图的药物嵌入模块分别提取药物对的结构信息。之后,基于注意力的池模块旨在学习更好的交互信息并加强药物对的表示。对基准数据集进行的综合实验表明,所提出的方法比对比方法具有更好的预测性能。此外,为了克服基于深度学习的模型中“黑匣子”的局限性,作者还探索了模型在训练过程中学习的内容,包括发现药物中的关键子结构和进行特征分析,这为模型和生物学提供了良好的可解释性。了解药物协同机制的见解。
然而,作者的模型仍然存在一些缺点。例如,生物网络已经证明了其在药物协同预测方面的有效性。作者仅使用分子结构信息和细胞系特征,而不使用生物网络信息等额外信息进行预测。未来将考虑引入生物网络来提高抗癌协同药物组合预测的性能。

  • 2
    点赞
  • 8
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值