基于知识图谱和推荐系统的统一药物靶点相互作用预测框架


本文介绍一篇来自浙江大学侯廷军教授课题组、中南大学曹东升教授课题组、浙江大学贺诗波教授课题组和腾讯量子实验室联合发表在Nature Communications的一篇文章。

基于知识图谱和推荐系统的统一药物靶点相互作用预测框架

药物靶点相互作用 (DTI) 的预测在各个领域的药物开发中起着至关重要的作用,例如虚拟筛选、药物再利用和潜在药物副作用的识别。
目前DTI 预测问题:(1)DTI 数据集的高度稀疏性(2)冷启动问题
本文结合了知识图谱 (KG) 和推荐系统开发了 KGE_NFM,一个统一的 DTI 预测框架:
(1)通过KGE提取异构信息;
(2) 通过主成分分析 (PCA) 自动降维;
(3)通过神经分解机(NFM)进行信息整合和药物/蛋白质协同推荐。

KGE_NFM 在三个场景下进行评估:
(1)热启动场景
(2)蛋白质冷启动场景
(3)药物冷启动场景

注意,在推荐系统中的冷启动问题:推荐系统需要根据用户的历史行为和兴趣预测用户未来的行为和兴趣,因此大量的用户行为数据就称为推荐系统的重要组成部分和先决条件。分3类:1. 用户冷启动 2. 物品冷启动 3. 系统冷启动

四个基准数据集:
(1)yamanishi
Yamanishi_08的DTI数据集由四个子数据集组成:酶(E)、离子通道(IC)、G-蛋白耦合受体(GPCR)和核受体(NR)。
(2)BioKG
BioKG是一个专为关系学习而设计的生物知识图谱,集成了来自 14 个数据库的生物医学数据。包括ATC,BRITE,疾病和pathway等。网络总共包含25487 个节点和95579条边。
(3)hetionet
Hetionet整合了29个不同来源的生物医学数据库,网络总共包含11种不同类型的47031个节点(小分子化合物,蛋白,生物过程、分子功能、细胞成分等)和24种不同类型的2250197条边。
(4)luo
Luo’s dataset由四种类型的节点(即药物、蛋白质、疾病和副作用)和六种类型的边(即药物靶点相互作用、药物-药物相互作用、蛋白质-蛋白质相互作用、药物-疾病关联、蛋白质-疾病关联和药物副作用关联)组成。网络总共包含 12015 个节点和1895445条边。

模型主要由两部分组成。(1) KG的构建和embeddings提取。原始输入包含 DTI 数据和相关组学数据,实体和关系的嵌入由 DistMult 提取。(2)NFM对多模态信息的整合。提取的KGEs代表异质信息,分子指纹和蛋白质描述符代表结构信息。这两种类型的信息通过双向交互层进行组合和优化,并使用前馈神经网络 (FFNN) 来捕获 DTI 之间的内在相关性。如下图所示:

数据构建

热启动(warm start),对于药物的冷启动(cold start for drugs),对于蛋白的冷启动(cold start for proteins)。在三个测试场景下,作者将数据集,即活性数据(正样本)按照 1:10 的比例随机划分为测试集和训练集。

如下图所示:

评价指标

(1)为了最大限度地减少数据可变性对结果的影响,使用 10 倍交叉验证来比较我们的方法和其他最先进方法的预测性能。
(2)每种方法的性能通过受试者操作特征曲线下面积 (AUROC) 和精确召回曲线下面积 (AUPR) 进行评估。

结果

Yamanishi_08


在热启动的场景中,我们观察到异构数据驱动方法,DTiGEMS+、TriModel 和 KGE_NFM,在正负样本之间的不同比例(即平衡和不平衡)下实现了高而稳健的预测性能。具体来说,当数据集平衡时,基于特征的方法 RF (AUPR = 0.901) 和 NFM (AUPR = 0.922),以及异构数据驱动方法 DTiGEMS + (AUPR = 0.957)、TriModel (AUPR = 0.946) 和KGE_NFM (AUPR = 0.961),达到较高的预测性能。在药物冷启动的情况下,我们观察到 KGE_NFM (AUROC = 0.853, AUPR = 0.521) 在 AUROC 方面表现最好,而 RF (AUROC = 0.832, AUPR = 0.561) 在 AUPR 方面表现最好。比较RF和NFM,当药物的结构特征(即Morgan Fingerprints)起主导作用时,基于树的算法似乎比DL模型更合适。在蛋白质冷启动的情况下,与第二好的执行方法 TriModel 相比,KGE_NFM 在 AUPR 方面显着优于所有其他基线,领先幅度为 19%。与RF和NFM相比,NFM大大提高了预测性能(AUROC和AUPR都提高了30%左右)。这一结果凸显了 NFM 捕捉药物和蛋白质相互作用中固有关联的潜在能力,这为 NFM 在蛋白质冷启动的情况下提供了巨大的优势。

BioKG


对于热启动的场景,DeepDTI(AUROC = 0.988,AUPR = 0.907)表现最好,KGE_NFM(AUROC = 0.987,AUPR = 0.898)表现第二。在药物冷启动的场景下,基于分子指纹和蛋白质描述符的传统方法RF(AUROC = 0.971,AUPR = 0.891)优于所有其他方法。在蛋白质的冷启动场景中,KGE_NFM (AUROC = 0.899, AUPR = 0.549) 的表现优于另一种异构数据驱动方法 TriModel,在 AUPR 方面提高了 15.7%。

框架中每个组件对预测性能的影响


与基于特征的方法 NFM 相比,KGE 在 DTI 预测上的直接应用(即在异构图中制定链接预测问题)并没有表现出优势。用 NFM 从异构嵌入中推断药物和蛋白质之间的潜在相互作用。从图中看出 Yamanishi_08’ 数据集和 BioKG 的 AUPR 预测性能分别提高了 21% 和 14%。此外,我们还发现,在Yamanishi_08’ 数据集和 BioKG 上,药物和蛋白质的传统表征的实施也有助于预测性能提高 6% 和 2% 的 AUPR 提高,并进行预测更稳健。这些结果表明我们的框架能够有效地整合和利用来自生物分子结构和组学数据的信息进行 DTI 预测。

从 KG 中提取的异构信息通过与其他分类器的集成有助于 DTI 预测


KGE_RF 使用 KGE 和药物指纹以及蛋白质描述符作为输入特征,并使用 RF 构建分类器。与 RF 相比,KGE 和 RF 的集成可以提高 DTI 预测性能。

在合适的组织中构建KG可以进一步提高DTI的预测性能


a由 DTI 数据和所有 KG 组成的网络的介数中心性分布。度数表示链接到节点的边数。节点的中介中心性反映了该节点对网络中其他节点的交互施加的控制量。b与所选 DTI(D00964 和 has:1553)相关的 KG 的可视化,其中绿点代表蛋白质,蓝点代表异质信息,红点代表药物。c与所选 DTI 相关的 KG 网络的介数中心性分布(D00964 and has:1553)。

参考

A unified drug–target interaction prediction framework based on knowledge graph and recommendation system, Nature Communications, 2021, 12, 6775.
Nat. Commun.|KGE_NFM:基于知识图谱和推荐系统的药物靶标相互作用预测框架

  • 2
    点赞
  • 28
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
【资源说明】 基于知识图谱推荐系统药物靶标相互作用预测python源码(含操作说明).zip 本代码使用yamanishi_08数据集,其他数据集请自行处理 进入data文件夹运行对应数据集的.py文件来下载数据集 进入eg_model文件夹运行eg_model.py来下载kge模型 运行环境 kge_nfm.py kge_rf.py: python 3.7 Tensorflow 1.15.0 cuda 10.0 deepdti.py: Pytorch 1.11.0 cuda 11.3 可以使用pyenv管理python版本,使用pipenv创建虚拟环境 创建虚拟环境 在当前项目根目录下运行命令 ``` pipenv --python 3.7 ``` 安装requirements.txt中的依赖 ``` pipenv run pip install -r requirements.txt ``` 安装rdkit拓展 ``` pipenv run pip install git+https://github.com/bp-kelley/descriptastorus ``` 使用train_all.py一键运行 ``` pipenv run python train_all.py ``` 程序运行日志保存在logs文件夹 输出结果保存在output文件夹,包含曲线上的点、auc以及模型 【备注】 1、该资源内项目代码都经过测试运行成功,功能ok的情况下才上传的,请放心下载使用! 2、本项目适合计算机相关专业(如计科、人工智能、通信工程、自动化、电子信息等)的在校学生、老师或者企业员工下载使用,也适合小白学习进阶,当然也可作为毕设项目、课程设计、作业、项目初期立项演示等。 3、如果基础还行,也可在此代码基础上进行修改,以实现其他功能,也可直接用于毕设、课设、作业等。 欢迎下载,沟通交流,互相学习,共同进步!

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

发呆的比目鱼

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值