Drug Repurposing Knowledge Graph (DRKG) 使用教程
1. 项目介绍
Drug Repurposing Knowledge Graph (DRKG) 是一个综合性的生物知识图谱,它关联了基因、化合物、疾病、生物过程、副作用和症状等信息。DRKG 汇集了来自六个现有数据库(包括 DrugBank、Hetionet、GNBR、String、IntAct 和 DGIdb)的数据,以及与 Covid19 相关的最新文献资料。它包含了 97,238 个实体和 5,874,261 个三元组,涵盖了 107 种关系类型,展现了不同实体类型之间的相互作用。
2. 项目快速启动
要快速启动 DRKG,首先需要下载知识图谱数据。可以使用以下命令下载:
wget https://dgl-data.s3-us-west-2.amazonaws.com/dataset/DRKG/drkg.tar.gz
下载后,解压文件:
tar -xvzf drkg.tar.gz
解压后将得到以下文件:
drkg.tsv
:包含原始 DRKG 数据的三元组文件。entity2src.tsv
:实体到原始数据源的映射文件。relation_glossary.tsv
:关系术语表文件。embed
:预训练知识图谱嵌入和分子嵌入的文件夹。
要加载预训练的实体嵌入和关系嵌入,可以使用以下 Python 代码:
import numpy as np
entity_emb = np.load('./embed/DRKG_TransE_l2_entity.npy')
rel_emb = np.load('./embed/DRKG_TransE_l2_relation.npy')
3. 应用案例和最佳实践
以下是使用 DRKG 的一些应用案例和最佳实践:
- 数据探索:使用 DRKG 的统计数据和关系类型来探索不同实体之间的关联。
- 知识图谱嵌入:使用预训练的嵌入来执行实体和关系的相似性搜索。
- 图神经网络分析:利用 DGL 框架对 DRKG 进行图神经网络分析,以识别潜在的药物再利用机会。
4. 典型生态项目
- DGL-LifeSci:用于生物科学领域图神经网络研究的框架,可以与 DRKG 配合使用。
- 知识图谱嵌入工具:如 TransE、TransH 等,用于训练实体和关系嵌入。
- 机器学习框架:如 TensorFlow、PyTorch,可以用于进一步开发和训练基于 DRKG 的模型。
以上就是关于 Drug Repurposing Knowledge Graph (DRKG) 的使用教程。通过这些步骤,您可以开始探索和利用这个强大的生物知识图谱资源。