论文解读:《将生物医学数据集成和格式化为 Bioteque 中预先计算的知识图嵌入》

文章地址:https://www.nature.com/articles/s41467-022-33026-0
DOI:https://doi.org/10.1038/s41467-022-33026-0
期刊:nature communications
2022年影响因子/JCR分区:17.694/Q1
发布时间:2022年9月9日
数据: https://bioteque.irbbarcelona.org/downloads
Github: https://gitlabsbnb.irbbarcelona.org/bioteque/
Web:https://bioteque.irbbarcelona.org/
补充文件:https://static-content.springer.com/esm/art%3A10.1038%2Fs41467-022-33026-0/MediaObjects/41467_2022_33026_MOESM1_ESM.docx

1.文章概述

生物医学数据正在快速积累,将其整合到一个统一的框架中是一项重大挑战,因此可以同时考虑给定生物事件的多个视图。作者提出了 Bioteque,从巨大的知识图派生的预先计算的生物医学描述符,显示超过 45 万个生物实体和它们之间的 3000 万个关系。 Bioteque 整合、协调和格式化从 150 多个数据源收集的数据,包括由 67 种类型的关联(例如,“药物治疗疾病”、“基因与基因相互作用”)链接的 12 种生物实体(例如,基因、疾病、药物)。作者展示了 Bioteque 描述符如何促进高通量蛋白质-蛋白质相互作用组数据的评估、药物反应的预测和药物的再利用机会,并证明它们可以对于使用原始数据在下游机器学习任务中现成使用而不会损失性能。因此,Bioteque 提供了对公共领域可用的生物医学知识进行彻底处理、易于处理和高度优化的组合。

2.背景

通过组学技术对生物样本进行系统测量,以及将科学文献提炼成结构化数据库的努力,正在提供不断增长的生物医学和生物分子信息库。事实上,存储在 EMBL-EBI 中的数据在过去几年中增加了六倍,从 2014 年的 40 PB 增加到 2021 年的 250 PB。与此相关的现象,已经提出了各种命名法,以及标识符、分辨率级别(例如,蛋白质亚型或基因剪接变体)和实验条件,使跨平台的数据集成和协调成为具有挑战性的步骤。因此,尽管 2021 年在线分子生物学数据库合集中列出了多达 1641 种资源,但只有一小部分被广泛使用,还有数百种资源以其自身的特定格式保持孤立。意识到这种情况,已经出现了一些通过建立通用词汇表和格式来标准化生物数据的举措。例如,开创性的 Harmonizome 能够通过以适用于每种数据类型的简单离散化格式表示数据(例如,基因表达、疾病遗传学等)来整合来自多个以基因为中心的数据库的知识。
如今,为了捕捉生物系统的复杂性,通常会同时测量多个组学图谱(即,跨组学分析),以便可以并行和整体地考虑给定表型或事件的互补观点。然而,目前的方法主要是调整和结合为分析单个组学数据而开发的现有策略,最终结果往往是大多数结论都是从信息量最大的单一数据类型中得出的,而其余的则用作支持。因此,设计能够捕获生物系统中存在的许多监管层的协调相互作用的策略至关重要。 Himmelstein 等人建议使用知识图谱 (knowledge graphs,KG) 作为整合异构生物分子数据的工具。在生物医学 KG 中,节点代表生物或化学实体(例如,基因、细胞系、疾病、药物等),边缘捕获它们之间的相互作用或关系(例如,“药物治疗疾病”或“细胞上调基因”)。这个概念最近已经扩展到包括临床实体。
然而,传统的图形分析技术难以处理大型生物医学网络,因此促进了降维技术的发展,这些技术可以学习低维空间中节点和链接的数字特征表示(也称为网络嵌入)。结果,网络嵌入降低了数据的维度,同时保留了原始网络的拓扑信息和连通性。此外,网络嵌入方法产生的节点矢量格式更适合作为机器学习算法的输入。例如,Zitnik 和 Leskovek 展示了一组蛋白质嵌入,考虑了每个人体组织内的蛋白质相互作用以及组织间关系,并展示了它们预测组织特异性蛋白质功能的潜力。后来,同一位作者嵌入了几个网络(即蛋白质-蛋白质、药物-靶标和疾病-基因相互作用)来探索药物作用的机制。最近,Cantini 等人评估了几种降维方法整合连续多组学数据(例如基因表达、拷贝数变异、miRNA 和甲基化)的能力,评估了它们保留原始数据结构的能力及其预测在不同任务中的表现。总的来说,基于嵌入的描述符提供了一种可扩展的标准方法来捕获生物实体之间的复杂关系,并且它们整合了与之相关的无数组学实验。
为了让广泛的科学界可以使用生物医学知识嵌入,作者开发了 Bioteque,这是一种规模和范围空前的资源,其中包含从巨大的异构网络(超过450k 节点和 30M 边)派生的预先计算的嵌入。 Bioteque 协调从 150 多个数据源中提取的数据,包括 12 个不同的生物实体(例如,基因、疾病、化合物),这些实体通过 67 种类型的关系(例如,“化合物治疗疾病”、“基因与基因相互作用”)联系在一起。作者证明了 Bioteque 嵌入保留了大型生物网络中包含的信息,并通过示例说明了如何使用这种简洁的数据表示来评估、表征和预测大量实验观察结果。最后,提供了一个在线资源,以方便访问和探索预先计算的嵌入 。

3.数据

本研究中生成的所有嵌入 。嵌入的原始网络在长度为 ≥ 2 元路径中提供。为了遵守与数据所有者相关的各种许可证,不提供 L1 元路径的原始网络。相反,下载和预处理数据的说明和代码可在 链接 上找到。嵌入在 Bioteque 资源中的所有数据集GDSC细胞系的RMA标准化表达数据CCLE RNAseq数据从 clue.io 获得细胞系组织起源注释HuRI-III网络repoDB 指示的第一个版本(v1)repoDB 指示的第二个版本(v2)ATC代码DrugcentralKEGG。策划的基因疾病关联DisGeNET

4.方法

4.1 构建元图

所有收集的数据都存储在图形数据库 (KG) 中,其中节点代表生物或化学实体,边代表它们之间的关联。

  1. 节点(Nodes,entities实体)。图中的节点可以属于 12 种类型之一(也称为元节点)。对于每个实体类型,都预定义了一个节点域,并根据标准术语选择了一个参考词汇表。这 12 种实体类型是(按字母顺序排列)
  2. 化学实体 (Chemical entities,CHE)。从具有生物学意义的化学实体 (ChEBI) 本体中提取的化学术语。
  3. 细胞(Cells,CLL)。用于生物医学研究并从 Cellosaurus 资源中提取的细胞系。
  4. 细胞成分 (Cellular Components,CMP)。 Gene Ontology 定义的生物分子结构和复合物(从基本过滤本体中提取)。
  5. 化合物(Compounds,CPD)。使用标准 InChIKey 编码的小分子。由于不使用任何预定义的化合物库,因此领域将由其他数据集中包含的化合物的联合来确定(例如,药物-目标相互作用)。
  6. 疾病(Diseases,DIS)。异常情况、药物副作用和症状。使用 Disease Ontology 作为参考词汇。
  7. 域(Domains,DOM)。从 InterPro 中提取的功能和结构蛋白域。
    基因和蛋白质 (Genes and proteins,GEN)。基因和蛋白质通过 Uniprot 登录码 (UniProtAC) 统一存储。作者研究了经过审查的人类蛋白质组。
  8. 分子功能 (Molecular functions,MFN)。基本基因本体定义的蛋白质的生物学功能。
  9. 扰动剂 (Perturbagens,PGN)。 CRISPR、过表达和 shRNA 扰动。请注意,在构建元路径时,PGN 总是映射到相应的扰动基因。所以不提供 PGN 标签,而是提供扰动基因的 UniProtAC。
  10. 药理学类别 (Pharmacologic classes,PHC)。由解剖治疗化学 (ATC) 代码 定义的药理学类别。
  11. 途径(Pathways,PWY)。生物学途径和过程。使用 Reactome 作为参考词汇。
  12. 组织(Tissues,TIS)。 BRENDA Tissue Ontology 定义的解剖组织和细胞类型。
    在包含本体术语(CMP、DIS、MFN 和 PWY)的数据集中,作者删除了信息量最少的术语(即那些在本体中处于较高位置的术语)。这些术语是通过计算信息内容来识别的。补充数据1 中提供了每个实体的节点域和已删除术语的列表。

4.1.1 词汇映射

为了整合术语,作者从官方术语来源和相关本体中提取了精选的交叉引用。由于用于识别疾病和途径的命名法特别多样且很少交叉引用,通过推断概念内的相似性进一步增加了这些术语的映射。
通过对从 DisGeNET 映射资源 获得的统一医学语言系统 (UMLS) 的共享交叉引用计算疾病术语相似性来映射疾病。具体来说,将每个疾病术语编码为一个二进制向量,该向量跨越所有命名法的 UMLS 术语的范围。然后,用相应的词频-逆文档频率 (term frequency-inverse document frequency,TF-IDF) 值转换二元向量,并计算疾病本体论和其余词汇表之间的成对余弦距离。使用从策划的交叉引用中获得的相似性作为参考,作者发现 0.5 的余弦相似性截止值对应于 5 × 10-4 的经验 P 值。
路径交叉引用是从 ComPath 资源中提取的,并按照 PathCards 方法进行了扩展。该方法首先根据重叠基因将通路聚类为 SuperPaths,然后使用 SuperPaths 基因之间的 Jaccard 相似性来定义通路相似性。作者使用了 PathCards 论文中描述的相同参数(重叠截止值(overlap cutoff,删除重叠原子的最大cufoff 距离)为 0.9,通路中有 20 个最小基因,Jaccard 相似性至少为 0.7)。

4.1.2 边(关联)

图中的边用于连接生物和化学实体,生物或化学实体。由于两个实体可能由多个边类型(即“化合物治疗疾病”或“化合物导致疾病”)连接,作者将关联定义为实体-关系-实体(CPD-trt-DIS、CPD- cau-DIS)。
同质关联是指与相同类型的实体(元节点)相关的关联(例如,“基因与基因共表达”,GEN-cex-GEN),而异质关联与不同类型的实体相关(例如“组织具有细胞”,TIS-has-CLL)。作者只注释了异构关联的一个方向(事实上,作者保持CLL-has-TIS而不是TIS-has-CLL),尽管在定义元路径时这两个方向都有效。另一方面,当同质关联只有一个有效的方向性时,边缘被视为有方向性,如激酶-
底物相互作用(“基因磷酸化基因”,GEN-pho-GEN)或转录因子调节(“基因调节基因”,GEN-reg-GEN)。最后,与相似性度量相对应的边需要一组预定义的节点进行成对比较,并且只有在填充完图的其余部分之后才计算这些边。

4.2 用数据填充知识图谱

对于每种类型的关联或元边,可以拥有一个或多个数据集(补充数据 2)。数据集不会合并,而是作为单独的源保存,以便它们可以单独嵌入或组合嵌入到给定的元路径中。数据集处理管道包括两个步骤。第一步,标准化命名并应用截止值。第二,仅应用于本体数据,映射术语并修剪网络。

4.2.1 数据集标准化

作者单独处理每个数据集,以处理格式和数据类型的多样性。数据处理的指导原则是由Harmonizome 定义的。
已经提供二进制数据的数据集通过将它们转换为 KG 的网络格式而自然地集成。如果数据库提供了置信度度量(例如,边缘权重或 P 值),应用默认截止值(如果给定)和/或遵循作者的建议以消除虚假交互。为了构建网络,在嵌入过程中没有使用来自原始来源的任何边缘权重。这是由于观察到这些权重中的大多数是基于支持或信心的度量,这不一定反映生物学意义/强度。相反,这些分数通常会捕捉知识注释上的偏差(例如,不同来源中未被充分研究的疾病的关联将较少被涵盖,因此,往往具有较低的置信度分数)或实验筛选的可检测性限制(例如,某些蛋白质的丰度水平比其他蛋白质更难检测)。虽然加权边可以为嵌入提供有价值的信息,但无法找到一种通用方法来处理资源中多样化和异构的关联。
有时,可以根据给定的分类变量(例如,策划/推断)将同一数据集进一步划分为不同的子集。在适用的情况下,将这些子集保留为独立的数据集。例如,有一个精选版本的 DisGeNET 和一个推断版本。
连续数据需要在其集成到 KG 之前应用截止。

4.2.2 转录组学和蛋白质组学数据

采用了 Harmonizome 遵循的策略,该策略基于基因表达谱的传统统计处理。更具体地说,首先将样本和基因映射到参考词汇表,并按其平均值折叠重复项。然后应用 log2 转换,然后对基因进行分位数归一化(除非数据集已经由数据提供者转换)。接下来,减去中位数并根据每个基因的分位数范围缩放数据。最后,为每个样本选择前 250 个最阳性和最阴性的基因,并保存在相应的 metaedges 中(例如,CLL-upr-GEN 和 CLL-dwr-GEN)。

4.2.3 药物敏感性

为了对药物敏感性数据进行二值化,使用了 Barretina 等人首先描述的 waterfall 法。该方法根据药物反应测量(例如,生长抑制曲线下面积 (AUC))对细胞系进行排名,并使用图的形状来定义灵敏度阈值。对数据集中的每个化合物应用 waterfall 法,保留至少 1% 但不超过 20% 的敏感细胞系,并要求 AUC 灵敏度值低于 0.9。

4.2.4 扰动实验

基因扰动数据需要一个初步步骤来区分扰动的类型(例如,“CRISPR 修饰使基因 A 沉默”)与其结果(例如,“沉默基因 A 导致基因 B 的过度表达”)。首先,对于数据集中的每个扰动,作者创建了一个具有唯一标识符的扰动 (PGN) 节点。然后简化了两步关系(例如,“沉默基因 A 的扰动剂上调基因 B”)到“扰动剂上调基因 B”关联(PGN-upr-GEN)。

4.2.5 其他数据集

对于一些包含连续数据的数据集,必须应用定制的方法将它们转换成网络格式。补充数据 2中提供了有关每个特定数据集预处理的详细信息,使用Python 脚本实现。

4.2.6 术语和修剪

在这些情况下,我们通过其相应本体的父级传播了所有报告的与其他术语(例如GEN)的关系。为了最大化覆盖范围,在交叉引用之前进行传播。

4.2.7 元路径的选择

作者选择了一组受控的元路径,为其预先计算了嵌入。这些是存放在 Bioteque 资源中的嵌入。元路径选择如下

  1. 长度 1 (L1)。除了那些捕获交叉引用 (DIS-xrf-DIS)、本体 (PWYhsp-PWY)、化合物-化合物相似性 (CPD-sim-CPD) 和 PGN 关联的元路径外,所有可能的长度为 1 的元路径都被嵌入。请注意,PGN 节点通过 PGN-pdw-GEN 或 PGN-pup-GEN 元路径(因此,>L1 元路径)映射到相应的扰动基因。
  2. 长度 2 (L2)。只有两个方向(向上/向下)的模仿(例如,CLL-dwr+upr-GEN-dwr+uprCLL)或反转(CLL-upr+dwr-GEN-dwr+upr-CLL)用于连接实体的元路径转录组学、蛋白质组学或转录因子特征。 CLL 和 TIS 始终通过 CLL-has-TIS 关联连接。最后,在元路径中连接细胞和基因时,只允许以下关联:CLL-upr-GEN、CLL-dwr-GEN、CLL-mut-GEN。
  3. 长度 3 (L3)。 L3 元路径是通过将 L1 元路径与以下任何 L2 元路径链接起来构建的:CLL-dwr+upr-GEN-dwr+uprCLL; CLL-has-TIS-有-CLL; CMP-has-GEN-has-CMP; CPD-has-PHC-has-CPD; CPD-int-GEN-int-CPD; DIS-ass-GEN-ass-DIS; DOM-has-GEN-hasDOM; MFN-has-GEN-has-MFN; TIS-dwr+upr-GEN-dwr+upr-TIS;或 PWY-ass-GEN-ass-PWY。来自 PGN-pup-GEN 或 PGN-pdw-GEN 的 GEN 通过异构或有向同质关联而不是通过无向同质关联链接。
  4. 长度 > 3 (>L3)。在将源或目标 PGN 映射到 L3 元路径中的扰动基因时生成。在定向同质关联的情况下,我们在充当关联源的实体旁边使用了“_”标记。例如,GEN-pho-GEN-ass-PWY 将激酶连接到与其底物相关的通路,而 GEN-pho-GEN-ass-PWY 将底物与其激酶相关的通路连接起来。

最后,嵌入不保留原始网络或未能将大多数节点保留在单个连接组件中的元路径被删除,如下一节所述。补充数据 3 中提供了嵌入式元路径的完整列表。

4.3 获取 Bioteque 嵌入

为了获得嵌入,使用了 node2vec 算法,这是一种广为接受的基于随机游走轨迹的方法,其中元路径被用作单个网络并馈送到 node2vec 算法。有一些嵌入方法允许直接嵌入元路径遍历的网络(例如,metapath2vec)。然而,决定首先使用 DWPC 方法预先计算源-目标网络,因为生成的网络已经根据元路径对那些连接更紧密的源-目标关联进行了权衡,因此需要更少的随机游走步骤来学习这种关系源节点和目标节点之间。此外,这个预先计算的网络鼓励嵌入模型只关注源-目标关系,可以更好地控制在嵌入空间中编码的信息,同时允许跨不同元路径长度(即,无论元路径长度如何,源节点和目标节点总是相距 one-hop)。请注意,由于、所有的元路径网络都是同构的或二分的,因此 metapath2vec 的默认 skip-gram 实现等同于 node2vec。

4.3.1 同构和二分网络

L1 元路径已经对应于同质或二分网络。对于 >L1 元路径,源节点和目标节点通过元路径中相应的数据集和关联计算度加权路径计数 (DWPC)11 来连接。为此,作者根据元路径的关联对数据集进行排序,将它们表示为邻接矩阵,并保持相同的源(行)和目标(列)节点域分别作为前后数据集的目标和源节点.按照 DWPC 方法,首先通过将度数提高到 -0.5 次方来降低每个数据集中节点的度数。然后,通过连接从源数据集到目标数据集的矩阵乘法来计算 DWPC 值。结果,获得了一个新的 n × m 矩阵,其中 n 是第一个数据集的源节点,m 是最后一个数据集的目标节点。矩阵的值是源节点和目标节点之间的 DWPC,在随机游走探索期间用作权重。最后,将每个节点的边数限制为可能邻居总数的 5%(每个节点最少 3 个边,最多 250 个边)。
有时,在同一个关联中使用多个数据集,或者将两个元路径合并为一个。这是具有转录组学特征的 >L1 元路径的常见情况,其中两个方向(CLL-upr-GEN 和 CLL-dwr-GEN)经常组合(CLLdwr+upr-GEN-dwr+upr-CPD)。为了处理这些情况,首先按照上面详述的方法为每个元路径或数据集获得了一个单独的网络。然后,通过合并边(L1 元路径)或添加 DWPC 值(>L1 元路径)来合并所有网络。
在此过程结束时,从网络中删除了覆盖不到 5% 实体的网络组件。还从源元路径中删除了未能在其网络组件中保留总节点数 50% 的元路径。

4.3.2 Node2vec 参数

node2vec 算法包括随机游走驱动的网络探索,然后通过 skip-gram 神经网络架构学习特征向量。
作者为网络的每个节点实现了一个自定义随机游走器(具有 node2vec 参数 p 和 q 设置为1),并为网络的每个节点运行100次长度为100的步行。对于 >L1 元路径,作者将每个节点的 DWPC 值缩放为总和 1,并将它们用作偏向随机游走程序的概率。然后使用 Dong 等人提供的 C++ skip-gram 实现和默认参数来为每个节点获得一个 128 维向量。

4.3.3 考虑节点度偏差

KG 中包含的不同知识领域和数据源之间的信息分布不均匀不可避免地导致实体之间的关联数量不均匀,从而导致偏向于更高度数的节点。作者实施了几种措施来减轻这些偏差,不仅在嵌入的生成过程中,而且在计算距离的方式中。

4.3.4 在生成嵌入之前

为了控制元路径网络的度数,作者实施了 DWPC 方法,该方法专门用于解决度数偏差问题。此外,还将给定节点在元路径末尾可以拥有的连接数限制为所有可能邻居的 5%(每个节点最少 3 个边,最多 250 个边)。这是因为作者观察到较长元路径中的节点通常会找到至少一条虚假路径来连接到网络中的每个其他节点。尽管它们中的大多数最终具有非常低的权重,但由此产生的网络非常密集,skip-gram 模型需要大量的随机游走来学习网络的权重分布。所有这些边界都是基于 Himmelstein 等人的思想探索,并在优化资源中的不同元路径之后选择的。重要的是,控制网络度的效果对于具有高质量的嵌入空间至关重要,尤其是对于较长的元路径,这些偏差由于来自不同数据集的高度节点的组合而加剧(补充图7)。
在这里插入图片描述
此外,根据本体中提供的信息内容,从知识图谱中删除了那些意义过于笼统的节点。这阻止了这些节点以提供非常少的信息为代价吸引网络中的许多连接(例如,诸如“癌症”、“综合症”或“遗传病”之类的疾病术语;或 c e l l细胞外围’)。补充数据1 中提供了所有修剪过的术语。

4.3.5 生成嵌入后

大多数下游分析依赖于嵌入之间的距离。然而,即使在生成嵌入时实施了控制网络程度的措施,预计具有更一般含义的节点通常会比其他更具体的节点更接近其余节点(例如’脑部疾病’)将比’偏头痛’)更接近更广泛的基因集是脑部疾病家族中的一种特定病症)。因此,某些术语可能会偏向于比其他术语具有更近的距离分布,因为它们的边缘定义了更广泛的关联。尽管对其进行编码在某些下游分析中可能很有用(例如,识别靶向与特定脑部疾病相关的蛋白质的药物),但在比较术语之间的距离分布时也可能会引入偏差(补充图 7)。
为了解决这些偏差,作者首先评估了不同距离如何区分这些术语,发现余弦距离在术语之间提供了更具可比性的分布,同时仍然保留了更广泛术语的小距离关联的(预期)丰富。此外,为了增加距离的特异性度量,作者还选择计算 co-ranks 分位数,这要求两个节点彼此靠近,以考虑它们共享密切关系(这用于HuRI-III 练习和程序在相应部分中有详细说明)。通过这样做,可以标准化所有实体的距离值,使它们具有可比性(例如,无论疾病节点如何,具有 0.1 的同秩分位数都意味着相同)。
此外,网络排列可用于下游分析,以控制在使用我们的嵌入分析的网络中进行的虚假观察。事实上,在 HuRI-III 分析中,作者随机排列了 HuRI-III 网络(如相应部分中所述)并使用排列后的网络作为参考来推导计算的嵌入距离的统计显着性截止值。

4.4 嵌入评估

作者使用 opt-SNE 生成嵌入的二维表示。为了评估嵌入的质量,使用嵌入向量重新组装了从元路径获得的网络。首先使用节点的嵌入向量计算网络中每条边的余弦距离。接下来,为网络中的每条边生成 100 个随机排列,并计算它们之间的余弦距离。最后,对所有距离进行排序,并分别使用网络边缘和随机排列作为正集和负集来计算 ROC 曲线下的面积 (AUROC)。在评估 >L1 元路径时,使用 3 个额外的网络子集重复相同的练习,这些网络子集是根据边缘的 DWPC 权重为每个节点保留前 1%、25% 和 50% 最近的邻居。AUROC 低于 0.8 的嵌入已从资源中删除。

4.5 嵌入表征

作者首先预选了一组代表常用生物关联的参考网络。然后,给定一组对应于某个元路径的嵌入,测试了它们从其他(正交)数据集(即参考网络)概括边缘的能力。按照上述方法,保留了两项措施,即覆盖率(即重叠节点的数量)和 AUROC。
为了扩展这种表征,对于每个元路径,作者试图根据它们的实体类型分别表征节点。首先计算了集合中每个参考网络的节点的词频-逆文档频率 (TFIDF) 值。接下来,在相同的实体类型和网络中,使用 TF-IDF 转换后的向量来计算节点之间的成对余弦相似度。最后,通过为每个节点保留前 5 个最接近的邻居来构建实体相似性网络。请注意,从一个异构(二分)网络,此过程会产生两个同构网络,每个网络对应一种实体类型。
作者收集的一些网络需要定制的预处理。为了表示扰动关联,通过相应的关联直接将扰动基因(PGN-pup-GEN 或 PGN-pdw-GEN)与这种扰动的结果(例如 PGN-bfn-CLL 或 PGN-upr-GEN)联系起来,数据集。作者通过将每个节点与共享更多邻居的前 3 个伙伴直接链接来计算 CHE-has-CPD 相似性网络。此外,一些实体相似性网络是从其他来源收集的,例如从 Chemical Checker 资源中获得的 CPD-CPD 作用机制相似性。

4.6 基于嵌入的癌细胞系基因表达分析

作者从 GDSC100040 网络资源 下载了 RMA 标准化基因表达 (GEx) 和药物敏感性数据。作者将细胞系和基因映射到我们的参考词汇表,并在出现重复项时取平均值。作者使用了来自 CLUE 细胞应用程序 的组织起源注释,它已经是我们图表的一部分(CLL-has-TIS、cl_tissue_clueio)。关于 CCLE 数据,我们使用了Broad Institute Portal。作者处理了 RNAseq 数据并按照“数据集标准化”和“获取嵌入”部分。
在药物敏感性预测练习中,作者为每种药物和每个 GEx 输入数据(即原始 GEx 或任何 GEx 衍生嵌入)训练了一个随机森林 (RF) 分类器。在去除具有少于 10 个敏感或耐药细胞系的药物后,作者对 262 种药物进行了建模。作者使用了 RF 算法的 SciKit-Learn 实现,具有 10 倍分层交叉验证方案,并在 Hyperopt 的 20 次迭代中优化了 RF 超参数。

4.7 HuRI-III 蛋白-蛋白相互作用网络分析

作者从人类交互组图谱 下载了 HuRI-III。接下来,作者考虑了所有包含 GEN 元节点的 L1 元路径,保持每个元路径具有更高覆盖率的数据集,并丢弃那些覆盖不到 10% 的 HuRI-III 网络的数据集。作为 PPI 交互 (GEN-ppi-GEN) 的代表,作者使用了日期为 2019 年 12 月的 IntAct 版本(在 HuRI-III 网络发布之前),从中删除了属于 HuRI-III 筛选的所有条目(IMEX:IM -25472)。接下来,计算了每个元路径嵌入空间中每个 PPI 之间的余弦距离,并根据每个蛋白质的距离分布对距离进行排序。距离和排名是通过 FAISS83 获得的。为了导出经验P值,通过将每个元路径中覆盖的基因总数标准化,将排名转换为百分位数,并保持标准化共排名对的几何平均值。
作者通过使用 BiRewire 生物导体包,同样,计算每个元路径的 P 值。对于每个置换网络,作者使用滑动 P 值截止值(在 1 和 0.001 之间)计算边缘的恢复,并对每个截止值处的计数取平均值。在使用 HuRI-III 网络重复此过程后,能够为每个元路径推导出不同 P 值截止值(即给定 P 值截止值处覆盖的 HuRI-III 边缘数)的预期倍数变化 (FC)除以置换网络中覆盖边的平均数)。此外,置换网络还用于估计给定 P 值的经验 FDR。例如,对于每个元路径,通过计算覆盖不超过 5% 的置换网络边缘所需的最小 P 值,找到与 0.05 FDR 相关的 P 值截止值。最后,为了构建图 6a 所示的矩阵,作者选择了具有最高 FC 的前 20 个元路径(即 P 值范围在 0.1 和 0.001 之间的 FC 平均值),并使用它们的 P 值将 PPI 与 fastcluster 聚类package84 和病房距离更新公式。
为了获得 Shapley 值,作者训练了一个 XGBoost 模型,使用跨路径的 P 值将 GEN-GEN 边缘分类为正(即,存在于 HuRI-III 中)或负(即,不存在于 HuRI-III 中)。对于多个负对,使用置换网络的实例命中较少的 HuRI-III 边(~3%)以避免同时具有与正实例和负实例相同的边。此外,由于本练习的目的是研究元路径之间的相互作用,删除了被少于 10 (50%) 个元路径覆盖的边,从而产生了一个包含 60k 正负对的数据集。对缺失的 P 值应用简单的均值插补。在训练时,实施了 20 倍分层交叉验证拆分方案,并使用 Hyperopt 的 20 次迭代微调了超参数。最后,通过实施 TreeExplainer 方法从测试拆分中获得了 Shapley 值。所有后续分析和数据均使用 SHAP 包 获得。

4.8 基于药物和疾病嵌入的药物再利用

repoDB (v1) 数据repoDB (v1) 数据。化合物映射到 InChIKeys,疾病映射到疾病本体论 (DO),强制进行 1:1 映射。作为特征,作者使用了来自 Bioteque 资源的以下元路径(数据集):CPD-int-GEN (curated_targets); DIS-ass-GEN(disgenet_curated+disgenet_inferred); CPD-int-GEN-int-CPD-has-PHC (curated_targets-curated_targets-atc_drugs);和 DIS-ass-GEN-ass-DIS-trt-CPD(disgenet_curated+disgenet_inferred-disgenet_curated+disgenet_inferred-repodb)。
此外,作者使用RDKIT 获得了化合物的 2048 位摩根指纹 (ECDF4),并将来自 DisGeNET 的疾病基因网络的邻接矩阵用作疾病的二进制描述符。定义了模型的特征后,从 repoDB 中过滤掉了那些落在嵌入域之外的药物和疾病,并通过根据疾病本体论将关联传播到最具体的药物-疾病术语来删除冗余对。结果,训练 (repoDB v1) 和测试 (repoDB v2) 拆分分别由 2522 和 1187 个独特的药物疾病关联组成(补充图 5)。此外,为了防止模型关注最频繁注释的药物和疾病实体,作者进一步处理了训练数据以平衡关联的数量(节点的程度)。更具体地说,将药物或疾病关联的数量限制为所有可能关联的 5%(分别为 44 种疾病和 26 种药物)。因此,使用 CPD-int-GEN 或 DIS-ass-GEN 嵌入作为特征,通过执行 K 均值聚类(其中 K 设置为上限限制)对超过此限制的那些药物或疾病的关联进行二次抽样,并通过从每个集群中随机选择一个代表性关联(补充图 5)。此步骤将训练数据的数量略微减少到 2326 个药物-疾病关联。
在这里插入图片描述
接下来,作者通过聚合通过随机交换训练数据的边缘获得的 20 个负网络(因此,强制正例和负例之间的比例为 1:20)来生成训练负对,同时防止疾病本体论中的不一致(即,有一个负关联,可以通过本体传播一个正的药物-疾病关联来获得)。请注意,为了符合时间分割的情况,没有删除 repoDB v2 版本中报告为阳性的任何阴性药物-疾病对。
训练数据准备就绪后,作者使用 Hyperopt 的 20 次迭代对每个探索模型运行 RF 分类器以微调超参数。在预测时,repoDB v2 中的药物-疾病关联被认为是阳性测试对,而所有剩余的药物-疾病成对组合被认为是阴性对。为了避免不一致,作者删除了那些根据疾病本体论在语义上与正对相关的负对。结果,分别获得了 [460-500] 种疾病和 [750-800] 种药物和疾病的药物预测。由于大多数药物和疾病只有一两个阳性实例,我们通过对每个实体的所有预测单独排名来评估模型的性能(排名以百分比形式使用)。此外,作者计算了至少有 5 个阳性实例的那些药物和疾病的 ROC 曲线。最后,通过将药物映射到解剖治疗化学 (ATC) 分类的最高级别(如果可用)来获得药物的药理作用。同样,疾病家族是通过将疾病术语传播到疾病本体论的第一级和第二级而派生的。

5.结果

5.1 全面的生物医学知识图谱(KG)

在这里插入图片描述
为了构建一个集成公共领域可用的生物学和生物医学知识的知识图谱,首先定义了网络的基本实体(节点)以及它们之间的关系(边)。如图 1a 所示,该资源以基因为中心。因此,基因和基因产物 (GEN) 代表在 KG 方案的中心,并参与大多数关联。
为了更好地表征基因和蛋白质,作者收集了它们的分子功能 (molecular function ,MFN)、细胞成分定位 (cellular component localization,CMP)、功能结构或结构域 (domains,DOM) 以及生物过程或途径 (pathways,PWY)。此外,还包括有关细胞系 (cell lines,CLL) 的信息,细胞系是生物学中研究最多的实体之一,以及它们的解剖学集合,即组织 (tissues,TIS)。类似地,化合物 (chemical compounds,CPD) 与药理学类别 (pharmacological classes,PHC) 和化学实体 (chemical entitiesC,HE) 一起描述,这是药物化合物的两个常用词汇表。疾病 (Diseases,DIS) 是在各个领域得到广泛研究的异常情况,在不同节点之间产生了广泛多样的相互作用。此外,尽管 CPD 和 DIS 是在 GEO21 和 LINCS22 等存储库中发现的两种主要扰动剂,但我们还考虑了其​​他生物实体,例如 miRNA、shRNA 和过表达载体,它们也可以充当扰动剂 (PGN)。为了连接 Bioteque 中的实体,我们定义了 67 种类型的关联,反映它们之间的生物学关系。这种关联的一个例子是与给定通路相关的基因 (GEN-ass-PWY),并且可能在特定细胞 (GEN-dwr-CLL) 或组织类型 (GEN-dwr-TIS) 中下调,或用于治疗疾病的药物化合物 (CPD-trt-DIS)。 Bioteque 中包含的所有生物和化学实体以及不同关联的完整列表在图 1a 和表 1 中进行了总结,并在补充数据1补充数据 2中提供。
定义了生物实体及其相互作用后,作者使用从代表性数据集和资源中收集的数据填充了 Bioteque。首先整合了迄今为止最完整的生物数据集纲要 Harmonizome 的数据,并添加了另外 100 个参考数据集的数据。每个数据集都映射到图 1a 中描述的 KG 方案(或元图)。受 Harmonizome 策略的启发,对连续数据进行了二值化,以便以网络格式表示,并且对来自多个来源的标识符进行了标准化。
在这里插入图片描述
当前版本的 KG 包含超过 450k 个节点,属于 12 种生物实体(metanodes),以及超过 30M 条边,代表 67 种关系(metaedges)(图 1b)。一般来说,KG 的规模与其他最近发表的生物医学 KGs 相当。事实上,参考 Bonnet 等人所做的比较,作者所提出的 KG 在处理数据集的数量上是最全面的,在实体、边和关系类型方面第二全面,在实体类型方面第三(补充表 1)。毫不奇怪,基因和蛋白质占图中的大部分边 (25M) 和元边 (42)(图 1c、d)。就参考数据集的数量而言,蛋白质相互作用(GEN-ppi-GEN)和基因-疾病关联(GEN-ass-DIS)是最具代表性的元边,分别由 17 个和 15 个数据集支持(图 1c)。对从每个数据集中提取的数据进行比较后发现,尽管存在一些重叠,但大多数数据集涵盖了不同的关联,这可能是由于基础实验的重点不同(即物理与功能,PPI 或药物驱动与基因组学- driven基因关联)(图 1e)。

5.2 计算整个 KG 的网络嵌入

在这里插入图片描述
为了整合收集到的生物学知识,作者设计了一种方法来为 KG 中的给定节点获取一组嵌入,这些嵌入捕获由该节点与其他实体之间的一种或多种关系定义的不同上下文(图 2a)。例如,某种化合物的药理学背景可以通过“化合物与蛋白质相互作用”关联来捕获,而其临床背景可以通过“化合物治疗疾病”链接来捕获。嵌入过程如下。首先定义要连接的生物实体(元节点)的类型以及希望探索的它们之间的关系序列(元边)。这种关系序列称为元路径。然后,系统地检查了元路径的源节点和目标节点的所有可能路径,降低了高度连接的节点的权重,以确保对网络进行详尽的探索。此步骤生成一个简化的同构图(当源元节点和目标元节点属于同一类型时)或二分图(当源元节点和目标元节点属于不同类型时)图,可以使用传统的网络嵌入技术进行探索。作者选择使用随机游走方法,其中代理探索网络的轨迹被保留并最终输入文本嵌入算法。结果,对于网络中的每个节点,都会获得一个 128 维向量(即嵌入),从而将相似的向量赋予网络中最接近的节点。在此过程中,主要将不同的数据集分开保存(即,不合并不同来源的等效网络)以保留在它们中捕获的原始信息。
作者已经创建了一种预先计算的生物医学嵌入资源,即 Bioteque,在其中详尽地考虑了从 KG 中提取的大多数长度为 1 和 2 的元路径(即,源节点和目标节点之间的直接连接,或它们之间的一个中间节点) .此外,我们还收集了 135 个长度≥3 的元路径。总的来说,Bioteque 目前总共持有 81、785 和 175 个长度为 1、2 和≥3 的嵌入(图 2c 和补充数据 3 )。长度为 1 (L1) 的元路径对应于知识图中的直接关联,并提供实体的最简单的领域知识表示。另一方面,较大的元路径 (>L1) 要么致力于通过第三方连接不同的实体(即 CPD-int-GENass-DIS),要么将 L1 关联扩展到相似的实体(即 CPD-intGEN-ppi- GEN 或 CPD-trt-DIS-ass-GEN-ass-DIS),允许识别生物实体之间更复杂的关系(即,两种化合物可能针对不同的蛋白质但影响相同的途径,或 CPD-int-GEN-ass -PWY)。
鉴于构建的 KG 是以基因为中心的,基因 (GEN) 是资源中嵌入频率最高的生物实体(来自 43 个不同数据集的 515 个独特元路径),其次是化合物 (CPD)、细胞系 (CLL) 和疾病 (DIS) )(分别为 198、168 和 150 个独特的元路径)(图 2b)。此外,大多数元路径使用基因实体,例如来自组学实验或文献策划注释的基因实体,作为连接不同实体的桥梁(补充图 2)。化合物也发挥着重要作用,将药理学类别和化学实体与图表的其余部分联系起来,并且是嵌入细胞系、疾病和组织的元路径的主要来源。
总体而言,Bioteque 提供了从 746 个独特的元路径中获得的 1041 个嵌入的集合,涵盖了生物 KG 中定义的所有实体(图 2d)。

5.3 嵌入保留原始 KG 中的相互作用,并根据数据的范围和类型揭示生物实体之间的关系

在这里插入图片描述
在获得 KG 中所有节点的嵌入后,作者进行了一组分析,一方面验证嵌入保留了在 KG 中观察到的连通性,另一方面根据其他特征描述每个嵌入空间Bioteque 中的(正交)数据集。作为说明性示例,图 3 显示了元路径 CPD-int-GEN-ass-DIS 的分析,对应于与基因相互作用的化合物,而基因又与疾病相关。
为了验证嵌入,作者成对计算了它们的余弦距离,并检查了近端嵌入是否对应于 KG 中的边缘(图 3b),使用接收器操作特征下的面积 (AUROC) 指标进行测量。同样,当使用嵌入距离对实体对进行排序时,作者在最近的 10% 的可能节点中找到了它们的已知邻居(图 3d)。本研究的目的不是对嵌入方法进行基准测试(这已经是该领域广为接受的实施方式),而是对一组综合案例中的方法进行评估。
类似地,嵌入之间的距离可用于衡量维度空间是否保留了共享生物特征的实体之间的相似性(即,细胞系共享起源组织或基因共享分子功能)。遵循这个基本原理,作者可以通过将其嵌入与一组参考生物特征进行比较来表征给定元路径捕获的生物信号的类型,这种方法已经用于基于共享的化学特征来衡量药物间的相似性。使用嵌入允许直接比较相同类型的实体(例如,根据上调基因的细胞系相似性可以通过计算 CLLupr-GEN 嵌入中 CLL 实体的距离来测量)。同样,比较和揭示不同类型关联之间的相关性也很容易。例如,可以通过考虑 CLL-cnu-GEN 和 CLLupr-GEN 嵌入空间的相似性来评估拷贝数放大和上调之间的相关性。在 CPD-int-GEN-ass-DIS 示例中,药物靶点和基因-疾病关联属于生物医学特征,可以通过化合物和疾病嵌入更好地概括(图 3e)。因此,看到与类似治疗相关的化合物和疾病在嵌入空间中是如何接近的。作者观察到在边缘级别实现了复合疾病治疗的相似性(AUROC:0.7),这表明不仅具有相似治疗的化合物和疾病在嵌入空间中很接近,而且复合疾病治疗对也经常出现在同一附近。事实上,化合物和疾病相关基因已被证明可用于药物治疗预测练习。
128 维嵌入到 2D 空间的投影揭示了药物和治疗的集群,根据元路径的定义,这些药物和治疗具有可识别的目标(图 3a)。例如,作者发现与治疗白血病(例如依托泊苷和柔红霉素)、激素紊乱(例如生长抑素和血清素)、神经系统紊乱(例如卡比多巴、倍他司汀和 P pro t y p t y line)相关的药物-疾病组,和炎症条件(例如,可的松和泼尼松龙)。作者观察到,这些药物中的大多数都针对与疾病直接相关的一小部分蛋白质或蛋白质家族,例如用于治疗性腺功能减退症的生长激素释放激素受体 (GHRHR)、用于治疗肢端肥大症的生长抑素受体 (SSTR),以及多巴脱羧酶在帕金森病的治疗中防止多巴胺形成。此外,分析表明,批准用于治疗白血病或卡波西肉瘤簇的药物共享拓扑异构酶 II α (TOP2A) 酶作为靶点(图 3c)。事实上,这两种疾病之间的合并症已在几项研究中报道过,尽管据作者所知,TOP2A 在这种合并症中的作用尚未得到描述。
在这里插入图片描述
Bioteque 中编码的嵌入库使得能够从多个角度探索给定的生物医学实体,通常对应于不同的生物学背景,例如具有相同生物学作用但在不同组织中表达的基因,或具有相似转录谱但不同的细胞系蛋白质组和药物反应水平(图 4a)。当系统地执行时,这种分析量化了某个元路径与集合中其他元路径的关系,这反过来有助于评估它捕获的生物学特征的类型。图 4b 显示了 10 个重述基因分子功能和化合物药理学类别的顶级元路径。作者看到被相同化合物靶向或具有相似结构域的基因倾向于共享分子功能,而正如预期的那样,一组相互作用的化合物或具有相似结合特征的化合物往往属于同一药理学类别。
此外,可以探索单个元路径中数据集之间的差异。在图 4c 中,作者嵌入了三个蛋白质蛋白质相互作用 (PPI) 网络,代表功能相互作用 (STRING28)、物理相互作用 (IntAct27) 和蛋白质信号相互作用 (OmniPath38),并量化了这些网络捕获各种信息的能力生物学特征,从细胞定位到蛋白质复合物。 STRING 中包含的功能相互作用的多样性有利于重现所探索的大部分特征,尤其是那些涉及相似生物途径 (AUROC: 0.93)、蛋白质复合物 (AUROC: 0.89) 和蛋白质结构域 (AUROC: 0.83) 的特征。毫不奇怪,IntAct 更好地保留了物理相互作用 (AUROC: 0.88) 并且在与蛋白质复合物 (AUROC: 0.86) 中表现出良好的性能。最后,OmniPath 显示了信号转导过程的富集,例如激酶底物 (AUROC: 0.9)、磷酸酶底物 (AUROC: 0.96) 和转录因子相互作用 (AUROC: 0.94),与用于构建此资源的类型非常一致网络。
一般来说,填充这些网络所遵循的不同考虑可能有利于某些知识领域,因此适合不同的任务,可以通过将它们转换为嵌入来有效和系统地揭示这些任务。在接下来的部分中,作者展示三个说明性示例,说明这些生物嵌入如何在各种任务中现成使用。

5.3.1 基因表达嵌入作为细胞系的生物学描述符

基因表达 (GEx) 实验已被广泛用于表征细胞身份和状态,因为它们广泛概括了起源组织,并且它们是预测药物反应的显着基因组生物标志物。然而,这些实验通常测量 15-20k 基因的表达,产生的数值图谱对计算要求很高,并且在数据有限的机器学习方法中用作输入时容易出现过度拟合问题。
因此,作者探讨了我们更简洁的 128 维向量是否能够保留完整 GEx 配置文件中包含的信息。以癌症药物敏感性基因组学 (GDSC)40 panel 作为参考,我们收集了每个细胞系,基础(原始)GEx(17.7 K 基因)和相应的 Bioteque 元路径嵌入 CLL-dwr+upr-GEN-dwr+upr-CLL(以下简称 CLL-gex-CLL),旨在捕获细胞系之间的基因表达相似性。
在这里插入图片描述
作者首先通过对原始和嵌入的 GEx 进行二维投影来检查细胞系的相似性景观。通过根据细胞系的组织来源对细胞系进行着色,作者直观地验证了 CLL-gex-CLL 嵌入的能力类似于原始 GEx 数据(图 5a)。实际上,CLL-gex-CLL 向量之间的余弦相似性以与使用原始 GEx 向量之间的相关性(AUROC:分别为 0.75 和 0.76)时相似的比率提高了共享起源组织的 CLL 的排名(图 5b)。
接下来,作者评估了嵌入预测每个细胞系药物反应的能力。为此,为 panel 中的 262 种药物中的每一种都训练了一个标准机器学习模型(随机森林分类器),并使用原始 GEx 和我们的嵌入独立预测敏感/耐药反应(“方法”)。事实上,作者发现 CLL-gex-CLL 嵌入重现药物反应的能力与使用原始 GEx 数据时观察到的能力相当(平均 AUROC:分别为 0.70 和 0.71)。此外,基于嵌入的模型与原始 GEx 模型具有很强的一致性(0.94 皮尔逊相关性)(图 5c)。这种一致程度非常显着,代表了嵌入的明显优势,因为它们更小、更易于处理并且不需要专家知识来预处理原始数据。嵌入方法的一个缺点是预测的可解释性不太明显。
在验证 Bioteque GEx 嵌入保留了细胞系的基础转录信息后,作者使用它们来比较从不同细胞系面板获得的配置文件。具体来说,将 GDSC 与癌细胞系百科全书 (CCLE)43 进行了比较。与之前的报告一致,可以观察到两个面板之间存在很强的对应关系,测量为嵌入空间中的 CLL-gex-CLL 相似性(AUROC:0.89)(图 5d)。为了评估这些相似性是否是由相同基因的上调或下调驱动的,我们重复了针对 CLL-upr-GEN 和 CLL-dwr-GEN 嵌入的分析,并检查了 GDSC 面板中的 CLL-GEN 相似性是否也保存在 CCLE 中。一般而言,细胞系特异性上调/下调基因(即 CLL-GEN 对)的恢复评分较低(AUROC:0.78)(图 5d)。
在这里插入图片描述
当反转练习并使用 CCLE 嵌入来概括 GDSC 相似性时,获得了类似的结果(补充图 3)。这一发现表明,虽然 panel 之间的细胞系相似性很强(即,在一个 panel 中共享相似转录特征的细胞系在另一个 panel 中也共享相似的转录特征),但给定细胞系的特定转录变化可能不同。 CLL-CLL 和 GEN-GEN 距离的表征进一步证实,与面板之间的基因相似性相比,细胞系相似性的更好概括(AUROC:CLL-CLL 和 GEN-GEN 相似性分别为 0.9 和 0.8)(图 5e)。此外,CLL-CLL 相似性表征揭示了蛋白质和转录物水平之间的高度一致性(AUROC:蛋白质丰度和缺陷分别为 0.9 和 0.8),这部分由相同的 CLLGEN 对驱动(AUROC:蛋白质为 0.72 和 0.63)丰度和蛋白质缺乏 CLL-GEN 对(补充图 3)。
除了起源组织外,作者还观察到用于模拟给定疾病的细胞系之间的相似性(AUROC:0.78),共享适应性特征(AUROC:0.72 为阴性,0.69 为阳性适应性特征)和相似的药物反应(AUROC:0.7 )。最后,GEN-GEN相似性还揭示了已知共表达基因对的温和重现(AUROC:0.64 和 0.69,分别用于上调和下调基因相似性),从而表明一些基因通常在相同细胞系中上调或下调不同的 panel 可能共享相同的转录调控程序。
总的来说,作者所提出的方法将原始数据中的有意义的信息保留到减少的维度(128 vs ~20k)中,即使数据来自噪音更大的来源,如转录组学技术。嵌入的标准化和密集格式提供了一种默认方式来集成和比较组学数据集。

5.3.2 评估新组学数据集的独特性

自高通量组学技术整合以来,已经制定了多项长期计划来全面表征某些水平的生物系统(即酵母中的遗传相互作用或细胞系面板和人体组织的转录组)。经过几年的运行,所有这些努力都必须在屏幕接近饱和时可能减少的新颖性和增加的成本之间取得平衡。 Bioteque 提供了一个转换为单一格式的生物数据语料库,因此,它提供了一种量化组学实验新数据发布的新颖程度的方法。作为一个说明性示例,我们使用酵母双杂交方法分析了人类参考相互作用组 (HuRI) 的系统图表,该方法在过去 15 年中已经确定了超过 50,000 种高质量的蛋白质-蛋白质相互作用 (PPI)。
在这里插入图片描述
为了估计来自不同实验的支持水平并评估最新 HuRI 版本 (HuRI-III48) 的新颖性,作者使用相关元路径的嵌入空间来确定每对相互作用蛋白质的生物学背景。简而言之,对于每个基因-基因对,计算了一个与嵌入空间中测量的相似性相对应的经验 P 值,这允许对在不同嵌入空间中执行的距离/相似性测量进行相应的比较(参见“方法”)。请注意,为了公平地表示已知的物理相互作用,嵌入了一个旧版本的蛋白质相互作用网络,不包括来自 HuRI-III 的任何条目。然后,根据 Bioteque 嵌入中包含的支持级别将 HuRI-III 中的每个交互分为四组。在这方面,将它们标记为 (i) 已知和支持的交互(由 GENppi-GEN 和至少另一个元路径涵盖),(ii)已知的交互(仅由 GEN-ppi-GEN 涵盖),(iii)支持的交互(被其他元路径覆盖但不包括 GEN-ppi-GEN)和(iv)潜在的新相互作用(在筛选的任何元路径中没有明显的支持)(图 6a)。值得注意的是,在 HuRI 的三个更新版本之后,根据所选的元路径,几乎一半的交互可以归类为潜在的新交互。此外,虽然只有 5825 (11%) 的交互得到 GEN-ppi-GEN 嵌入的支持,主要来自以前版本的 HuRI46,47,但分析表明可以恢复更高的比例。事实上,在 0.05 FDR(“方法”)下,GEN-ppi-GEN 嵌入恢复了 18% 的 HuRIIII,检索了 5456(94%)个先前已知的相互作用,同时发现了 3994 个新对(图 6b)。另一方面,作者观察到大量可能涉及相似途径 (GEN-ass-PWY)、细胞成分 (GEN-has-CMP) 或蛋白质结构域 (GEN-has-DOM) 的物理相互作用。在 0.05 FDR 时,仅这些元路径就恢复了 6905 个独特的交互,其中 4484 个(65%)在物理交互空间中并不明显(图 6c)。
在这里插入图片描述
为了深入研究用于解释 PPI 的元路径的相关性和相对重要性,作者使用 P 值作为经过训练以识别 HuRI-III 边缘的基于树的机器学习模型的特征。然后,使用 Shapley 值 49 评估了每个元路径对于预测的重要性。正如从热图中直观预期的那样,该模型取得了合理的性能(AUROC:0.69),主要依赖于先前已知的物理相互作用、细胞成分、蛋白质结构域和通路,所有这些都显示出一定程度的一致性(补充图 4)。
作者还确定了成功预测的案例,几乎没有来自物理 PPI 的证据。例如,基于元路径距离的模型预测了神经元蛋白 HOMER1 和 SHANK2、tRNA 剪接核酸内切酶 TSEN54 和多核糖核苷酸 CLP1,以及腺苷脱氨酶 ADARB1 和蛋白激酶 PRKRA 之间的相互作用,这些都没有任何报道的证据蛋白质相互作用数据库,但分别在 GEN-ass-PWY、GEN-has-CMP 和 GEN-has-DOM 元路径中显示出强烈的积极支持(图 6d)。事实上,其中一些关联在其他情况下是相关的,但在 HuRI-III 之前没有任何物理相互作用的迹象。
作者已经展示了 Bioteque 嵌入的连续且可解释的维度空间如何为表征单个观察结果提供了一个强大的框架,反过来,它可以用来指导对整个数据集的解释,并在某种程度上评估数据集的新颖性数据。

5.3.3 使用嵌入提供的多个范围发现药物再利用机会

在这里插入图片描述
药物再利用通常被视为快速开发新疗法的诱人机会。然而,也许除了癌症之外,因为癌症有丰富的模型和分子数据,很难生成数据驱动的预测因子来建议批准或研究药物的新用途,这主要是由于缺乏疾病描述符和少量的已知的药物疾病适应症。事实上,根据 repoDB 的最新更新,一半的药物 (1097) 只有一个批准的适应症,三分之一的疾病 (458) 只能用一种药物治疗(补充图 5)。因此,非常需要具有所有已知药物-疾病关联的训练模型,以及随后将获得的见解转移到未充分探索的治疗领域。
为了探索 Bioteque 在这种情况下是否有用,作者着手预测 2020 年 repoDB (v2) 中引入的新的复合疾病适应症对,并在 2017 年推出的先前版本 (v1) 上训练模型。作者将所有疾病术语映射到疾病本体,删除了冗余适应症(根据本体),并训练了一个传统的随机森林分类器来预测给定的 CPD-DIS 是否对应于真正的治疗适应症。使用了两组元路径嵌入:一组使用基于药物靶标 (CPD-int-GEN) 和基因关联 (DIS-ass-GEN) 的 L1 元路径 (Short),另一组使用 L3 元路径 (长)将已知 CPD 和 DIS 的药理学类别和治疗与共享药物靶标(CPD-int-GEN-int-CPD-has-PHC)或基因关联(DIS-ass-GEN-ass-DIS-trt- CPD)。选择使用药物靶标和基因关联,因为作者观察到它们的嵌入广泛概括了足够数量节点的药理学类别和疾病治疗(补充图 5)。
为了评估基于基因的相似性正确推断治疗的能力,作者还测试了元路径(Long-b),作者阻止了 CPD 和 DIS 的关联,从而使与 PHC 或治疗的关联完全基于关于与其他 CPD 或 DIS 的基因驱动相似性。为了避免琐碎的预测,作者在所有长元路径中删除了与 PHC 或 repoDB v2 独有的药物和疾病治疗的关联。作为基础模型,作者对 CPD 使用化学指纹(ECFP4,2048 位),对 DIS 使用单热身份向量(Basal1)或二元基因注释(Basal2)。
在这里插入图片描述
作者考虑了两个用例:一个是药物再利用练习,其中对所有预测可能使用给定化合物进行治疗的疾病进行排名,另一个是预先编写的练习,其中对可能对治疗特定疾病有用的所有化合物进行排名。在这两种情况下,与基础模型相比,三个元路径嵌入显示出显着的预测能力,其中从长嵌入构建的模型具有更优的性能(图 7a)。具体而言,对于一半的测试化合物,Long 嵌入模型在疾病预测的前 2%(对应于排名前 10 的疾病)中发现了新的经过验证的治疗目的。类似地,对于大约 50% 的疾病,该模型在化合物预测的前 1%(对应于排名前 8 的化合物)中找到了正确的治疗方法。此外,尽管性能较差,但我们的生物嵌入能够在可用证据最少的情况下对化合物和疾病做出正确的预测(即,在 repoDB v1 中只有一种已知的适应症或治疗方法)(图 7a,虚线)。相比之下,性能最好的基础模型 (Basal2) 发现对同一排名范围内 32% 的化合物和 41% 的疾病做出了正确的预测。此外,基于 Bioteque 的模型在 repoDB v2 中具有多个新注释的化合物(或疾病)的适应症(或治疗)的持续升级方面表现更好(图 7b)。
在这里插入图片描述
实际在最佳预测上,发现了达到临床试验的再利用案例(补充图 6a)。例如,虽然维拉帕米和雷诺嗪药物已被批准用于治疗心绞痛,但作者的模型正确预测了维拉帕米在治疗缺血性中风(临床试验:NCT02823106)和雷诺嗪在治疗心房颤动(临床试验)中的再利用作用试验:NCT03162120)分别位于前 1 名和前 2 名(补充图 6b)。有趣的是,模型强调高胰岛素血症是雷诺嗪的首要再利用。虽然此链接未包含在 repoDB 中,但发现有多种研究支持雷诺嗪与胰岛素水平的相关性。最后,作者证实这些预测涵盖了广泛的治疗领域和疾病家族。事实上,作者发现在前 1% 的预测中,Long 模型成功预测了每个治疗领域或疾病家族中 20% 的所有化合物和疾病的一种适应症或治疗(图 7c 和补充图 6e)。这些结果用 Long-b 模型重现,表明正如预期的那样,与已知治疗的药物或疾病相关的基因确实可以用于更好地推断具有未知适应症的药物和疾病的活性(补充图 6c,d)。
总的来说,作者展示了如何将 Bioteque 嵌入直接插入机器学习模型,以及如何通过将不同的上下文关联组合到更大的元路径中,来提高药物-疾病预测模型的性能。事实上,作者使用了 Bioteque 嵌入的初步版本,成功地从几个细胞系中的微扰概况(包括药物诱导的转录变化和细胞敏感性数据)中识别出一组激酶抑制剂的潜在靶标。

6.结论

随着来自不断增长的文献、组学实验和高通量筛选的大规模分子和细胞生物学数据集的积累,需要新的综合数据分析框架。对于给定的生物实体(例如,基因),作者现在能够堆叠其生物复杂性的多层(例如,其结构、功能、调节或相互作用),这提供了一个更完整、系统的观点的机会生物现象,但带来了一些挑战,包括处理不同的数据结构、命名法、信号强度和可变维度。
为了应对这些挑战,作者开发了 Bioteque,这是一种从综合生物医学知识图 (KG) 构建的预先计算的固定格式向量嵌入资源。 KG 包含基因、细胞系和化合物等物理实体,以及通路、分子功能和药理学类别等概念。嵌入根据特定的元路径捕获 KG 中节点之间的连接,即实体之间的一系列语义和/或机械关系。我们已经展示了这种方法如何用于 (i) 生成广泛保留原始数据的紧凑描述符,(ii) 系统地表征生物数据集,例如癌细胞系转录特征,(iii) 评估给定组学实验的新颖性和 ( iv) 基于药物和疾病之间的多重关联,挖掘药物再利用的机会。
在 Bioteque 中,作者整合了来自 150 多个不同来源的数据集,将原始数据的完整性保持在可行的范围内,并在需要时应用标准转换。请注意,Bioteque 的准确性取决于源数据的质量。随着实验技术的不断发展,新信息将填充这些数据库,新标准将出现,为更全面和更高质量的嵌入打开大门。此外,作为第一次尝试,作者使用了一种网络嵌入技术,该技术完全依赖于从生物医学数据构建的图拓扑,这与其他也利用节点和边属性的技术(例如,图神经网络,GNN)形成对比。虽然这些方法可能有助于改善嵌入空间,但它们的质量取决于足够数据和有意义的节点特征的可用性,同时需要对超参数进行彻底的微调。总之,这些方法的正确实施对于数千个网络的系统嵌入变得不可行。此外,在网络中加入外部节点功能可能会损害元路径的受控身份。尽管如此,Bioteque 描述符可以很容易地作为新任务特定网络的节点特征回收,从而将编码的学习从正交生物医学数据集转移到更复杂的属性感知模型。最后,想指出的是,当前的生物医学知识中还有一部分尚未包含在该资源中,例如抗体靶标相互作用和代谢组学。作为以分子/细胞为中心的资源,Bioteque 还缺乏源自患者的数据,包括与微生物组的相互作用。 Bioteque 的更新版本必须与其他生物学知识领域的结合、资源中数据集的重新容纳(基于更新的标准)以及嵌入策略的改进以解决节点的副作用进行补充或者在嵌入空间中合并看不见的(外部)节点。此外,未来的发展将探索采用生物描述符作为各种下游特定任务的特征,包括系统筛选湿实验室实验的生物支持或复杂疾病的建模以指导新化学实体的产生以应对他们。

  • 3
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值