「论文翻译」ML for integrating data in biology and medicine: Principles, practice, and opportunities

最新推荐文章于 2023-08-30 17:49:18 发布

雨y飘零久

最新推荐文章于 2023-08-30 17:49:18 发布

阅读量1.1k

点赞数

分类专栏：论文翻译

本文链接：https://blog.csdn.net/qq_27926119/article/details/103822055

版权

论文翻译专栏收录该内容

10 篇文章 2 订阅

订阅专栏

Information Fusion 2019

文章目录

Abstract
1. Introduction
2. Challenges in data integration for biology and medicine
3. Conceptual organization of methods for data integration
4. Focus of this Review
5. Epigenomic variation and gene regulation
6. Noncoding variant effects
7. Integrative single-cell analysis
8. Cellular phenotype and function
- - 8.1. Protein function prediction
  - 8.2. Protein-protein interaction prediction
9. Computational pharmacology
10. Disease subtyping and biomarker discovery
11. Challenges and future directions
12. Conclusion

Abstract

新技术使人们能够以前所未有的规模和多个维度研究生物学和人类健康。这些维度包括描述基因组，表观基因组，转录组，微生物组，表型和生活方式的众多属性。但是，没有任何一种数据类型可以捕获与了解某种现象（例如疾病）相关的所有因素的复杂性。因此，结合多种技术的数据的集成方法已成为重要的统计和计算方法。开发此类方法的主要挑战是确定有效模型以提供全面且相关的系统视图。理想的方法可以通过利用跨生物学变动多个维度的异构数据来回答生物学或医学问题，识别重要特征并预测结果。在这篇评论中，我们描述了数据集成的原理，并讨论了当前的方法和可用的实现。我们提供了生物学和医学领域成功进行数据集成的示例。最后，我们讨论了生物医学整合方法中的当前挑战以及我们对该领域未来发展的看法。

1. Introduction

了解复杂的生物系统一直是许多研究人员的不懈追求。高通量测序成本的快速下降，大规模并行技术的发展以及新的传感器技术，使得能够生成描述多维生物系统的数据。这些包括DNA序列[1]，表观基因组状态[2]，单细胞基因表达活性[3]，蛋白质组学[4]，功能和表型测量[5]以及生态和生活方式特性[6]。在过去的十年中，数据生成的这些技术进步驱动了生物信息学领域，随着研究人员开发数据分析工具，生成的数据量不断增加。这些数据类型中有许多具有关联的分析方法，这些分析方法旨在专门检查一种数据类型。使用这些方法，我们聚集了一些生物结构的困惑。但是，通常，了解一种现象（如疾病）所必需的因素无法通过单个数据类型来捕获（图1）。因此，生物学和医学的许多复杂性仍然无法解释。如果该领域严格依赖于单一数据类型的研究，则永远不会解释。
在这里插入图片描述
Fig. 1 数据整合在生物医学中的重要性。仅考虑单一数据类型的变化可能会错过许多重要的模式，这些模式只有通过考虑生物医学数据的多个级别才能观察到。图1种显示的是使用疾病诊断作为关注点的假设示例。当新的病人到达诊所时，（a）领域专家对患者的基因组进行测序，并将其与数据库进行比较，以识别突变和致病基因，（b）使用组织样本进行实验室检查，（c）处理有关患者行为和生活方式的信息。（d）将患者的基因组，转录组和生活方式信息与精选的生物医学知识（例如疾病和代谢途径）数据库相结合。最后，机器学习算法可以预测患者在不久的将来患上特定疾病的可能性。为了做出准确的预测，机器学习模型需要使用许多不同类型的数据。此示例说明，只有通过分析多种类型的患者数据才能做出准确的预测。

理想情况下，可以结合不同类型的数据来创建细胞，人类健康和疾病的整体图。研究人员已经开发出多种方法来完成此任务，因此可以应对庞大且异构的生物医学数据带来的挑战。例如，可以通过基于家庭和人群的数据中的关联研究来识别DNA序列变异，然后将其与分子途径信息整合在一起，以预测患上特定疾病的风险[7]。数据集成可能具有多种含义，但是，这里使用它来表示将广义上不同类型的生物医学数据组合为预测变量的过程，从而可以对生物医学相关结果进行更彻底，更全面的建模。如前所述（例如[8-10]），与仅使用单一数据类型的方法相比，数据整合方法可以实现对生物医学数据的更彻底和更有益的分析。组合多种数据类型可以补偿任何单一数据类型中丢失或不可靠的信息，并且指向同一结果的多种证据来源不太可能导致误报。仅当考虑到从基因组和转录组到生物环境的不同维度的信息时，才可能发现像人体这样的系统的完整模型。在这篇综述中，我们描述了数据集成的原理，并提供了目前用于集成生物医学数据的机器学习方法的分类法。我们讨论了当前的方法，这些方法的实现及其在生物学和医学中的成功应用。此外，我们讨论了最佳组合和解释来自多个来源的数据的挑战以及集成多种数据类型的优势。例如，一种技术可以解决另一种技术的缺点，以提供对人类疾病的更精确的洞察力。此外，我们提供了有关将来集成数据分析如何发展的观点。

2. Challenges in data integration for biology and medicine

当人们开发机器学习方法以整合生物医学数据时，就会出现一些挑战。生物和医学数据集的固有复杂性超出了其规模。生物医学数据集也是高维，不完整，有偏见，异构，动态和嘈杂的。我们在下面简要描述这些挑战。

生物医学数据通常是高维的但稀疏的。这与其他领域中的大型数据集（例如社交网络，计算机视觉和自然语言）形成对比，后者通常包含大量高质量的示例。一个典型的全基因组关联研究（GWAS）[11]基因型为每个个体提供了成千上万的单核苷酸多态性。但是，这些数据通常只能针对数量较少的具有特定表型的个体收集。此外，这些数据的稀疏性质，即每个多态性仅存在于少数所有个体中，这对下游分析应用提出了额外的挑战。将这些数据转换为具有生物学和临床意义的见解仍然是一项重大挑战。如果不整合其他类型的数据，例如路径或分子网络信息[12-14]，仅GWAS数据就很难确定与目标表型相关的有意义的模式。

另一个重要挑战来自生物医学数据通常不完整和有偏见的性质。这一挑战源于测量技术的局限性[15]，自然和物理约束[11,16]以及调查偏见[17]。例如，即使考虑跨生物体的信息，也只有几千个基因可以获得有关什么化合物与什么基因结合的信息[18]。此外，每个基因的相关化合物数量高度不均[19]，许多未表征的基因在药物作用中起重要作用[20]。此外，生物医学数据是按层次结构组织的，涵盖分子，途径，细胞，组织，器官，患者和人群[21-23]，并且还涵盖了广泛的时标和物种。显然，对生物学的全面理解需要多尺度建模，从描述分子的原子细节到有机种群的新兴特性。此外，当生物医学成果随时间变化时，整合成果的机器学习方法需要考虑到这些动态。例如，癌细胞，细菌和病毒迅速进化以获得耐药性[24]，而忽视药物反应的动态可能导致预测药物功效和毒性的性能下降。

生物医学数据科学中的一项基本挑战在于在现有知识领域之外发现新知识，例如，将药物反应从动物模型推算到人类患者身上。现有方法通常假定在其上训练了算法的数据集代表了可以对其应用算法的所有数据。然而，建立模型来预测例如抗癌药在给定患者中的功效是具有挑战性的，因为新患者可能是独特的并且可能不在训练后的模型的假设空间之内。由于生物医学数据集不完整并反映了迄今为止发现的科学知识，因此只能在这些部分完整的数据集上训练模型，因此当有新数据可用时，其性能可能会很差。由于这些原因，部署机器学习系统来支持对风险敏感的发现和临床实践中的决策尤其具有挑战性[25]，例如，该系统可能会根据特定患者对特定抗癌药物的效用做出相互矛盾的预测，具体取决于关于用于预测的输入数据的类型。总之，由于生物医学系统的复杂性和相互联系的性质，在任何单个数据集上训练的任何单个模型都只能接触到整个生物医学知识的一小部分。因此，至关重要的是整合各种信息源，以获得对生物学和医学的全面了解。

3. Conceptual organization of methods for data integration

我们将数据集成方法大致分为两种类型。我们将在空间和时间尺度上将模型和数据集结合起来的方法称为垂直数据集成，这取决于在几个时间尺度上对细胞，细胞类型，组织，生物和种群模型的集成[23,26,27]。相反，水平数据集成着重于在某一特定级别[28,29]，例如在微生物组[30]或表观基因组级别[2]上组合数据集和模型。从技术上讲，这些方法根据数据集成的分析阶段，实现了以下三种不同的数据集成方法之一[8,31–33]（Fig. 2）。早期集成（Fig. 2b）首先将所有数据集转换为单个基于特征的表或基于图形的表示形式，然后将其用作机器学习方法的输入。从理论上讲，这种方法非常强大，因为只要在分析之前不折叠单个数据集，机器学习方法就可以考虑特征之间的任何类型的依赖关系。早期的集成方法通常依赖于自动特征学习的方法，例如降维[34]和表示学习[35,36]，将原始的高维数据集投影到低维向量空间中，然后通过级联或组合这些低维表示。其他简单的汇总技术。
在这里插入图片描述
在后期集成中（Fig. 2d），将分别为每个数据集或数据类型建立一个第一级模型。然后，通过训练使用第一级模型的预测作为特征的第二级模型或通过获得多数表决或合并第一级模型的预测权重的元预测器[37]来组合这些第一级模型 [38,39]。

中间集成中（Fig. 2c），模型，例如多核学习[40,41]，集体矩阵分解[33,42,43]或深度神经网络[44,45]学习了许多数据集的联合表示。中间集成依赖于显式解决数据集多样性并通过联合模型推断将其融合的算法。重要的是，中间数据集成方法既不合并输入数据，也不为每个数据集开发单独的模型。相反，它旨在保留数据结构并仅在分析阶段合并它们。中间集成方法可以带来卓越的性能，但是它通常需要开发一种新算法，并且不能与现成的软件工具一起使用。

最后，数据集成方法可以生成各种类型的预测输出，类似于分析单个数据集的方法（Fig. 3）。特别感兴趣的一个领域是对生物医学实体（例如基因）的定量或分类性质（标记，例如基因功能）的预测。例如，许多研究整合了许多网络，包括蛋白质-蛋白质和遗传相互作用网络（现在可用于多种生物），以预测导致特定表型或具有特定功能的基因[46,47]（第8.1节））。除了预测单个实体的标签外，许多研究还旨在预测关系，即生物医学实体之间的分子相互作用，功能关联或因果关系。例如，多核学习方法可以结合从各种数据（例如药物的结构相似性，药物的表型相似性和靶标相似性）衍生的核仁，以预测药物与药物可能靶向的蛋白质之间的新关系[48]，即药物与靶标的相互作用（9.1节）。最后，存在数据集成方法来识别复杂的结构，例如在组合基因相互作用网络中检测到的基因模块或簇[49]（第8.2节），并生成结构化的输出，例如从混合数据分布推断出的基因调控网络[50]。 ]。
在这里插入图片描述
Fig. 3 数据整合。数据集成方法以统计上有意义的方式组合了多种信息源，以提供对生物医学数据的全面分析。广泛地说，现有方法使用三种不同的策略（即早期，中期和后期整合；另请参见Fig. 2），并产生三种类型的预测输出（即表示实体属于给定类别的概率的标签；一种关系）。表示两个实体之间关联的概率；以及复杂的结构，例如推断网络或将实体划分为组）。

4. Focus of this Review

这篇综述面向那些对机器学习在生物学和医学领域的最新发展和应用及其在发展生物医学方面的潜力感兴趣的计算研究人员，鉴于当今产生的大量异构数据。在本综述中，我们重点介绍用于数据集成的统计方法和机器学习方法。我们描述了整合方法的原理，并概述了用于解决各种生物医学问题的一些方法，实施这些分析的可用工具以及整合方法的各种优点和缺点。此外，我们重点介绍了使用新的机器学习方法进行探索所面临的挑战和机遇，并就整合方法在未来的发展方式提供了看法。一些评论从不同的角度介绍了相关的数据集成主题，或者特别关注了特定的生物医学问题。例如，Rider等人[51] 专注于网络推断的方法，特别关注概率方法。Bebek等人[52] 和Cowen等人[49] 着重于从多个生物数据集中构建和统计分析生物网络的方法，以及可视化工具。相关评论[8,53–55]调查了高通量技术和基于数据集成的转化医学方法的最新进展，并列出了领域科学家可用的工具。 Karczewski等[9] 描述数据集成的应用程序，这些应用程序将各种类型的数据组合在一起以了解，诊断和告知疾病的治疗方法。他们讨论了在诊所和个性化医学中实施整合方法的技术挑战。 Teschendorff等人[10] 用于从生物序列数据中得出推论的调查算法，重点是对基因组测序数据的统计分析。

在这篇综述中，我们调查了多个生物医学水平的数据集成的进展。我们根据从基因组水平到转录组水平，最终到表位水平的遗传信息流来组织演示文稿。这些级别之内和之间存在异构数据。我们从DNA序列水平开始，描述甲基化模式和其他表观遗传标记（第5和6部分），从单细胞水平的基因表达（第7部分），蛋白质变异和细胞表型（第8部分）着手，并达到患者人群水平（第9和10节）。最后，我们讨论了组合各种数据的潜力以及整合方法在人类健康和疾病中的核心作用（第11节）。

5. Epigenomic variation and gene regulation

6. Noncoding variant effects

7. Integrative single-cell analysis

8. Cellular phenotype and function

在过去的十年中，我们生成序列数据的能力一直在迅速提高，并且这种趋势可能会在下一个十年中持续下去（第5节）。这些序列中的绝大多数是功能未知的蛋白质，通过了解它们发挥的生物学作用，它们的价值可以大大提高。蛋白质功能的正确注释是在分子水平上了解生命的关键，并且对生物医学和药学都有重要意义。为了实现这一目标，大量的研究工作，如DNA元素百科全书(ENCODE) [1] (第五节)和基因型组织表达(GTEx)[186]项目，扩展了可用数据的广度，有助于预测蛋白质功能(Fig. 5)。
在这里插入图片描述
Fig.5 与基因功能预测相关的各种数据集的基于矩阵的表示形式。假设让我们考虑一个基因功能预测任务。在这里，功能是对细菌感染的反应[187]，这意味着任务是鉴定真核生物中确定该生物如何对细菌感染做出反应的基因。有多种多样的数据集可能与此任务相关，并且每个数据集通常用单独的数据矩阵表示。图中显示的示例包含六个数据矩阵，包括基因表型关联，基因表达谱，生物医学文献以及研究论文的注释。整合方法通过在这些看似完全不同的数据矩阵的不同输入维度之间建立严格的统计对应关系来解决基因功能预测任务[27,33,43,48,188-193]。例如，可以通过gene-publiction关系（即，给定研究论文中讨论的基因列表），然后通过publication-MeSH关系（即，分配给以下对象的MeSH概念列表），将基因链接到医学主题词（MeSH概念）给定的研究论文）。例如，[33]中的集体矩阵分解方法可以融合这种复杂的数据矩阵系统。该方法已被用于预测各种物种的基因功能[33,190]，随后被用于确定介导细菌感染的基因的优先顺序[194]。

蛋白质功能是描述涉及蛋白质的分子事件的生化和细胞方面的概念。蛋白质功能可分为三大类：

分子功能，例如酶催化的特定反应
生物过程，例如酶参与的代谢途径
系统或生理事件，例如该酶是否参与呼吸，光合作用或细胞信号传导。

人们还可以考虑第四层，即细胞成分，它描述了蛋白质在其中起作用的细胞区室，例如细胞膜和细胞器。蛋白质的功能也可以在空间和时间上变化，例如在月光下的蛋白质（即多任务蛋白质）的情况下。此外，许多蛋白质功能是通过相互作用的蛋白质组来执行的，并且可以预测这些相互作用。

大多数蛋白质在实验上表征不佳，我们对其功能知之甚少。此外，绝大多数具有已知功能的蛋白质均来自模型生物，但即使对于那些生物，其基因组中编码的所有蛋白质中仍有很大一部分仍需鉴定。例如，在大肠杆菌中，约4225种蛋白质中约有三分之一未作功能注释（即，“孤儿蛋白质”），类似的比例适用于酿酒酵母。

8.1. Protein function prediction

可以根据氨基酸序列相似性[195]，基因表达[196]，蛋白质-蛋白质相互作用[46,195,197]，代谢相互作用[198]，遗传相互作用[199]，进化关系[200]，3D推断蛋白质功能结构信息[201]，生物医学文本的挖掘[202]以及这些数据的任意组合。
在最基本的层面上，蛋白质功能预测方法可分为两类：

基于类似蛋白质共享相似功能的原理的无监督相似性方法
在基因本体论（GO）中使用蛋白质功能分类的监督方法

基于相似性的预测方法将功能未知的蛋白质与功能已知的蛋白质相关联。最简单，最常用的方法是使用序列相似性搜索。给定查询蛋白，相似性搜索程序（例如基本局部比对搜索工具（BLAST）[355]）会在序列数据库中扫描具有已知功能或结构的同源蛋白，并将其功能转移给查询蛋白。如果查询蛋白与功能已知的任何蛋白都不同源，则可以从头预测查询蛋白的功能。从头预测使用有关查询蛋白的各种信息来识别具有相同功能的所有蛋白之间共享的生物学特性（例如，具有相同功能的蛋白可能在相似条件下（例如在特定的人体组织中）相似地起作用。这些特性随后被用于选择功能转移到查询蛋白的蛋白[47]。例如，Zitnik和Zupan [15]，Cho等。 [204]开发了一种低维矩阵分解方法，将遗传相互作用网络与其他类型的基因-基因相似性网络相结合。这些方法使用网络来学习每种蛋白质的嵌入（即特征向量）。这是通过优化网络重建目标来实现的，假设每种蛋白质的嵌入都取决于蛋白质邻居在网络中的嵌入。然后将学习到的嵌入用作聚类算法的输入。许多矩阵分解[34]和张量分解[205]方法已被证明对蛋白质功能预测有用[206]。例如，Li等人[207]，Ou-Yang等人[208] 使用张量计算来组合许多加权共表达基因相似性网络。同样的方法也用于鉴定蛋白质复合物，即形成分子机制并共同执行特定功能的两种或多种蛋白质的组合[209,210]。同样，[22,211,212]使用贝叶斯潜在因子模型，并结合了基因表达，拷贝数变异（CNV）和甲基化数据来预测蛋白质功能。作为最后一个例子，许多方法旨在通过结合来自不同组织[22,23,213,214]或不同物种[215-220]的数据来了解蛋白质的功能。例如，OhmNet [23]在多层网络中组织107个人体组织，其中每一层代表一个组织特异性蛋白质-蛋白质相互作用网络。 OhmNet使用组织层次结构对网络层（即组织）之间的依赖关系进行建模，并开发了一种无监督的特征学习方法，然后通过考虑每层内的边缘（即，蛋白质-蛋白质相互作用）以及跨层边缘（即组织-组织相似性）。

如果存在具有特定功能的蛋白质的实例，则可以将它们用于鉴定具有相同功能的其他蛋白质。这是通过基因优先排序来实现的（Fig. 6）。给定一组功能未知的基因，基因优先级排序是根据它们与具有已知功能的基因（即种子基因）的相似性进行排序。排名最高的基因与种子基因最相似，因此可能具有与种子基因相同的功能。基因优先排序方法可以分为四类：

使用过滤技术独立分析每个数据集的相似性评分方法[221]
聚合来自不同数据集的基因特征向量的方法，例如通过级联，然后使用聚集的向量作为下游分类器的输入[222]
这些方法分别使用每个数据集来估计基因与种子基因的相似性，然后通过线性或非线性权重组合相似性评分[223–225]
这些方法可以为每个数据集构建一个独立的基因-基因相关网络，并在种子基因的监督下将这些网络进行组合[46,226]

功能预测的监督方法使用GO [203]中的蛋白质功能分类来指定监督预测任务。该任务为机器学习方法提出了四个有趣的挑战。

首先，蛋白质的功能被分类为40,000多个GO项，而这个庞大而复杂的空间对任何分类方法都构成了挑战。
其次，GO术语之间存在依赖关系，从而导致以下情况：蛋白质在GO中以不同的抽象级别（例如，细胞转运与细胞外氨基酸转运）分配给多种功能。
此外，蛋白质通常具有多种不同的功能，使功能预测固有地成为多标签，多类别的问题。
最后，高级生理功能（例如细胞间运输或心率调节）超出了简单的分子相互作用，并且需要许多蛋白质参与，因此通常无法通过单独考虑单个蛋白质来预测这些功能。

为了应对这些挑战，许多方法使用联合潜在因子模型[188,190]，多标签学习[46]和集成学习[38,216,233,234]。还开发了许多机器学习方法来集成调节网络和途径信息以预测功能模块，即功能相关蛋白的组[50,234–238]，这些方法仅隐式调用上述相似性原理。

另一个考虑因素是根据数据直接推断功能本体（即蛋白质功能的层次结构）[239,240]。例如，[239]使用分级网络社区检测算法以及酿酒酵母的蛋白质-蛋白质相互作用网络来推断其覆盖范围可与手动固化的GO注释相媲美的本体。另一种常见的方法是使用神经网络来预测蛋白质功能。例如，Zitnik和Leskovec [23]使用神经网络来预测组织特异性蛋白质功能，即在特定细胞类型，组织，器官或器官系统中发生的功能。使用神经网络的另一个例子是[241]，他使用深度学习来使用蛋白质序列数据，跨物种蛋白质-蛋白质相互作用网络以及蛋白质功能之间的GO层次关系来学习蛋白质嵌入。类似的，Ma等[242] 使用数百万种基因型来训练神经网络，其结构由GO层次结构决定。作为生物学应用的一个例子，马等人[242] 证明神经模型几乎可以像实验室实验一样精确地模拟细胞生长。

8.2. Protein-protein interaction prediction

研究细胞表型和功能的一种主要策略是分析蛋白质之间的物理相互作用网络。这些相互作用的蛋白质-蛋白质相互作用（PPI）网络执行细胞的核心功能，因为相互作用的蛋白质倾向于链接到相似的表型并参与相似的功能[17]。蛋白质间的相互作用还可以协调复杂的生物过程，包括信号传导和催化作用（Fig. 7）[49]。
在这里插入图片描述
Fig. 7 基于网络的细胞功能预测方法。生物网络是发现生物系统中相互作用和新兴特性的有力代表，范围从单细胞水平的细胞类型识别到患者水平的疾病治疗。生物网络的基本原理是，涉及相同细胞功能或相同表型的基因往往相互作用[49]。该原理已被多次使用，以结合和扩增来自单个基因的信号，并已导致生物学上的非凡发现。例如，基于网络的蛋白质功能预测方法[23,247–249]通常使用异质蛋白质-蛋白质相互作用网络，并在网络上进行大量随机游走，这些游走偏向于访问与特定功能相关的已知蛋白质。然后，这些方法会根据随机游走者访问网络中蛋白质节点的频率，计算出每种蛋白质的得分，以表示该蛋白质参与给定细胞功能的概率。

随着实验技术的发展，已识别的PPI的数量一直在增加[243]。但是，我们离PPI的完整知识及其在网络级别的表征还差得很远。由于其他类型的蛋白质数据（例如表示PPI的蛋白质序列和结构信息）的显着增加，因此预测PPI的计算方法最近已变得流行。

蛋白质可以与多种其他生物分子相互作用或共定位，并可以形成稳定的复合物。这些复合物可与DNA结合，改变基因表达，并改变细胞表型。Jansen等人的预测方法[244] 改进了基于下拉测定法的分析，该测定法通过实验发现了与输入蛋白质相互作用的蛋白质。但是，这些检测方法往往有噪声，而且往往不完整。为了解决这个问题，Jansen等人的方法[244]使用贝叶斯推论来对来自各种数据集的相互作用蛋白对以及转录组和必需信息进行查找，以找到完整的相互作用网络。另一个例子是ChromNet [245]，它使用表观基因组数据(epigenomic data)预测染色质相互作用蛋白（例如转录因子）中的PPI。通过确定存在于特定基因组区域的蛋白质之间的条件依赖性结构，可以做到这一点。在另一个例子中[246]，将来自各种人类和动物细胞与组织的9000多种质谱蛋白质相互作用数据集组合成人类蛋白质复合物的全面地图并预测PPI。有趣的是，组合地图显示了成千上万的PPI，而这些PPI未被任何单独的质谱实验所识别，从而证明了数据集成的价值。该分析是通过基于网络的蛋白质复合物发现管道完成的。计算管道首先使用所有输入数据集中的特征生成了一个集成的蛋白质相互作用网络。为了预测PPI，该方法训练了基于支持向量机（SVM）的蛋白质相互作用分类器。为了预测蛋白质复合物，该方法随后采用马尔可夫聚类算法制图，并相对于文献整理的蛋白质复合物训练集优化了聚类参数。

9. Computational pharmacology

计算药理学的目标是使用数据来预测并更好地理解药物如何影响人体，支持药物发现过程中的决策，改善临床实践并避免不良副作用（有关出色的综述，请参见[20,252]）。可以通过多种方式描述药物的性质及其与人体的相互作用，并在物理化学，药理学和表型水平上进行测量。可以测量药物的物理化学性质，例如化学结构，熔点或疏水性。人们还可以通过量化结合强度，动力学活性以及细胞状态或基因表达的变化来测量药物与其靶蛋白之间的相互作用。此外，人们可以使用表型数据，例如有关特定药物治疗的疾病，药物副作用以及药物与其他药物相互作用的信息。此类数据有助于进行数学表示，然后对其进行分析，以指导实验室中的药物发现和体内实验。

9.1. Drug-target interaction prediction

在最基本的水平上，药物通过与靶蛋白结合并影响其下游活性而对人体产生影响。因此，鉴定药物-靶标相互作用对于了解药物的关键特性（包括药物副作用，治疗机制和医学适应症）非常重要。传统的药物与靶标相互作用的预测方法是使用分子对接[253]，这种方法将3D建模和计算机仿真相结合，将候选药物对接在蛋白结合袋中，然后对两对相互作用的可能性进行评分。这种方法提供了对相互作用的结构性质的见解，但是，当靶蛋白的3D结构不可用时，分子对接的性能会受到限制。由于分子对接在计算上的要求很高，因此基于配体的方法[254]出现了作为药物靶相互作用预测的替代方法。基于配体的方法指定了一种化学性质的抽象模型，该模型被认为对与所选靶蛋白的相互作用很重要，然后针对该模型对候选药物进行比对和评分。但是，当所选的目标蛋白只有少量已知的结合配体且抽象模型的质量较低时，基于配体的方法效果不佳（表3）。
在这里插入图片描述
最近的许多努力集中在使用机器学习进行药物-靶标相互作用的预测。这些努力基于内关联原理，即相似药物倾向于共享相似靶蛋白，反之亦然。使用该原理，可以将预测转化为二分类任务，其目的是预测是否存在药物-靶标相互作用。这种简单的分类方法将已知的药物-靶标相互作用视为阳性标记，并使用药物的化学结构和靶蛋白的DNA序列作为输入特征（或内核）[255-257]。另外，许多方法将副作用信息整合到分类模型中，例如药物副作用[18,258]，基因表达谱[259]，药物-疾病关联[260]和基因的功能信息[261]。这样的数据为药物-靶标相互作用预测提供了多视图学习设置[262,263]。例如，[262]使用核化矩阵分解并组合多种类型的数据（即视图），每种数据类型被视为不同的核，以获得比单核方案更好的预测性能。另一种常见的方法是将多种类型的数据表示为异构网络（Fig. 8），并使用随机游走预测目标蛋白。这些方法使用扩散分布来计算网络中每个节点（蛋白质）的分数，以使分数反映蛋白质被特定药物靶向的可能性[260,264,265]。除了随机行走外，还可以使用元路径[266]从异构网络中提取药物和蛋白质特征向量，然后将它们输入分类器[267]。
在这里插入图片描述
Fig. 8 药物靶向和药物相互作用。药物和药物靶向的蛋白质的异构网络表示。除了相互作用信息（例如，药物相互作用，药物-蛋白质相互作用和蛋白质-蛋白质相互作用）（第8节）外，网络中的每个节点还具有一个特征向量，用于描述节点的重要生物学特性，例如药物的化学结构和蛋白在组织中的活性。此类网络用于解决计算药理学中的两个重要任务。首先是对药物-靶标相互作用的预测[19,260,264,265]，这是药物工作方式的基础，并且通常为计算药理学中的其他任务提供重要基础。第二个是对药物相互作用的预测[270,273–275]，这是建模药物组合和识别药物组合的基础，这些组合给出的组合反应超出了在没有相互作用下预期的响应，这是基础。 Zitnik等人[45] 使用异构网络（例如图中所示的网络），并开发一种图卷积深度网络方法来预测患者在同时服用多种药物时可能出现的副作用。

但是，手工设计的特征（例如元路径）通常需要专业知识和特征工程方面的大量工作，因此可能会阻止将方法缩放到大型数据集。由于这些原因，矩阵分解算法用于学习异构网络到潜在特征空间的最佳投影。学习得的潜在空间用于通过一系列矩阵运算来推断药物-靶标网络，而所得的药物-靶标网络则用于预测药物-靶标的相互作用[268]。经典矩阵分解的潜在局限性在于，它采用同构网络作为输入，因此需要将异构网络转化为同构网络，从而丢弃潜在有用的信息。通过多视图，集体和张量分解方法来预测药物-靶标相互作用，可以克服这一局限性[262,269,270]。除了使用矩阵分解（浅层特征学习算法）之外，还可以使用深度特征学习算法（例如深度自动编码器）[271]来集成药物相关信息。这些算法为数据集中的每种药物和蛋白质生成一个特征向量。利用学习到的药物和蛋白质特征，该方法可以找到从药物空间到蛋白质空间的最佳投影，从而使药物的投影特征向量在几何上接近这些药物靶向的蛋白质的特征向量[19]。学习预测是为了最大程度地减少药物-靶标相互作用的训练数据集上的预测误差[272]。经过模型训练后，该方法通过根据蛋白质在投影空间中与药物载体的几何接近度来对蛋白质进行排名，从而预测特定药物的目标蛋白质。

9.2. Drug-drug interaction and drug combination prediction

药物组合的使用是常见的治疗方法。许多患者同时服用多种药物来治疗复杂疾病或并存疾病[276]。药物组合由多种药物组成，每种药物通常已在患者群体中用作单一有效药物[277]。由于药物组合中的药物可以调节不同蛋白质的活性，因此药物组合可以通过克服潜在生物学过程中的冗余来提高治疗效果[278]。虽然使用多种药物可能是治疗多种疾病的良好实践，但对患者而言，药物组合的主要结果是副作用的风险要高得多，这可能是由于药物之间的相互作用所致[189,279]。之所以会出现这种副作用，是因为如果与另一种药物合用，一种药物的活性可能会发生变化。这意味着药物的组合会导致患者的过度反应，超出了我们在没有相互作用的情况下预期的反应。

药物相互作用是药物发现中的主要问题之一。很难手动识别它们，因为组合使用多种组合方式可以在临床上显示给定的药物组合，并且每种组合仅在特定的患者子集中有效。此外，实际上不可能测试所有可能的药物对[280]并在相对较小的临床测试中观察到副作用。鉴于药物数量众多，药物成对组合的实验筛选在成本和时间方面构成了巨大的挑战。例如，给定 $n$ 种药物，有 $n (n - 1) / 2$ 个成对药物组合和许多更高阶的组合。此外，在医疗保健系统中，有害的副作用被认为是一个日益严重的问题，影响了近15％的美国人口[281]。为了解决这种候选药物组合的爆炸式增长，人们开发了计算方法来识别可能相互作用的药物对[282]。

药物-药物相互作用是通过协同作用和拮抗作用的概念定义的[283,284]，并通过测量剂量效应曲线[285,286]或细胞生存力[280,287-292]进行生物学定量。计算方法使用这些测量值来确定可能相互作用的药物组合，最常见的是成对的药物。这些方法通过估计代表药物对相互作用的总体强度的分数来预测药物-药物相互作用。现有方法是基于分类或相似性的。基于分类的方法将药物相互作用的预测视为一个二元分类问题[280,288,290,292–294]。他们将已知的相互作用药物对用作阳性实例，将其他药物对用作阴性实例。该方法首先获得每个药物对的特征表示。例如，他们在每种数据类型上使用线性或非线性降维算法来推导每种药物的特征向量[290,295]，然后汇总各个药物的特征向量以获得药物对的集成特征向量。最后，这些方法在药物对的特征表示上训练二分类器，例如逻辑回归分类器，支持向量机或神经网络。相反，基于相似性的方法假设相似的药物具有相似的相互作用模式[33,252,287,289,296-298]。这些方法结合了在药物化学亚结构，结构相互作用指纹，药物副作用，脱靶副作用和分子靶点连通性方面定义的不同种类的药物-药物相似性度量。这些方法通过聚类或标签传播来汇总相似性度量，以预测新的药物相互作用[299-301]。

除了预测药物相互作用的机会，最近的方法还确定了给定药物对在患者人群中如何临床表现[45,302,303]。这些方法使用分子，药物和患者数据来预测与药物对相关的副作用。例如，Decagon [45]构建了蛋白质-蛋白质相互作用，药物-蛋白质相互作用和药物-药物相互作用的异构图（Fig. 8）。该方法在异构图中将每种类型的副作用表示为不同的边类型。 Decagon使用该图来开发图卷积神经网络（一种为图数据设计的神经网络[304]），以预测药物对的副作用。

9.3. Drug repurposing

药物再利用（也称为“药物重新定位”，Fig. 9）试图找到已知药物以及新分子的新用途。以下两个观察结果是药物再利用的基础。首先，许多药物具有多种靶蛋白[305]，因此多靶药物可能用于多个目的。其次，不同的疾病共享遗传因素，分子途径和症状[17,306]，因此，作用于这些重叠因素的药物可能有益于多种疾病。从总体上讲，药物再利用方法可分为四类：

蛋白质靶相互作用网络基础上预测现有药物新用途的方法[272,307-310]
通过分析各种药物治疗方案下的基因表达激活来做出预测的方法[311,312]
基于药物副作用进行预测的方法[313–316]
考虑各种疾病相似性和药物相似性措施的方法，每种方法都捕获了不同类型的生物医学知识[260,317–322]

在这里插入图片描述
Fig. 9 药物再利用。药物再利用利用计算方法来寻找现有药物的新用途[20,252]。给定某种疾病，任务是预测可能会治疗该疾病的药物（例如，在美国食品药品监督管理局批准使用的所有药物中）。药物再利用的综合方法包括基于相似性的方法[317]，网络方法[260,272,322]和矩阵分解[324]。

例如，[260,272,321,323]使用异质相似网络上的随机游走对给定疾病的候选药物进行排名。在另一个例子中，罗等人[321]设计了相似性度量来构建药物-药物相似性网络，疾病-疾病相似性网络和药物-疾病相互作用网络，然后使用随机游走预测医学适应症。该方法基于观察到相似药物用于治疗相似疾病的观察。同样，[317,318]的工作使用了多种类型的药物-药物和疾病-疾病相似性度量，并通过大利润率方法或逻辑回归将它们组合起来以解决药物利用的任务。

10. Disease subtyping and biomarker discovery

许多疾病的特征是患者之间极好的异质性。这包括许多常见的疾病，其中包括神经精神病和自身免疫性疾病（例如，自闭症谱系障碍（ASD），注意力缺陷多动症（ADHD），强迫症（OCD），关节炎，狼疮，慢性疲劳综合征（CFS））是最多样化的。这意味着在诊所出现的个人症状范围很广。例如，自闭症患者包括轻度行为挑战到无力说话的患者。关节炎会影响非常特殊的关节类型或全身性出现，影响多个器官和组织。对于许多常见疾病，存在可以临床区分的亚型分类（Fig. 10）。因此，治疗可能会受到该临床区别的指导。另一方面，例如癌症等疾病以给定器官（例如，肺，乳腺，胃等）中的实体团形式出现，临床上看起来相似，但是活检和随后的细胞分析表明这些团块可能会有很大的不同，给患者带来不同的风险和预测。一个很好的例子是乳腺癌，目前在临床上根据基因表达生物标志物区分出至少四种不同的亚型（Luminal A and B, Her2+, Triple Negative/Basal-like）。对乳腺癌的进一步研究表明，可能存在近十种亚型[325]甚至更多。因此，似乎在多种疾病之间存在临床和生物学异质性。癌症的情况告诉我们，疾病的临床和生物学亚分类可能会不一致，实际上，诊所中出现的乳腺癌患者的症状并不表示其分子亚型。
在这里插入图片描述
Fig. 10 疾病分型.许多疾病是异质的。疾病亚型根据临床，分子和其他类型的患者特征，将具有特定疾病的异类患者分为同质亚组，即亚型。将患者准确分为亚型是迈向个性化医学的重要一步，可以为临床决策和治疗匹配提供依据。

在计算上确定子类型提出了挑战。从理论上讲，对疾病进行亚型化意味着识别患者的同质亚组，即聚类，但是我们看到实际上，对不同类型的患者信息（临床数据与分子数据）进行聚类会导致不同的患者亚组。这种不一致不仅存在于分子和临床数据之间，而且还存在于分子亚型之间。例如，Cavalli等。 [326]表明，基因表达的聚类与髓母细胞瘤（脑癌）患者的甲基化导致不一致的亚组，这些亚组通过基因表达和甲基化的整合得以解决。另一个例子是多形性胶质母细胞瘤（GBM），这是一种非常具有侵略性的成年性脑癌。较早的将基因表达和拷贝数变异（CNV）结合起来的分析产生了两个亚型[327]，而后来主要由基因表达分析驱动的分析则产生了4个亚型[328]。有趣的是，尽管[328]中提供了甲基化数据，但它仅用于解释通过基因表达获得的簇，因此发现其信息不足。使用甲基化作为驱动信号的分析确定了一个非常突出且现已得到公认的IDH1亚型，该突变导致整个基因组中的甲基化程度较高，这对应于GBM患者的年轻人群，具有更好的临床预后。总而言之，独立分析每种分子数据类型会导致不一致的发现，难以合并。这些示例说明了数据集成对于识别子类型的重要性。确实，我们对患者的定义越完整，我们的亚型就越忠实，更希望与临床相关。

为了识别疾病亚型，已经开发了许多数据集成方法。最简单的常用方法是将所有可用数据类型连接起来，然后使用长连接向量对患者进行聚类。这种方法的问题在于，它完全忽略了每个数据集中存在的结构，从而进一步稀释了通常较弱的信号。避免此问题的另一种简单方法是集群分配（COCA），最初是为定义癌症基因组图谱（TCGA）乳腺癌患者队列中的子类而开发的[329]。COCA首先根据各个数据类型对患者进行聚类，然后将这些分配作为二矢量输入，并根据这些矢量重新分组患者，从而提供共识。这种分配的问题在于，它主要是由跨所有数据类型的公共信号驱动的，而不是利用可能由不同数据类型提供的补充信息。 TCGA使用此方法来整合五种数据类型，包括12种癌症类型的mRNA，DNA甲基化，反相蛋白阵列（RPPA），CNV和miRNA数据，它们成功地重新鉴定了大多数癌症类型[330]。然而，现实是，仅通过使用mRNA对这些样本进行聚类就可以获得非常相似的准确性。问题出在各种数据类型不一致的临界情况下。不幸的是，在大多数情况下，COCA并不是特别有用。

11. Challenges and future directions

在机器学习和生物医学数据集成的交汇处有很多机会。但是，同样也需要克服巨大的挑战。尤其是，孤立地，彼此独立地研究生物医学数据集的时代正在慢慢走向终结，寻找“垂头丧气的果实”（即，一个可以充分解释特征的单一变量）的简化派范式正在逐渐发展。不太普遍。仅在一种数据类型中执行所有分析可能会限制发现新的生物医学见解的潜力，这一认识促使人们开发了许多新的思想和方法来整合生物医学数据。但是，这些方法只是开始，对最佳设计的关键原理知之甚少。此外，针对许多生物医学问题的金标准方法，例如鉴定非编码DNA变异体（第6节），对单细胞进行多组学分析（第7节）以及对患者群体进行分层（第10节）等，都刚刚出现。此外，异构数据和新的机器学习方法的结合使我们能够从根本上提出新的生物医学问题。有许多方向可以应对这些挑战。在下文中，我们重点介绍了必须解决的突出问题和机遇，以充分实现机器学习在整合生物医学数据方面的潜力。

11.1. Combining mixed-technology data

不同技术产生的数据的结构和分布（例如，基于测序的技术与基于阵列的技术[340]产生的基因表达数据）可能会非常不同，因此将这些数据组合起来具有挑战性。因此，数据标准化是分析混合技术数据时必不可少的第一步。此外，存在大量不同的测定法（例如，表2和第7节），并且在下游分析之前适当地归一化从这些测定法得到的数据仍然是主要挑战。归一化很重要，因为它可以调整可能掩盖感兴趣信号的有害生物和技术噪声。例如，在单细胞转录组学中一种广泛使用的归一化策略是全局缩放[341]，该缩放通过将每个细胞内的基因表达测量值缩放一个恒定因子来消除特定于细胞的偏倚。通过使用下一代机器学习方法，将数据标准化方法向前推进的机会很多。例如，可以使用生成对抗网络（GAN）生成具有真实数据属性的数据，然后使用创建的数据对真实数据进行规范化。未来的方法可能包括综合策略（其中归一化是特定类型的分析所固有的）（例如[342]），以及通用工具，它们可以对数据进行归一化，然后将其用作任何下游分析的输入（例如[343- 345]）。

11.2. Multi-scale and higher-order approaches

计算生物学的主要目标是建立一个细胞的预测模型，该模型能够预测一系列表型并回答生物学问题。为了能够预测许多表型，而不是仅预测一种类型的结果，我们需要了解表型如何相互关联。在这里，多尺度模型开始发挥作用，因为单元在3D结构和功能上都以分层的方式进行组织[21]。类似地，如果只有一个人能够弄清楚如何正确组合这些测量结果，则细胞的高阶结构和功能可能会从许多分子测量结果和相互作用数据集中出现。细胞的多尺度预测模型是一个非常通用的框架，但是它是否可以捕获生物学复杂性的全部范围还有待观察。此外，尚不清楚如何将细胞模型组合或外推至生物体（即人类患者）的规模。细胞模型和生物模型之间的这种差距从根本上提出了必须最终解决的新挑战。而且，由于大多数当前机器学习模型的参数在训练模型后是固定的，因此这些模型与生物进化不兼容。已经采取了应对这些挑战的首要关键步骤。例如，多层图和网络图案理论的最新进展使我们能够研究例如基因调控网络的高阶组织[346,347]和生态系统的多层性质[26]。此外，这些挑战为下一代机器学习算法（例如基于深度表示学习和拓扑数据分析的算法）提供了极好的机会，以开发单元的多尺度[23]和高阶[348]模型，并最终开发出模型。人类的病人。

11.3. Interpretability and explainability

许多机器学习方法的黑匣子性质对生物医学应用提出了另一个挑战。从生物医学的角度很难解释这种方法的输出，这一挑战限制了方法在提供见解方面的效用。对于高级方法（例如深度神经网络）进行输入数据转换的方式尤其如此，这种方式可能难以确定每个特征的相对重要性或特征与结果是正相关还是负相关。理解黑箱预测是机器学习中的一个开放挑战，要特别注意如何解释特定模型如何将输入与其输出相关联[349-352]。迫切需要将黑盒方法转换为可以被打开并有意义地解释的白盒方法。可解释性在生物医学中的早期应用包括[353]，该方法集成了医院信息管理系统中的高保真度数据（例如，来自患者监护仪和麻醉机的数据，药物，实验室结果和电子病历）来预测风险术中低氧血症的发生，并解释导致该风险的患者和手术特定因素。 Ma等人以类似的方式。 [242]使用神经网络并将来自GO的先验生物学知识整合到神经模型[203]中。然后可以通过细胞系统的层次结构来解释特定的基因型与表型的关联，该层次被识别为神经激活图。

11.4. Integration of self-reported, lifestyle, and ecological data

尽管近年来产生基因组数据的成本和速度已大大降低，但表型数据收集（即单个生物体或个体的所有表型信息的集合，请参见第10节）的进步仍未跟上步伐。为了开始解决表型学的挑战，需要进行新的研究以促进广泛和深入的表型研究，并在最大程度减少个人负担的同时最大程度地利用收集到的数据。尽管研究传统上将医疗记录用作有关医疗状况的黄金标准信息，但新兴研究认为互联网和移动技术是对大量人群进行广泛表型分析的可行方法。

快速。例如，Tung等。 [354]仅使用一个小组，就在大约12个月内评估了20,000多人的50种表型，例如克罗恩病，炎性肠病和糖尿病。新兴研究表明，将这些自我报告的数据与有关个体的基因组信息结合在一起的价值。例如，Hu等。 [11]对自我报告的早晨（即早晨的人更喜欢早起和休息）进行了全基因组关联分析，然后使用生物学途径分析了新发现的遗传变异。与之类似，海德（Hyde）等人[16] 最近，他们使用了超过300,000个人的自我报告数据，并将其与全基因组关联研究相结合，以鉴定与抑郁症相关的遗传变异。此外，将其他类型的生活方式和生态数据以及分子信息整合在一起，具有揭示新的生物学机制的巨大潜力。例如，Smits等人[30] 是该领域的早期工作，将人类肠道微生物组数据与生活方式信息结合在一起。综合数据显示，不同季节之间的肠道微生物群落差异显着，这取决于不同类型食物的季节性供应。

12. Conclusion

机器学习已成为现代生物医学研究不可或缺的一部分。重要的是，已经出现了可以整合来自许多不同生物医学数据集的数据的方法。这些方法旨在弥合我们产生大量数据的能力与我们对生物医学系统的理解之间的差距，从而反映出生物学的复杂性。机器学习的不断发展的方法学发展和新兴应用为生物医学数据集成带来了令人兴奋的未来，尽管很可能没有一种方法能够对所有问题都表现最佳。因此，需要根据领域特定模型的不同类型，数据的特定类型以及生物医学结果的不同类型来选择方法。在这篇评论中，我们描述了当前可以执行以执行强大的综合分析的各种方法。随着集成方法的日益普及，系统生物学和系统医学可能会成为产生生物学和医学新知识的中央计算策略。