综述机器学习方法从基因组到网络再到解码疾病的应用

最新推荐文章于 2024-07-15 03:47:06 发布

GenomicAI

最新推荐文章于 2024-07-15 03:47:06 发布

阅读量1.5k

点赞数

分类专栏： AI疾病模型文章标签：机器学习人工智能

本文链接：https://blog.csdn.net/weixin_42606085/article/details/121298243

版权

AI疾病模型专栏收录该内容

2 篇文章

订阅专栏

最近，普林斯顿大学研究组在《Nature Reviews Genetics》上发表了一篇文章题目为“Decoding disease: from genomes to networks to phenotypes"的综述。

解释遗传变异的影响是理解个体对疾病的易感性以及设计个性化治疗方法的关键。

综合利用实验技术产生的大量的人类基因组序列数据和相关的分子表型、基因组表达、表观基因组学等相关数据，理解变异的影响，阐明异常调控基因对特定疾病和组织环境中生物途径的影响，并解释疾病风险成为了可能。

该综述，分析了机器学习算法对基因组解释和整合了分子水平上关于细胞、组织、器官与疾病关联的建模的最新进展。

遗传密码指导我们对外显子序列编码区疾病相关突变的解释，这些突变可以破蛋白质的编码和功能。

然而，大多数与疾病相关的变异位于人类基因组非编码部分的外显子外，占DNA的99%，而且没有统一的方法来解码它们的影响。

基于深度学习序列模型，通过建模非编码序列和影响基因调控的属性之间的关系，如染色质修饰、DNA可及性和转录因子（TF）结合，来预测基因组非编码部分变异的影响，检测常见和罕见的人类基因组变异。

变异是通过靶向的基因测序（例如，与癌症相关的基因 panels），或对整个外显子组或全基因组的测序来发现的。

全基因组关联研究（GWAS）中的全群体抽样是使用单核苷酸多态性（SNP）基因分型阵列完成的，该芯片是具有基因组中100万个常见变异位置的~探针的芯片。有了这些信息，可以使用种群参考序列单倍型作为指导来推断更多的位置的序列。

定量遗传学研究清楚地表明，大多数复杂的人类疾病涉及多个基因变异，但仍然有一个“缺失遗传力”问题：只有总遗传力的一小部分可以用GWAS识别的疾病相关变异来解释。
即使这些研究获得了更多的能力来检测关联。许多研究表明，许多遗传力可以用许多变异的累积弱效应来解释，其中许多变异低于关联的统计学意义。

有多少具有弱效应的基因组区域会影响疾病易感性的问题引发了“全基因组”模型等理论，在该模型中，疾病相关组织中表达的任何基因都可以通过复杂的相互作用影响核心疾病基因，从而影响疾病风险。

1. 编码突变的解释

多种类型的证据，如蛋白质序列的改变类型（错义、无义或移码），参考氨基酸和替换氨基酸之间的相似程度，改变位置的进化保守性和预测生物物理对蛋白质结构的影响可能有助于理解基因组的编码部分。已经开发了大量的方法来利用这些因素来预测编码突变的影响。

有一类方法主要依赖于序列保守性来预测变异效应。例如，SIFT（从耐受性排序不耐受性）采用一种基于保守的方法来预测变异效果，前提是，如果一个氨基酸在一个蛋白质家族成员中年高度保守，它很可能是必要的，而如果在该位置可以容忍更多的变化，那么一个改变就不太可能产生很大的影响。

预测编码变异影响的另一类关键特征涉及蛋白质结构预测。

其中一个例子是VIPUR（使用Rosetta进行变异解释和预测）框架，它包含了蛋白质结构模型来预测变异效果，而不是简单的确定如何有害的突变，VIPUR使用蛋白质结构模型来预测变异的精确影响（例如，蛋白质的活性部位是否被破坏，蛋白质的稳定性是否改变或蛋白质折叠是否改变或蛋白质折叠是否可能被破坏）。

Pertlnlnt明确地将结构信息与小分子结合信息整合，以预测蛋白质变异对RNA、肽、离子和药物结合的结构影响。

最后，有许多框架整合了特性类型的组合来生成一个反映突变对各种序列和蛋白质特性的影响的总体预测。这种方法的一个例子是PolyPhen-2(多态性表型v2），它使用基于序列和基于结构的特征组合来预测编码变体的影响，后使用一个朴素的贝叶斯分类器来预测来自单个特征的变化的整体影响。

CADD和Eigen是另外两个广泛使用机器学习的框架，它们集成了大量的特征类型，以预测编码和非编码变体的影响。理解编码遗传变异影响的模型在识别导致人类疾病的等位基因方法发挥了关键作用。

2. 建模转录影响

由于只有人类基因组的一小部分是编码蛋白质的，而且大多数变异位于基因组的非编码部分，因此开发能够解决理解非编码变异的影响的方法是一个关键的挑战。

可以建模非编码序列和影响基因调控的特性之间的关系的方法，如染色质修饰、DNA可及性和转录因子结合，可以用于预测基因组非编码部分变异的影响。

这些工作的关键是收集了大量一系列细胞类型和组织中染色质调节因子的全基因组图谱数据，使方法能够预测即使在初级组织中变异的影响。

仅基于序列预测变异效应的模型的一个优势是，它们能够预测罕见和常见的基因改变的分子和疾病的影响，甚至从未观察到（或尚未观察到）的突变。这是一个重要的特征，因为独特和罕见的变异正在迅速被发现。

精准医疗跨组学（TOPMed）联盟最近的一篇论文在>53000个新测序的全基因组中确定了4亿个不同的碱基。几乎所有的变异都以低等位基因频率存在（<1%)，46%只存在于一个个体中86，这使得由于缺乏能力，任何统计关联研究都无法将SNP和疾病联系起来。

一些框架使用传统的监督机器学习算法来预测非编码突变的影响。
最近，使用基于深度学习的框架在这类预测问题上取得了成功，该框架利用这些属性上的基因组规模数据来生成基于序列的预测模型。对序列模型，CNN以原始DNA序列作为输入，并在不断增加的基因组尺度下建模调控和表观基因组元件，而不需要人工选择特征。直观地说，连续层中的节点可以建模的单个基序、基序组、调控区域和跨调控区域的关系。

建模转录后特性的变异，如与RNA结合蛋白的相互作用或剪接，也可能导致疾病风险。基于序列的深度学习模型可用于预测特定变异的精确转录后效应，包括同义突变的调控效应。

一个关键任务是预测影响剪接的变异的影响，各种创新的方法利用剪接的分子机制来检测剪接事件。例如，深度剪接和剪接Rover框架使用CNN模型从序列中预测剪接连接。

The Deep Splicing Code框架训练了多个深度学习模型来进行不同的预测任务，包括识别一个外显子是否可选的5‘或3’剪接位点和确定一个外显子是构成性的还是选择性的剪接的。深度学习模型也被用于推断内含子RNA剪接分支点。

一个更广泛的目标是预测多种的转录后调控后果，不仅包括剪接，还包括与tRNAs和microRNA等RNA结合蛋白的相互作用，RNA结构、稳定性和翻译效率。值得注意的是，使用CNN框架的基于序列的RNA-蛋白质相互作用模型已经被开发出来，用于从头非编码变异效应预测。

3、解密致病性变异效应

为了破译一种变异在促进疾病过程中的重要性，超越生化效应，了解疾病的影响和最终的临床结果是至关重要的。

一些数据资源汇集了关于变异影响的当前知识。例如，ClinVar数据库是一个公共资源从NIH，迄今汇编信息>800000基因变异注释多种疾病和不同层次的临床意义使用文献文档证据和小组审查表明每个注释的置信度
商业人类基因突变数据库（HGMD）是一个超过275000个变异，来自自己发表的遗传变异和人类疾病之间的关联。综合和获取关于致病变异的当前知识状况，这类数据库为解释遗传数据提供了宝贵的资源。

考虑到深度学习模型预测的变异的调控结果，机器学习方法可以训练具有相关表型后果的示例变异来预测每个变异在表型水平上的有害程度。

4、集成网络模型

虽然序列模型可以预测突变的分子效应，包括对组织特异性基因表达，但解释这些改变如何导致疾病表型需要了解失调的信号通路和过程。

最近的研究试图解释，即使是具有弱影响的常见变异如何仍然可以增加疾病易感性，理论上提出了一个“全基因模型”，在该模型中，在疾病相关组织中表达的任何基因都可以通过基因之间的相互作用来影响核心疾病基因，这些相互作用在过程、通路和更大的网络中共同发挥作用。

因此，要了解基因突变的分子效应如何影响疾病，就需要在健康或疾病状态下的各种组织中活跃的细胞网络和通路模型。不同的功能基因组数据，包括基因表达和蛋白质组学，提供了一个窗口，了解不同背景下生物分子之间基因组规模的相互作用。

从这些数据中推断准确的模型是具有挑战性的，因为这些数据是在异构数据模式、实验设计和技术平台上产生的。此外，该模型必须捕获跨细胞类型和生理条件的共享和独特的过程。需要复杂的计算技术来从原始数据集中提取上下文特定的生物关系。结合不同数据源的综合方法可以识别跨生物和环境背景的细胞基因组规模功能图。而个别实验的生物学相关性和信号不同，但通过作为一个整体分析收集的数据，微弱但反复出现的信号可以被放大。

这些方法部署各种机器学习技术来总结大量的人类组学数据（转录组、蛋白质-蛋白质相互作用和序列基序）到特定于生物背景的基因相互作用网络中。

在这些全基因组网络中，节点代表了基因，而边缘反映了两个基因参与相似生物过程的预测置信度。这些网络可以提供一个系统级的视图和特定的实验可验证的基因功能和相互作用假设。

上下文特异性网络可以直接从基因表达谱的相关性，或通过将全局蛋白质-蛋白质相互作用网络与疾病或组织特异性基因表达结合构建。然而，这些方法受到组织表达谱数据的可用性和质量的限制。这对于许多人类组织和细胞类型来说仍然具有挑战性，甚至不可行。

最近的方法通过应用机器学习从大量的基因组数据中预测组织特异性的功能相互作用来解释这些限制。

例如，组织基因网络全基因组综合分析使用正则化贝叶斯分类器，通过相关组织信息评估和加权每个数据集来预测100多种组织和细胞类型的网络。该方法可以预测组织特异性基因组规模数据很少的组织中的基因-基因相互作用。有团队评估了21个人类交互网络预测疾病基因的能力，发现在PahtDB、GIANT和STRING一致的，总体表现最好。

5、定量遗传学数据的网络分析

基于网络的机器学习方法可用于利用先验的实验知识，并改进对大规模定量遗传学研究或个体有针对性的疾病特异性研究的解释。

直观地说，这些方法利用这些网络中编码的通路的功能基因组信息来增加遗传学研究中的信噪比。非编码调控变异可以与假定的靶基因相关联，然后这些靶基因可以进行基于网络的分析。

一种方法是根据网络中的信息，反映在数千个生物实验中封装的基因之间的关系，重新确定GWAS命中的优先级，总的来说，这些方法基于GWAS优先排序基因的行为来识别疾病特异性的连接模式，并根据这些模式重新对所有基因进行优先排序。

重要的是，这些方法是由发现驱动的，在重新优先排序时不依赖于先前基于文献的知识；相反，它们使用了来自以疾病为重点的GWAS项目的全基因组信息。

例如NetWAS（网络关联研究）框架是一种机器学习方法，它将输入边际显著GWAS命中作为阳性和低排名基因作为阴性，并使用组织特异性网络边缘权重（疾病相关组织）作为支持向量机分类器中的特征集，以重新确定候选基因的优先级。

最近的一种NetWAS2.0方法还包括一个子采样程序，以对与其GWAS P值成比例的给负样本设置权重。另一种方法，Camoco（分子成分的共分析），使用共表达网络来识别在实验分析中共享相似表达模式的GWAS命中，发现使用组织相关的共表达数据集构建的网络显示出最好的性能。

基于网络的方法还可以直接使用来自患者基因组测序的突变数据来识别与疾病显著相关的基因和通路。例如，一种基于网络的方法被用来评估遗传性可塑性增生异常患者的潜在疾病基因突变，并预测其他候选疾病基因。

另一种方法是网络-邻居差异富集分析(NDEA)，利用功能网络来增强富集分析的能力；在自闭症谱系障碍中，NDEA基于大脑特异性网络邻居的概率特异性突变负担确定了与自闭症显著相关的通路。

还有一种方法旨在通过将突变数据叠加到分子网络上来识别癌症基因和通路。这些方法，如NetSig169，是基于这样的观察，即尽管许多基因携带特定的肿瘤谱中的基因改变，但这些基因中只有少数是癌症驱动因素。这些驱动基因很可能在多个肿瘤中共享的生物过程和途径中发挥作用。通过检测基因网络中突变基因的连通性，有可能识别具有更大突变负担的子网络，从而增加检测癌症驱动因素并阐明其功能影响的能力。

总结和展望

人类遗传学的目标是将基因型与表型联系起来，这对于非编码基因组的变异来说尤其具有挑战性。一类新兴的方法使用深度神经网络训练了大量转录因子结合和染色质修饰数据的深度神经网络来预测非编码变异的生化影响。

这些预测，实际上，就像在硅ChIP-seq分析中的功能，可以进一步与基因表达等特性联系起来。

至关重要的是，基于序列的深度学习方法可以预测罕见或从未见的变异的影响，这些变异可能通过更多的测序被发现，提供了无法从大型基因组数据库的表型关联研究中学习的信息。

深度学习方法的改进，包括开发更多可解释的模型，以及提高训练表观遗传数据的质量和覆盖率，很可能导致理解非编码基因组的进一步进展。

理解人类疾病过程的另一个关键方向涉及在与疾病相关的生物环境中开发网络和途径模型，包括特定的细胞类型、发育阶段和环境条件。识别与特定疾病最相关的基因、模块和通路，以及阐明网络扰动和失调如何导致疾病，是研究的一个重要方向。

这种模型的准确性和疾病相关性可以通过考虑网络布线中的组织差异来提高，这可以包括理解特定细胞类型和器官系统的疾病过程的关键差异。

通过联盟的努力越来越获得大型跨组织数据集，但额外的数据，特别是单细胞分辨率的数据，对于提高这些模型的分辨率和准确性具有非常高的价值。