Methods of integrating data to uncover genotype–phenotype interactions 翻译

微笑

整合数据以揭示基因型 - 表型相互作用的方法

(随便翻译,主要看对数据整合分类的介绍)


摘要

最近的技术进步已经扩大了从全基因组测序数据到广泛的转录组学,甲基化和代谢组学数据的可用组学数据的广度。这些数据分析的一个关键目标是确定预测表型性状和结果的有效模型,阐明重要的生物标记,并对复杂性状遗传的遗传基础形成重要见解。仍然需要强大而先进的分析策略来充分利用这些全面的高吞吐量数据的效用,找出真正的关联并减少错误关联的数量。在这篇综述中,我们探索了新兴的数据整合方法 - 包括元维和多阶段分析 - 旨在加深我们对遗传学和基因组学在复杂结果中作用的理解。随着这些方法的使用和进一步发展,可以揭示基因组变异与人类表型之间关系的改进的理解。

了解复杂性状的遗传基础一直是许多研究人员的追求。在包括DNA序列数据,RNA表达水平甲基化模式,其他表观遗传学标记,蛋白质组学和代谢组学(图1)在内的多个生物系统数据生成技术的进步已经驱动了过去十年的翻译生物信息学领域,随着研究人员努力开发补充分析工具,数据量不断增加。除了从全血或特定组织样本产生这些数据外,从单个细胞产生这些数据的能力正在迅速推进。

已经开发了各种分析方法来鉴定复杂性状的基因变异。例如,DNA序列变异可以通过基于家族的数据中的连锁分析和通过基于家庭和人群的数据的关联性研究来确定。此外,表型结果与其他高通量组学测量(如基因表达(使用微阵列和RNA测序(RNA-seq)),表观遗传变异(通过甲基化阵列,甲基化测序或染色质免疫沉淀,然后测序) (ChIP-seq))和蛋白质变异(以各种方式在代谢组学或蛋白质组学研究中测定) - 现在进行常规探索。历史上,每种类型的数据都被独立地考虑来寻找与生物过程的关系,并且使用这些方法,我们已经汇集了复杂性状遗传结构和基本生物途径的一些难题。然而,复杂性状和生物网络的许多遗传病因学仍然是无法解释的,这可能部分归因于对限制性单数据类型研究设计的关注。

由于我们对这种单数据类型方法的许多复杂特性的理解有限,元维分析和多阶段分析(即系统基因组学方法)越来越多地被使用。 如前所述,与仅使用单一数据类型的分析相比,系统基因组学方法可以实现对基因型 - 表型关联的更彻底和信息性的询问。 结合多种数据类型可以弥补任何单一数据类型中缺失或不可靠的信息,并且指向同一基因或途径的多个证据来源不太可能导致误报。 重要的是,如果在分析中考虑不同水平的遗传,基因组和蛋白质组学调控,则只有在完整的生物模型中才有可能被发现。

在这篇综述中,我们描述了多维分析和多阶段分析的原则,并概述了用于预测给定量化或分类结果的一些方法,可用于实施这些分析的工具以及方法的各种优势和弱点。另外,我们描述了这种数据集所带来的分析挑战,并提供了我们对这些系统基因组分析如何在未来可能发展的观点。

为什么整合数据?

数据整合可以有很多意义。然而,在本次审查中,我们用它来表示不同类型的统计数据被合并为预测变量的过程,从而可以对复杂的特征或表型进行更全面和更全面的建模 - 这可能是精细的相互作用通过识别更多的信息模型,在各种管理层面上进行生物变异。目前正在出现数据集成方法,旨在缩小我们产生大量数据的能力与我们对生物学的理解之间的差距,从而反映生物系统的复杂性。综合数据分析背后的主要动机是确定关键的基因组因素,重要的是它们的相互作用,解释或预测疾病风险或其他生物学结果。在理解复杂表型的遗传和基因组结构方面的成功一直是适度的,这可能是由于我们对基因组,转录组,代谢组等之间的相互作用的有限探索。数据整合可以提供改进的能力来识别重要的基因组因子及其相互作用(框1)。此外,模拟DNA变异,基因表达,甲基化,代谢物和蛋白质的复杂性和相互作用可能会提高我们对复杂性状结构的机制或因果关系的理解。数据集成有两种主要的方法:一个是多阶段分析,其涉及使用逐步或分层分析方法来整合信息;另一个是元维分析,它指的是整合多个不同数据类型以构建与给定结果相关联的多变量模型的概念。

数据整合将使我们能够探索新的科学问题,尽管将所有这些数据类型组合成更完整的生物故事是非常具有挑战性的。 特别是数据集大小的差异不同数据类型中缺失数据和噪声的模式以及来自不同技术的测量之间的对应性和相关性可能造成实质性挑战。 已经开发了许多综合数据的方法,各有优缺点,没有单一的分析方法对于所有研究都是最佳的。 因此,全面而深入的分析“工具箱”将成为发现和解释生物学复杂性的重要因素。

挑战个人数据集

个别数据类型有独特的挑战,在实施多阶段或元维度分析之前考虑这些是非常重要的。 其中包括数据质量,数据规模或维度,以及数据的潜在混淆(见下文)。 如果这些问题没有针对每个单独的数据类型进行处理,那么当数据类型被集成时可能会导致问题。 在整合之前仔细评估每种数据类型对于避免分析的下游问题是重要的。 另外,数据生成的快速发展需要计算系统的计算能力和存储能力的显着提高。 正在探索从开源到商业软件包的许多方法和策略来存储和跟踪这些数据。

质量保证和质量控制。过去,对于更有限的数据收集,数据质量可以在个别数据点的水平上进行评估。例如,使用TaqMan等低通量检测的基因分型将由实验室通过评估每个单核苷酸多态性(SNP)纯合子和杂合子样品的基因型簇进行评估,以确定SNP是否具有高质量以及是否存在是与数据集的其余部分没有良好集群的任何样本。然而,由于高通量数据的大规模性,单独的数据检查是不可行的,研究人员往往依靠统计数据和广泛的数据概述。例如,电子病历和基因组学(eMERGE)和基因环境关联研究(GENEVA)网络等全基因组SNP数据已经建立和实施了一些质量控制管道。类似地,DNA测序,RNA-seq和全基因组甲基化分析方法具有必须在分析之前实施的特定和关键的质量控制步骤。这些包括寻找个体基因组变量的质量,基因组变量或样品的样品完整性和分布评估,就临床或表型数据集中的变量而言。需要对SNP或DNA序列数据进行这些评估,这些数据与RNA-seq数据或代谢组数据分开,将确保高质量数据的整合。在决定在数据集成之前如何严格地执行质量控制检查时,会想到“垃圾进入,垃圾进出”这个短语。为确保高质量的结果,目标是从高质量的数据开始。

数据减少。数据缩减可用于限制单个数据集中评估的变量数量,但也可用作跨多个数据类型执行分析的初始步骤。例如,当考虑具有大量自变量和大量少量样本的数据时,统计功效可能非常有限。尽管研究者通常试图在关联,相关性或模型分析之前进行某种形式的数据缩减,但可以实施交叉验证和排列测试等几种分析策略来解决这个问题。通过某种类型的过滤策略(参见下文)减少数据量,有助于对更小,更精确的数据子集进行数据集成分析。这可以导致更有效的计算,并可能减少多重假设测试的负担。此外,当在单个数据集内探索数百万个测量数据时,特别是对于包含交互的复杂模型,通常需要一定程度的数据缩减来分析单个数据类型,以及跨多个数据类型进行综合分析。例如,如果探索具有多个变量的模型(例如SNP-SNP相互作用模型或结合多个基因表达变量用于结果预测的模型),则由于计算时间,记忆和样本,数据的全部维度通常不能被建模大小考虑。考虑一个数据集包含500万个SNP的例子。以详尽的方式计算SNP组合的统计量导致模型及其相应计算时间的组合增加。如果我们构建所有可能的成对模型(通过一次选择500万个变量中的2个并构建所有可能的双变量模型,然后重复不同的变量直到所有组合已经被评估(称为“500万个选择2”) ),我们有1.25×1013的成对模型进行评估;这个数字随着模型中变量的数量的增加而急剧上升。例如,计算包含3个变量的所有统计模型将导致2.09×1019个模型进行测试。以每秒100万个模型的计算速率,在这个例子中执行所有的2变量模型需要超过3,400小时,并且执行所有的3变量模型超过5.7×109个小时。即使使用比传统计算处理器快得多的大型GPU(图形处理单元)集群,这些计算时间也达到了实用性的极限。

通过过滤和数据挖掘来减少数据既可以是外在的(即使用数据集本身的外部信息),也可以是内在的(即使用数据集和一些分析技术进行过滤)。外在方法使用先验知识

在生物过滤器等公共领域可以使用,而内在方法则使用ReliefF,卡方统计,主成分分析(PCA),因子分析和遗传算法等方法。 SNP的内在过滤的一个例子是使用连锁不平衡(LD)模式来减少SNP的数量,从而关注较少数量的变量。外在过滤的一个例子是在研究自身免疫性状时,过滤基因表达数据集,仅用于基因表达与已知与免疫系统有关系的基因表达。外在过滤的一个限制是我们只知道我们所知道的东西,因此外在数据的缩减因此受到信息用于指导数据缩减时的领域知识的限制。然而,内在过滤可能会消除生物学重要的特征。在一些分析中,可以执行内在和外在过滤的组合。例如,对于500万个SNP,研究人员可以对每个SNP执行关联的卡方检验,并且仅保留那些基于选择的P值阈值的重要的检测,并且还可以基于Biofilter注释来选择所有生物相关的变体。

所选数据缩减方法的本质将推动可以进行测试的假设。例如,有两个主要的分子变异假说可以解释由此产生的复杂性状(图2)。主要的范例是DNA水平的变化会导致基因表达的变化,导致蛋白质表达的变化,最后是表型的改变 - 这是疾病病因的基本线性假设(假设A)。如果假设A被考虑,那么按照类型或规模对数据进行分层,并在进一步数据整合之前进行初步分析,这是最有力的,易于实施和可解释的方法。例如,这将涉及首先将SNP数据的量减少为仅包括与特定结果相关的那些SNP,然后将蛋白质组数据的量限制为仅与那些与结果相关的蛋白质组变量,然后一起分析SNP和蛋白质组数据。假设B是另一种可能性,其中多个水平的分子变异以非线性,交互和复杂的方式对疾病风险起作用。如果假设B被考虑,那么按照数据类型进行分层以进行数据缩减并随后执行分析将会抑制检测真实模型的能力;因此,在数据缩减之前结合多组学数据集的另一种数据缩减方法将更为合适。例如,来自拷贝数变异,甲基化和微小RNA(miRNA)的数据可以通过ReliefF合并然后减少;然后可以分析所得到的过滤数据组与特定结果或表型的关联。

混杂。混杂是数据整合的另一个挑战(与其他一些基因组学和蛋白质组学分析一样),可能会导致虚假的关联和发现的解释。当独立变量与另一个独立变量和因变量相关联时,发生混杂;它可能因遗传,环境,人口或其他技术因素而发生。例如,人口分层是遗传关联研究中可能出现的混杂类型。已经开发了几种处理人口分层的方法,包括混合模型方法和PCA。已经引入了替代变量分析作为精确捕捉分子变量(例如基因表达)的变化与其他变量的变化之间的关系并克服异质性和混杂性的潜在问题的策略。混杂的证据需要在进行全面的数据整合分析之前加以解决。

数据集成概述

数据集成方法可以大致分为两种方法。 在多阶段分析中,一次只用两种不同的尺度构建模型,以逐步,线性或分层的方式进行。 按比例,我们指的是数据的数值和分类特征,例如,SNP变量和基因表达变量,其具有表达水平的连续值或表示过度表达或表达不足的基因的分类变量。 这种方法反映了图2的假设A. 元维分析或尺度融合是一种将所有尺度的数据同时组合的方法,用不同数据类型的多个变量来识别复杂的元维模型。 这种方法反映了图2的假设B. 有几种类型的分析和软件工具可以用来实现多阶段分析和元维分析(表1)。

数据整合:多阶段分析

顾名思义,多阶段分析旨在将数据分析分为多个步骤,信号分析的每一步都是丰富的。 多阶段方法的主要目标是将分析分成多个步骤,首先在不同的数据类型之间找到关联,然后在数据类型和感兴趣的特征或表型之间找到关联。 多阶段分析的例子显示在图3中。 如下所述。

基因组变异分析方法。 到目前为止,最常用的基因组变异整合技术是三阶段或三角形方法。 在三角形方法中,采取以下步骤。

1. SNP与表型相关联,并基于全基因组显着性阈值过滤。

2.从步骤1中认定重要的SNP然后测试与另一级组学数据的关联。 例如,一种选择是寻找SNP与基因表达水平的关联。 这些SNPs被称为表达数量性状基因座(eQTLs)。 可选地,甲基化QTLs(mQTLs;与DNA甲基化水平相关的SNP),代谢物QTL(与代谢物水平相关的SNP)和蛋白质QTLs(pQTLs;与蛋白质水平相关的SNP或其他分子性状, 编码RNA和miRNA)可以被使用。

3.然后测试步骤2中使用的Omic数据与感兴趣的表型的相关性。

可以使用不同的分析方法来实现这种三角形方法,包括线性或逻辑回归(分别取决于连续或二元因变量)。这种方法的基本原理是基于图2的假设A,其中遗传变异是所有其他分子变异的基础。例如,三角形方法已经用于HapMap细胞系中化学治疗药物应答的研究,其中显着的eQTL与药物应答相关。基于三角形的方法的难点在于,当使用相对任意的阈值(通常是P值)来识别用于进一步分析的显着关联时。由于P值阀值也需要针对多个测试问题进行测试的次数进行调整,因此可能会有大量的假阴性SNP,eQTL,mQTL和pQTL被过滤掉。这种方法通常用于寻找与基因表达性状或甲基化水平相关的SNP,以及关注功能性SNP的表型。

一些研究人员已经开始开发因果推理关联方法。 例如,Schadt等人 已经引入了一个多步骤的方法来确定利用人群中观察到的自然发生的DNA变异的复杂性状的关键驱动因素。 测试DNA变异与基因表达的相关性,然后基因表达性状相对于彼此排序。 然后分析确定导致相对转录物丰度变化的DNA变体是否在统计学上被支持为使用最大似然方法的独立,致病或反应功能。 这些因果途径允许以清晰,线性的方式解剖基因型 - 表型过程。只要图2的假设A正在被测试,这些方法相当强大。

等位基因特异性表达方法。将基因组变异与转录水平相联系的另一种方法称为等位基因特异性表达(ASE)。在二倍体生物中,两个等位基因之一优先在一些基因中表达。 ASE变体与顺式元件变异和表观遗传修饰有关。 ASE方法的第一步是区分一个亲本等位基因的基因产物和另一个亲本等位基因的产物。接下来,可以进行关联等位基因与基因表达(eQTL)或甲基化(mQTL)的分析以比较两个等位基因。最后,可以测试所得的等位基因与表型或感兴趣的结果的相关性。这种方法的实用性取决于用于实验性标记两个等位基因的额外资源以及随后的等位基因的映射。 ASE和其他扩展的方法 - 例如等位基因特异性转录物结构(ASTS),其查看等位基因特异性剪接转录物的表达频率 - 已被用于鉴定人类中的功能变化和蛋白质-DNA相互作用。这种等位基因特异性方法也被用于其他情况。例如,几个小组已经探索了染色质状态和组蛋白修饰中的等位基因特异性分析。随着我们继续观察这些等位基因特异性效应,更多的等位基因特异性应用可能出现。

领域知识指导的方法。其他研究已经整合了功能和途径信息,这些信息是通过诸如“DNA元素百科全书”(ENCODE)和“京都基因与基因组百科全书”(KEGG)等举措产生和整合的,以选择和注释重要结果。在这种方法中,感兴趣的基因组区域是输入。可以使用各种软件和数据库来确定所述区域是否在通路内和/或与功能单元重叠,如转录因子结合,高甲基化或低甲基化区域,DNase敏感性和调节基序。例如,研究人员可以采集一组基因分型的SNP,并用来自多个公共数据库资源的领域知识对其进行注释。随后可以将具有功能性注释的SNP列表进入下一阶段,在此期间它们与其他组学数据(例如基因表达数据(来自微阵列或RNA-seq)或代谢组学数据)相关联。然后可以评估具有功能注释并且与其他组学数据相关联的SNP与表型或感兴趣的结果的相关性。这种方法可以类似于上面提到的三角形方法,不同之处在于还有一个注释变体的步骤,并且只将具有功能注释的那些注入到下一个分析阶段。添加来自不同数据集的信息可以大大增加我们对数据的了解;然而,我们也受到当前知识的限制和偏见。

尽管多阶段分析使用线性和非线性分析数学来理解两种不同类型的数据之间的关系,

有明确的限制。 例如,如果复杂性状是DNA序列变异的组合的结果,那么与环境扰动(图2,假设B)同时发生的基因表达变异性,甲基化状态和蛋白质结构或表达变化而不是逐步线性 模型(图2,假设A),多阶段的方法将不能有效地建模复杂的特质。 然而,当基因型和表型之间的关系可以以线性方式建模时,例如与代谢物相关的SNP的情况并且随后与表型相关联,例如,多阶段分析将是适用的。

数据整合:元维分析

元维分析在同时分析中结合了多种数据类型,并大致分为三种方法:基于级联的集成,基于转换的集成和基于模型的集成(图4)。

基于连接的集成在构建模型之前,基于连接的集成将每个样本的多个数据矩阵组合成一个大的输入矩阵。基于级联的集成的一个优点是,在确定如何将变量组合成一个矩阵之后,使用任何统计方法对连续和分类数据进行分析相对容易。例如,Fridley等人通过使用贝叶斯建模策略将多种类型的基因组数据并入具有复杂表型的关联分析中来执行基于串联的整合。将来自SNP和mRNA基因表达的数据组合成单个数据矩阵,然后使用贝叶斯整合模型来模拟mRNA基因表达和SNP基因型的联合关系以预测定量表型(例如,药物细胞毒性)。 Mankoo等人使用多变量Cox LASSO(最小绝对收缩和选择算子)模型,使用拷贝数改变,甲基化,miRNA和基因表达数据预测卵巢癌复发和存活的时间。该策略包括通过LASSO而不是逐步方法进行变量选择,然后在Cox回归中对所选变量集进行建模。这种方法的另一个主要优点是基于串联的集成对于考虑不同类型的基因组数据之间的交互特别有用。例如,如果试图检测的基础模型是与代谢物相互作用以解释疾病风险的SNP,并且如果两个变量未被组合成一个模型,那么可能会遗漏该效应。这种方法已被用于结合SNP和基因表达数据来预测高密度脂蛋白胆固醇水平,并鉴定与癌症临床结果相关的拷贝数改变,甲基化,miRNA和基因表达数据之间的相互作用。

基于级联的集成面临的挑战是确定以有意义的方式组合包括不同尺度数据的多个矩阵的最佳方法。例如,SNP数据包含0,1或2作为对应于每个个体的特定等位基因的拷贝的值;拷贝数数据可以由-2,-1,0,1或2组成,作为对应于给定遗传区域中的拷贝数状态的值(尽管它们也可以是连续规模的数据)。和DNA甲基化概况报告0和1之间的CpG基因座。确定一种适当地整合或合并这些数据而不受数据类型驱动的偏见的方法可能是具有挑战性的。此外,这种数据集成形式可以使数据的高维膨胀,样本数量少于每个样本的测量数量。因此,基于串联的集成仅适用于确定用于分析的数据矩阵的合适方式。随后,可以使用统计或计算模型来分析数据矩阵,以考虑不同类型的基因组数据之间的相互作用。根据数据矩阵中变量的数量,可能需要如上所述的数据简化策略。如果变量太多,分析可能在计算上不可行;因此,需要进行数据缩减以限制变量的数量,以使分析成为可能。

基于转化的整合第二种方法是基于变换的整合,在将每种数据类型转换成中间形式(如图或核矩阵(对称和正半定矩阵)之后将多个数据集组合在一起(对称和正半定矩阵表示所有样本的相对位置, 有效的内核函数)。 然后可以在详述任何模型之前合并多个图形或内核(图4)。 当每种类型的数据被转换成适当的中间表示时,基于转换的整合方法具有保留来自每个数据集的数据类型特定属性的优点。 此外,只要数据包含统一的功能,如链接数据类型的患者标识符,此方法可用于整合多种类型的数据,包括连续或分类值和序列数据。 而且,基于变换的整合方法对于不同的数据测量尺度是稳健的。

例如,Lanckriet等人提出了基于核的蛋白质功能预测整合与多种类型的异构数据,包括氨基酸序列,hydropathy配置文件,基因表达数据和已知的蛋白质 - 蛋白质相互作用,Borgwardt等。将结构,顺序和化学信息组合成一个图模型,用于通过图核来预测蛋白质功能。相比之下,Tsudaet al。和Shinet al。使用基于图的半监督学习预测具有多个网络的蛋白质功能。 Kimet al。提出了一种基于图形的整合框架,用于使用拷贝数改变,甲基化,miRNA和基因表达数据来预测癌症临床结果。基于变换的整合的缺点在于,如果原始特征空间的单独变换改变了检测交互作用的能力,则识别不同类型数据(例如SNP和基因表达相互作用)之间的相互作用可能是困难的。每个数据类型都是独立转换的,这会使得检测一些效果变得更加困难。目标是执行数据转换,维护大部分数据类型特定的属性,以便这些类型的交互效果不会丢失。因此,对于每种基因组数据类型,如果存在相关的中间表示(例如内核或图形),则基于转换的整合是合适的,目标是在整合数据类型特定属性的同时对其进行整合。

基于模型的集成。基于模型的集成是第三个元维方法,其中包括使用不同类型的数据作为训练集生成多个模型的方法,然后根据训练阶段创建的多个模型生成最终模型,具体属性。这种方法可以结合来自不同类型数据的预测模型。例如,基于模型的整合可以允许整合数据集,其中从不同的患者组收集每个数据类型,但是所有患者具有相同的疾病或表型。如果目标是鉴定与卵巢癌的遗传,基因组和蛋白质组学相关,则可以从公共领域提取数据集,其中DNA序列数据可以在五组患者样本上获得,八组患者样本的微阵列数据和两套患者样品的蛋白质组学数据。基于模型的集成将允许对15个数据集中的每个数据集进行独立分析,然后将每个数据集中的顶级模型进行集成,以查找集成模型。这是遗传和环境网络协会分析工具(ATHENA)方法的未来工作领域。 ATHENA是一套分析工具,用于执行系统基因组分析以整合不同的组学数据并查找与临床结果的关联。已经使用ATHENA进行基于模型的整合以寻找拷贝数改变,甲基化,微小RNA和基因表达与卵巢癌存活之间的关联。对每个数据类型(例如拷贝数畸变和甲基化)分别构建神经网络模型,然后分析这四个模型,创建一个综合模型。作为另一个例子,使用大多数投票方法来使用HIV蛋白酶 - 药物抑制剂复合物和DNA序列变体的结构特征来预测HIV蛋白酶突变体的耐药性。在大多数情况下,来自顶级模型的变量在随后的分析中被合并。另外,集合分类器 - 例如预测的二级结构,疏水性,范德瓦耳斯体积,极性,极化率和假氨基酸组成 - 已被用于预测蛋白质折叠识别。所得到的模型(来自每种数据类型)在加权投票方案中被组合以确定蛋白质的折叠。最后,已经开发了基于网络的方法,其中使用基因表达数据,代谢组学数据和SNP基因型数据构建贝叶斯网络,随后通过整合来构建概率因果网络。在每个基于模型的集成示例中,分别在每个数据类型上构建一个模型,然后将这些模型以某种有意义的方式进行组合,以检测一体化模型。

需要注意的是,基于模型的集成需要对每种数据类型进行特定的假设和分析,并且需要一种以有意义的方式组合所得模型的机制。考虑癌症肿瘤组织和正常组织的DNA数据集,测量甲基化和代谢组学数据。三种数据类型中的每一种可以分析与癌症的关联。然后可以将得到的DNA序列模型,甲基化模型和代谢组学模型整合以识别元维模型。由于整合分析中的唯一变量是在特定于数据类型的建模过程中检测到的变量,如果它们不具有在数据类型中识别的效果,则可能错过不同数据类型之间的某些交互。例如,如果存在甲基化模式和另一种蛋白质表达模式,这些模式与独立的结果没有关联,但仅通过它们的相互作用相关联,那么在基于模型的整合中它们的效应将被忽略。而且,这些基于集合的方法以过拟合而闻名。因此,如果每个基因组数据类型是极其异构的,例如将数据矩阵(基于级联的集成)或执行数据转换到通用中间格式(基于转换的集成)是不可能的,则基于模型的集成是特别适合的。

对于上述的元维分析描述,我们只从使用已知标记(结果或表型)的数据的监督学习策略的角度考虑数据整合方法。 然而,无监督学习是数据整合的另一个类别,其中没有感兴趣的已知标签或表型,但对数据集的分析(一种方法是使用聚类)可能识别观测数据中的隐藏结构。 例如,iCluster使用联合潜变量模型对元维基因组数据进行整合聚类。 此外,在探索性或无监督学习的背景下,还有其他基于贝叶斯方法的综合聚类方法。 无监督学习策略也可能增加功能和元维数据分析的好处。

注意事项和限制

在这篇综述中,我们讨论了几种分析多元数据的策略,目的是利用数据整合的方法来阐明复杂性状的遗传结构。 与任何分析一样,每种方法都有其局限性和缺陷,另外还有一些应该提及的广泛的限制。 首先,很难综合评估这些方法的统计效能。 一些方法具有可以执行功率计算的理论分布。 对于其他人来说,需要模拟研究和/或置换测试来估计经验能力。 在任何一种情况下,这些功率估计值将仅适用于手头的数据集或模拟,而且它们仅用于解释该方法的通用性。 因此,应该仔细解释基于这些系统基因组学方法的功率计算或估计。

所描述的一些分析策略具有潜在的缺陷,可能导致识别某些关联的能力有限。例如,基因组中的单个变量(例如SNP)可能通常是功能性的并且与性状相关联,而具有功能性SNP的LD中的SNP可能是相关的但不具有功能。通过进行数据减少,我们可能偶然地滤除功能性SNP,但保留与其无关的非功能性SNP,从而失去与功能性SNP的关联。另外,大多数分析技术并没有对可能的统计或计算模型进行详尽的评估,因为计算时间可能会很短。这些方法依赖于数据中的替代信号和相关性,这将允许模型识别,而无需详尽地测试所有可能的模型。因此,取决于方法,真正的模型(那些实际解释生物学的模型)可能不会被评估。某些数据缩减方法(如因子分析)会导致派生变量从数据中提取正交或独立的关系;然而,理解哪些主要变量是必需的可能是困难的。因此,解释由派生变量组成的模型可能是具有挑战性的。

讨论这些限制和注意事项并不意味着阻止读者使用任何这些系统的基因组学方法然而,关于模型的假设,分析的局限性以及对推理和解释的谨慎考虑对于成功的多元研究是至关重要的。

复制。大规模分析中的一个重要考虑因素是潜在的虚假发现,所以确定一种更有可能成为真实关联而不是假阳性结果的方法是非常重要的。人类遗传学的“黄金标准”是寻找使用独立数据的结果复制,寻求复合多元模型是识别鲁棒预测模型的一种方法。用遗传变异数据复制的最严格的定义需要一个基因座的相同类型的变异与相同的性状和相同的效应方向相关联。这确保了对I型错误的更严格的保护。但是,此复制定义存在问题。例如,当使用SNP数据时,这种复制要求忽略了在全基因组关联研究中报道的大多数SNP变体是标签SNP的事实。因此,所测试的SNP很可能是不起作用的,但与LD引起的功能性SNP相关。因此,人们不一定期望在多个数据集中将相同的变体相关联,尤其是当等位基因频率变化的小差异可能对LD模式具有大的影响时。因此,在一个数据集中,两个SNP可能会显示主效应和交互作用,而在第二个数据集中,与第一个数据集的SNP相比,LD中的SNP可能表现出最强的信号。在寻求复制时,我们建议仔细考虑每个变量所代表的潜在功能基因组单位,并寻求复制与当前数据相关且适当的基因组信号。在复制数据集中检测到的复杂预测模型可能并不完全代表最初的发现预测模型,而是包含与原始SNP或同一途径内的基因相同的大多数基因或SNP。在这种情况下,在具有相同生物学背景的发现和复制数据集中存在相同基因的类似模型也可以被认为是生物信号的复制。用于寻求复制的数据集也是一个重要的考虑因素。在某些情况下,外部复制是可能的,所以可以使用独立的数据集。然而,由于一些分子检测的成本和组织的有限可用性,独立的数据集通常不易获得。在这种情况下,可以实施内部复制。有几种数据分割或内部验证方法可用(参考文献30)。最后,正在开发利用外部数据来开发证据以支持不能直接复制的关联的策略。例如,多种趋同证据(DiCE)方法整合了来自多个来源(组学,信息学和实验室实验)的信息,以估计支持给定关联的可用证实证据的强度。

验证。功能验证是复制的一个可行的替代方法,重点在于进行额外的互补或正交实验来证实原始发现实验中出现的证据。例如,基础实验工作台科学可以用来为统计模型提供验证。这种类型的证据有可能确定统计学协会背后的生物学机制。因此,这是非常理想的验证技术。

另一种验证方法是使用文本挖掘来查找支持或反驳原始结果的文献。已经开发了许多文本挖掘工具作为执行这种类型的信息学分析的手段。牵连位点之间的基因关系(GRAIL)是人类基因组学中常用的工具,它允许人们搜索PubMed摘要中的基因共同出现以确定相关基因之间的潜在生物连接。

最后,计算机模拟是另一种有用的方法。基于一系列提供完整模型的小部分的实验,可以使用数学来整合这些不同的元素并对结果进行预测。例如,Crooke等人采用雌激素代谢理论途径,基因 - 基因相互作用统计模型,一系列动力学实验和微分方程模型预测乳腺癌的风险。

相关变量。 如上所述,不同类型的高吞吐量数据可能在数据类型内部和之间具有高度相关的变量。 在全基因组SNP阵列中,由于LD,许多SNP彼此相关。 例如,SNP与基因表达之间,以及基因表达与甲基化之间也存在不同水平的相关性。 这些相关性可以用来帮助指导,过滤或解释数据; 然而,相关性可能会造成一些分析方法的问题。 在回归分析中,多重共线性(即高度相关性)可能不允许矩阵求逆,这是估计可靠回归系数所需的。 了解每种方法如何处理相关数据,以及是否需要预处理以降低相关性(即修剪相关变量)非常重要。 减少相关性的决定将基于选择的分析方法。

过度拟合。最后,过度拟合在数据驱动分析方法中总是有风险的。当模型对数据集内的样本进行分类或预测的结果非常好时,会发生这种情况,但对未用于构建模型的数据表现不佳。在处理数据中的高维问题时(例如小样本量和许多独立变量),经常会发生这种情况,当考虑模型中的三个,四个或更多个变量时会导致稀疏的数据矩阵。幸运的是,有很多技术可以防止过度配合。例如,交叉验证是一种统计技术,其中使用一定比例的数据集来构建模型,并使用子集来测试模型。另一种方法是使用接收器操作曲线和曲线下的面积。这些方法平衡了模型的灵敏度和特异性,以帮助选择最佳模型。另外,帕累托优化是计算机科学中常用的技术;比较两个模型的度量:适应度量(即,曲线下的精度或面积)和简约度量(即,模型中变量的数量)。帕累托优化的目标是找到最简单结构的最佳模型。这种方法工作得相当好,因为过度拟合的原因往往是模型中包含了太多的变量。

未来发展方向

在过去的十年中,我们产生分子数据的能力一直在快速提高,而且这种趋势在未来十年可能会持续下去。大部分组织数据是从全血或其他组织类型(如肺,肝和心脏组织)的粗制组织提取物产生的。然而,单细胞技术正在向前推进,并显示出对未来的承诺,很可能我们很快将有能力从不同组织类型的单细胞产生组织数据。成本也可能继续下降,使得能够在大样本量的情况下生成这些高通量的组织数据。

为了补充数据生成技术的延续,数据分析策略也将经历重大的进步。用于处理和存储数据的计算机技术不断发展和扩展,这将使计算能力更强大,推动分析进一步超越以往。

此外,寻找“低垂果实”的简化模式(解释某些特征变异性的单一变量)正在慢慢变得不那么普遍。随着越来越多的研究者认为“超越框框”,使用新的统计学和机器学习方法将会提出一些新的问题,关于不同类型的组学数据之间复杂的相互作用。这些新兴的系统基因组学方法会产生更多的信息结果,而且发展速度也会加快。随着工具变得更加容易获得且价格可承受,这种系统的基因组学方法将成为研究设计和分析策略的主导类型 - 分离研究分子数据可变性的时代正在慢慢结束。

结论

新的统计和计算技术的出现将有助于寻找有助于复杂性状结构的基因组因子,并继续揭示新的生物学见解。在一种数据类型内进行所有分析的认识有所限制,导致了许多新的数据集成思想和方法的发展。这些系统的基因组学方法仍处于起步阶段,金标准方法尚未出现。但是,目前可以采取多种策略来执行强大的综合分析,尽管单一方法很可能无法在所有数据分析中表现最佳。因此,需要根据特定类型的数据,不同类型的科学问题或不同类型的潜在基因组模型来选择方法。剩下的问题和挑战包括将多个时间点和多个组织的数据结合起来的策略;在考虑多种数据类型时数据规范化和扩展问题;考虑复杂的生物过程,包括反馈回路和补偿机制,这将需要非线性模型;以及结合来自不同个体或样本的不同数据类型的可能性。新策略发展的瓶颈在于无法知道真正的模型应包含什么,因此最有效的建模策略将是什么。在研究中,我们倾向于考虑以前的成功和确定的生物模型的类型,以指导我们在未来寻找的东西。但是,这里描述的系统基因组学方法是新的;因此,我们没有过去的成功例子来作为指导。随着越来越多的数据在多种数据类型和多个组织中产生,新的探索将进一步加深我们对重要生物过程的理解,并使更全面的系统基因组策略成为可能。通过统计学家,数学家,计算机科学家,生物信息学家和生物学家的合作,多维分析方法的不断发展将促进对复杂特征体系结构的更好理解,并产生有关人类疾病和生物学的新知识。

 

 

 

 

 

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值