翻译

Fast, scalable prediction of deleterious noncoding variants from functional and population genomic data从功能和群体基因组数据快速,可扩展地预测有害的非编码变体

1.摘要

许多影响感兴趣表型的遗传变异位于蛋白质编码基因之外,但用于鉴定此类变体的现有方法具有较差的预测能力。在这里,我们介绍一种新的计算方法,称为LINSIGHT,它可以显着改善非编码核苷酸位点的预测,在这些位点突变可能会产生有害的适应性后果,因此可能具有表型重要性。 LINSIGHT将功能基因组数据的广义线性模型与分子进化的概率模型相结合。该方法快速且高度可扩展,使其能够利用现代基因组学中的“大数据”。我们表明,LINSIGHT在识别与遗传性疾病相关的人类非编码变异方面优于最佳可行方法。
此外,我们将LINSIGHT应用于人类增强剂的图集,并显示健身后果
增强剂依赖于细胞类型,组织特异性,和相关推动者的约束。

在人类基因组中,与疾病或其他表型相关或显示自然选择特征的大多数核苷酸不属于蛋白质编码基因1-3。许多这些核苷酸似乎属于顺式调节元件,包括启动子,增强子,和绝缘体。类似的观察结果适用于大多数动物和植物4-7。最近使用高通量生化分析表征非编码序列的努力产生了大量数据,鉴定了许多调控元件,并阐明了基因调控的一般方面8-12
然而,由于几个原因,这些实验的结果和对非编码功能的详细理解之间仍存在很大差距。

  1. 首先,这些测定通常测量与调节功能大致相关但不直接指示调节功能的基因组和表观基因组特征。
  2. 其次,它们通常沿着基因组具有相对低的分辨率,识别长达数百个核苷酸的区域而不是精确定位单个核苷酸。
  3. 第三,这些测量是高度条件特定的,并且仅针对一小部分细胞类型和条件生成数据。

因此,迫切需要通过联合考虑许多此类测定的结果以及补充数据(例如蛋白质编码基因的注释和跨物种的进化保守措施)来更精确地预测调节功能的计算方法。试图解决这种综合预测挑战的统计和机器学习方法的发展已成为一个活跃,快速发展的研究领域。
该领域中最近公布的方法可大致分为三类:

  1. 机器学习分类器,其尝试使用各种基因组特征(例如,GWAVA13和FATHMM-MKL14)将已知的疾病变体与推定的良性变体分开;
  2. 基于序列和基序的预测因子对非编码变体的影响细胞类型特异性分子表型,如染色质可及性或组蛋白修饰(例如,DeepBind15,DeepSEA16和Basset17);
  3. 考虑遗传变异数据和功能基因组数据的进化方法,目的是预测非编码变异对适应性的影响(例如,CADD18,DANN19,FunSeq2(参考文献20)和fitCons3)。

限制第一类方法的一个方面是它们强烈依赖于可用的训练数据,这些数据可能是有限的,可能无法代表更广泛的感兴趣的调节序列。第二类中的方法具有限制,即分子表型在生物体水平上的重要性通常不清楚。相比之下,进化方法获得的信号主要不是来自先前分配的类标签,而是来自多代的自然选择的签名。因此,它们对数据的限制较少,而且比其他方法更注重真正影响适应性的表型。这种方法对于检测倾向于在强烈纯化选择下的调节变体(例如与严重疾病相关的罕见变体)可能特别有用。基于进化的方法也自然地整合细胞类型,当感兴趣病症的相关组织或细胞类型未知时,这是一种重要的强度。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值