样本量重要,还是测序深度重要?

我认为是样本量远比测序深度重要。只要有足够多的样本,我们甚至可以用很低的测序深度(比如1x)获得这些样本中每个人准确的genotype和群体的遗传频谱。这是为什么?

其中一个核心原因是人类这个物种具有单一祖先起源,这也是一个重要的前提假设。但同时我想强调一点,这里的“单一”并不是特指只有一个个体,而是指形成这个群体(比如说现代人,甚至就只是中国的汉族人)的祖先归结起来只有为数不多的若干个部落。在这种情况下,人群多样性的源头实际上就主要来自这些部落之间的基因交流和融合。

另一个核心原因是时间不够。人类其实是一个很年轻的群体,特别是现代智人(我们这一波),遗传的分化历史很短,按照目前估算大约是10万年前才开始。而群体出现遗传差异的动力主要有两个:(1)基因组自身的突变和重组;(2)生殖细胞在形成配子过程中发生的重组。但基因组突变和重组的速率都是很低的,大概只有10^-8次方左右。也就是说一个人因为突变所带来的遗传差异,积累起来大约是30-100个。这个只是序列上的突变(主要是点突变),重组虽然有所不同——它是大范围序列的交换,影响的范围很大,但是一般不认为它直接带来序列突变。我们可以理解为它带来的是突变在整个群体中的扩散和分配

然而,10万年的时间,差不多只有5000代人,这个数字放在物种遗传的历史上是很短暂的一瞬,这个时间跨度不足以引起整个群体的多样性爆发。对于东亚人来说则更少,目前发表过的研究表明,东亚人的历史更短,大概起源于6万年前,所以你会在千人基因组项目中看到东亚人(特别是汉族人)内部的分化差异极小。最终归结起来,人类这个群体中单倍体的组合数目是非常有限的。

所以如果要揭示一个特定群体的遗传图谱,我们大可不必对全体样本都进行高深度测序,只需要把其中一部分人进行深测获得较高质量的变异集合,然后其他样本则直接使用低深度测序(甚至是定制的芯片测序,不过我更偏向于选择低深度全基因组测序),再结合连锁不平衡遗传定律,我们就完全有能力推断那些没被充分覆盖的区域中的具体基因型,千人基因组和冰岛人就是这样的一个例子。

GATK的HaplotypeCaller算法实际上也是利用这样的原理实现了更加准确的变异检测的。在变异检测时,GATK会利用所有样本的数据,预先构造出这个群体的Haplotype组合(这应该也是HaplotypeCaller这个名字的由来),以及这个组合中各个单体型在群体中的后验概率,然后再依据每个样本自己的比对数据,通过贝叶斯原理计算出各个样本在每个位点上的基因型和各自基因型的后验概率。如果参与分析的样本足够多,那么理论上它就能够构建出更加准确的Haplotype组合,然后反过来就会提升各个样本的变异检测结果。

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值