说道关联分析,就要谈到连锁不平衡,连锁不平衡的衰减。 那么什么就是LD的衰减呢, 简单的说就是群体在经历了几百年或是更多年的历史重组之后在基因组上形成的重组块(block). 这些block 紧密的排列在基因组染色体的位置上。 有的地方block 比较大, 有的地方block比较小。 这个大小的意思就是延伸的长还是短。平均的延伸的长度决定了我们定位基因的精度。 延伸的越短,定位的精度越高。 延伸的越长,定位的精度越小。 我们画LD的衰减通常用tassel 软件, 或者是别的软件, 然后在进行做图计算。 大致分位一下几个步骤:
(1) 在TASSEL 中,计算LD时,会有三个选项,一个是full matrix, 一个是sliding window , 另一个是site by all . 这里我最熟悉的是full matrix 。 但是, 我们使用full matrix 的时候也有个缺点, tassel 不但计算了共线性的LD, 还计算了非共线性的LD, 大多的时候, 我们仅需要共线性的LD, 也就是一条染色体上两两位点之间的连锁不平衡大小。 当数据量比较大的时候, 最好按照染色体分开计算。 我喜欢的数据格式是hapmap.
(2)在进行计算之前,要进行位点的过滤。 选择 sites,MAF=0.05,remove indels,计算时选取为fullmatrix模式,这样计算的结果就是 同一条染色体上量位点的