群体遗传分析—LD连锁不平衡

在群体遗传学研究中,LD连锁不平衡分析是最常见的分析内容,也是关联分析的基础。在很多的遗传进化GWAS的文章中都会出现LD衰减及单体型block图,如果你还不是很了解的话,是时候补补课了哦~~

LD概念

当位于某一座位的特定等位基因与另一座位的某一等位基因同时出现的概率大于群体中因随机分布的两个等位基因同时出现的概率时,就称这两个座位处于连锁不平衡状态(linkage disequilibrium)。

LD计算方法

D 是 LD(连锁不平衡) 的基本单位,度量观察到的单倍型频率与平衡状态下期望频率的偏差。虽然D能够很好的表达LD的基本含义,但是由于其严格依赖于等位基因频率(allele frequency),故不适合应用于表述实际的LD强度,尤其是进行不同研究的LD值的相互比较。几个常用于度量LD的符号中,最重要的是D'和r2,两者都是基于D,各有各的特点及用途。

LD计算方法如下:
1、设有两个位点(A、B),等位基因分别是A、a、B、b,在群体中对应频率f(A)、f(a)、f(B)和f(b)

2、两个位点共有四种单倍型AB、Ab、aB、ab,对应频率f(AB)、f(Ab)、f(aB)和f(ab)

3、计算:Dab=f(AB)-f(A)*f(B)

当Dab=0时,处于连锁平衡状态;

当Dab≠0时,处于连锁不平衡状态。

LD度量:

当Dab>0,|D'|=(Dab)2/min(f(AB), f(ab));

当Dab<0,|D'|=(Dab)2/min(f(Ab), f(aB));

r2=(Dab)2/(f(A)f(a)f(B)*f(b));

D'=0, r2=0时处于完全连锁平衡状态;

D'=1,r2=1时处于完全连锁不平衡状态;

从0-1度量越高,LD越高,如果两个位点连锁,连锁程度也越强。

r2 和D'的比较

r2和D'反映了LD的不同方面。r2包括了重组和突变,而D'只包括重组史。D'能更准确地估测重组差异,但样本较小时,低频率等位基因组合可能无法观测到,导致LD强度被高估,所以D'不适合小样本群体研究;

LD衰减作图中通常采用r2来表示群体的LD水平;Haplotype Block中通常采用D'来定义Block;迁移、突变、选择、有限的群体大小以及其他引起等位基因频率改变的因素,这些都会引起LD的改变。

计算LD的主流软件与方法

plink2 :

(https://www.cog-genomics.org/plink2)

haploview :

(https://www.broadinstitute.org/haploview/haploview)

plink计算R2值的命令行(基于vcf):



作者:斩毛毛
链接:https://www.jianshu.com/p/930b2743aa76
来源:简书
著作权归作者所有。商业转载请联系作者获得授权,非商业转载请注明出处。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值