连锁不平衡的计算方法

连锁不平衡(linkage disequilibrium,LD)是指在某一个群体中,不同座位上两个基因同时遗传的频率明显高于预期的随机频率现象。


我们一般用D,D'和r2来表示LD的程度。


D是LD的基本单位,度量观察到的单倍型频率与平衡状态下期望频率的偏差,算法如下:

D=P(AB)-P(A)*P(B);

P(AB)表示实际观察到的AB频率,P(A)*P(B)表示AB频率的期望值。(如果发生连锁不平衡,实际观测到的AB频率肯定不等于AB频率的期望值)


如果D值显著偏离0,则说明存在LD。因为D的取值强烈地依赖于人为制定的等位基因频率,所以它不利于LD程度的比较。标准化的不平衡系数D'能够避免这种对

等位基因频率的依赖。D'的计算方法如下:

D'=D/Dmax

当D<0, Dmax=min{P(A)P(B),P(a)P(b)};

当D>0, Dmax=min{P(A)P(b),P(a)P(B)};

当D‘=1,表示连锁完全不平衡,没有重组;

D‘=0,表示连锁完全平衡,随机组合;


但D'也有它的局限性,比如当单倍型为2中或3种时,|D'|一定等于1,但是当|D'|<1时,D'的值究竟表示多大程度的连锁不平衡,是很难做出准确判断的。另外D'严格依赖于样品的大小,。如果样本偏少时,snp数量比较少,这样算出来的D'就会偏大,尤其是某个位点其中一个等位基因频率很低时,因此较高D‘背后,实际上可能是连锁不平衡程度很低的两个位点。统计学上较高的D'值进济南市重组发生率低,而普通程度的D'<1不适合度量LD,以及比较不同研究之间的LD程度,因此只有统计学上显著性接近1的D'值才能够解释这两个位点之间有较小的历史重组,而D'则不能用来研究这种情况。这是就需要引进r2来表示LD,r2的计算方法如下:

r2=D*D/(P(A)P(a)P(B)P(b))

r2=1,表示连锁完全不平衡,没有重组

r2=0,表示连锁完全平衡,随机组合


同时,r2=1有更严格的解释:两个位点的等位基因有相同的频率,并且一个位点某个等位基因的出现完全预示着另外一个位点相应等位基因的出现,这时候两个位点组成的四种可能的单倍型仅表现为两种。与D'相比,r2在连锁不平衡中更加有用,因为其具有较强的群体遗传学理论基础和一些统计学上的优势:

1 r2的期望值和有效种群大小和重组系数相关,r2=1/(1+4NeC),其中Ne是有小种群大小,C是重组系数。

2 r2有很好的取样特性,样本量和r2的乘积就是所观察到的关联水平概率对应的卡方值。在检测snp和致病位点之间的关联时,如果要达到同样的统计效力,所需要的样本量要增大1/r2倍。例如,假设snp1与疾病相关,我们要对它附近的snp2进行基因分型,他们之间的LD系数r2=0.5,为了达到与snp1位点检测相同的统计效力,必须把样本增加2倍。

3 与D'相比,在同样长度的染色体范围内,r2往往更低,这个特性能够帮助我们找到更精度的基因定位。

另外,r2和D'相比,受样本量和等位基因频率的影响较小(但影响仍然存在)。


下面举个例子,如图所示,可以自己先计算一下再看下面步骤:



1 P(A)=0.5, P(a)=0.5, P(B)=0.5, P(b)=0.5

D=0.25-0.5*0.5=0

D'=r2=0


2  P(A)=0.75, P(a)=0.25, P(B)=0.5, P(b)=0.5

D=0.5-0.75*0.25=0.125

D'=0.125/min{0.75*0.5, 0.25*0.5}=1

r2=0.125*0.125/(0.75*0.25*0.5*0.5)=0.33


3 P(A)=0.5, P(a)=0.5, P(B)=0.5, P(b)=0.5

D=0.5-0.5*0.5=0.25

D'=0.25/min{0.5*0.5, 0.5*0.5}=1

r2=0.25*0.25/(0.5*0.5*0.5*0.5)=1


### 连锁平衡与共定位分析的区别 #### 定义与概念 连锁平衡(Linkage Disequilibrium, LD)是指群体中两个或多个遗传位点之间存在的非随机关联状态。这种现象通常由于基因重组率较低或其他进化力量的作用而形成,使得某些等位基因组合在人群中更频繁地共同出现[^1]。 相比之下,共定位分析(Colocalization Analysis)是一种用于评估同性状或疾病的遗传信号是否来源于同一因果变体的方法。它主要应用于多组学数据整合场景下,判断某一特定区域内的遗传变异是否同时影响两种及以上表型的表现形式[^2]。 #### 方法原理 连锁平衡计算依赖于观察到的单核苷酸多态性(SNP)频率分布及其两两间的相关系数r&sup2;值大小来衡量程度高低;而在实际操作过程中,则会利用专门软件工具如PLINK完成具体数值测定工作[^3]。 对于共定位分析而言,其核心在于比较来自独立 GWAS 研究的结果集,并采用贝叶斯框架估计共享相同潜在致病变异的概率水平。常用的技术手段包括但限于 COLOC 和 FOCUS 等算法实现自动化处理流程。 #### 应用领域 在生物信息学和遗传学研究中,LD 主要被用来构建精细映射图谱以及辅助全基因组关联分析中的候选 SNP 筛选过程。通过对目标区域内 SNPs 的 LD 结构深入解析,可以有效缩小可能包含功能性元件的小片段范围,进而提高后续验证实验效率。 另一方面,随着复杂疾病机制探索需求日益增长,共定位技术逐渐成为揭示跨性状间分子联系的重要途径之一。例如,在探讨代谢性疾病与心血管风险因素是否存在共同遗传基础方面发挥了积极作用。 ```python import pandas as pd from pycoloc import coloc_analysis # 假设我们有两个GWAS汇总统计数据文件 gwas_data_1 = pd.read_csv('trait1_gwas_results.csv') gwas_data_2 = pd.read_csv('trait2_gwas_results.csv') # 执行共定位分析 results = coloc_analysis(gwas_data_1, gwas_data_2) print(results[['PP.H0', 'PP.H1', 'PP.H2', 'PP.H3', 'PP.H4']]) ``` 上述代码展示了如何使用 Python 中的一个假设库 `pycoloc` 来执行两项性状之间的共定位分析,并打印出每种假设下的后验概率结果表格。 ---
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值