LD: 连锁不平衡质量控制(QC)常用过滤条件

影响连锁不平衡(LD)分析的因素很多,这些因素在不同的生物种群和遗传环境中起着关键作用。LD分析是研究基因组中两个或多个位点之间的关联程度,以此推断遗传变异的结构和动态。以下是影响LD的主要因素,以及每个因素的详细解释和例子:

1. 重组率

  • 解释:重组是遗传物质在生殖细胞分裂过程中交换片段的过程,这对于增加遗传多样性至关重要。重组率的高低直接影响LD,因为它决定了遗传标记之间的物理距离和遗传距离。重组事件越频繁,相互间的LD就越弱,因为重组作用打散了原有的遗传标记组合。
  • 例子:在某些基因组区域,如性染色体和染色体末端,重组率通常较高,这些区域的遗传标记之间的LD通常较弱。

2. 遗传漂变

  • 解释:遗传漂变是指在小种群中由于随机采样效应导致的遗传变异频率的随机变化。这可以导致某些遗传变异的频率无预期地增加或减少,从而影响LD。在小群体中,遗传漂变的影响更加显著,可能导致某些遗传变异成为固定状态(即群体中频率达到100%)或者完全丢失。
  • 例子:在一个岛屿上的隔离种群中,一个罕见的遗传变异可能因为遗传漂变而变得普遍,与其他变异形成强LD。

3. 种群瓶颈和扩张

  • 解释:种群瓶颈是指种群数量在短时间内显著减少,而种群扩张则是数量迅速增加。这些事件可以极大地改变遗传变异的频率和LD模式,因为瓶颈事件可能导致大量遗传变异的丢失,而扩张事件可以增加特定遗传变异的频率。
  • 例子:某种群经历过疾病导致的种群瓶颈,幸存的个体可能携带有限的遗传变异,这导致这些变异之间形成强LD。

4. 迁移

  • 解释:迁移是指个体从一个种群移动到另一个种群,并与新种群的个体繁殖,引入新的遗传变异。迁移可以改变遗传变异的频率,增加种群的遗传多样性,从而影响LD。
  • 例子:如果一个遗传隔离的种群接受来自另一个遗传背景的个体,这些新个体可能带来不同的遗传变异,改变原有的LD模式。

5. 选择

  • 解释:自然选择是指有利变异的持有者生存和繁殖的机会更大,这些变异因此在种群中变得更加普遍。选择可以直接作用于某些遗传变异上,增加其频率,并间接影响与这些变异连锁的其他变异的频率,从而影响LD。
  • 例子:在人类种群中,乳糖耐受性的增强与某个特定的遗传变异相关,自然选择使得这个变异在某些人群中频率增加,与之连锁的变异也显示出强LD。

6. 突变

  • 解释:突变是新遗传变异的来源。虽然单个突变事件对LD的影响可能很小,但随着时间的推移,新突变的累积可以引入新的遗传标记,改变LD模式。
  • 例子:一个新的有益突变可能在某个基因旁边发生,如果这个突变在种群中扩散,它与周围遗传标记之间的LD会增加。

7. 群体结构

  • 解释:群体结构指的是遗传上不同的亚群体存在于一个较大的种群中。不同的亚群体可能有不同的遗传背景和LD模式。当这些亚群体混合时,可以影响整个种群的LD。
  • 例子:欧洲人群中可能存在由不同史前人群混合而成的复杂群体结构,这种结构的存在可以解释为什么某些遗传标记在这个大群体中表现出不同的LD模式。

这些因素共同作用,决定着遗传变异之间的连锁不平衡程度,从而影响LD分析的结果和解释。理解这些因素对于正确进行LD分析和解释其结果至关重要。

  • LD: 质量控制(QC)常用过滤条件

    在进行连锁不平衡(LD)分析之前,质量控制(QC)是一个关键步骤,旨在确保分析结果的准确性和可靠性。在QC过程中,多个过滤参数直接影响LD分析的结果。以下是一些重要的过滤参数:

    1. 缺失率过滤

    • 个体缺失率:移除那些基因型缺失率高的个体。如果个体的数据缺失过多,它可能会扭曲LD估计。
    • 标记缺失率:移除那些在大量样本中缺失的SNP。高缺失率的SNP可能指示实验质量问题,且其LD估计可能不可靠。

    2. 次要等位基因频率(MAF)过滤

    • 移除MAF低的SNP。低MAF的SNP在小样本中可能会产生偏差的LD估计,因为它们在大多数个体中很少出现,难以准确评估它们与其他SNP之间的关联。

    3. 杂合率过滤

    • 移除过度杂合或过少杂合的个体。这可能指示亲缘混淆、样本污染或错误的基因型调用,可能会影响LD分析的准确性。

    4. Hardy-Weinberg平衡(HWE)过滤

    • 移除不符合HWE的SNP。这通常用于移除可能由于实验错误、群体结构或自然选择等因素导致的基因型频率异常的SNP。

    5. 群体结构和亲缘关系

    • 考虑群体结构和样本间的亲缘关系。如果分析的样本来自不同的群体,或者样本间存在较强的亲缘关系,可能需要进行适当的校正,因为这些因素会影响LD的估计。

    实施示例

    在PLINK中,可以使用以下命令实现一些常见的质控步骤:

    • 移除高缺失率的SNP和个体

      
      plink --bfile data --geno 0.1 --mind 0.1 --make-bed --out data_qc
      
      

      这里**--geno 0.1表示移除缺失率高于10%的SNP,--mind 0.1**表示移除缺失率高于10%的个体。

    • MAF过滤

      plink --bfile data_qc --maf 0.05 --make-bed --out data_qc_maf
      
      • **-maf 0.05**表示移除MAF小于5%的SNP。
    • HWE过滤

      plink --bfile data_qc_maf --hwe 1e-6 --make-bed --out data_qc_hwe
      
      • **-hwe 1e-6**表示移除P值小于1e-6的SNP,这些SNP不符合HWE。

    这些质控步骤有助于确保用于LD分析的数据集是高质量的,从而使LD估计更加可靠。每个研究的具体需求可能不同,因此在应用这些过滤标准时需要根据实际情况进行调整。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 打赏
    打赏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Bio Coder

你的鼓励将是我创作的最大动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值