连锁定位（Linkage Mapping）与关联定位（Association Mapping）

浓香鸭腿面

已于 2022-05-22 10:01:43 修改

阅读量4.9k

点赞数 6

分类专栏：玉米基因组文章标签：学习

于 2022-04-13 15:08:20 首次发布

本文链接：https://blog.csdn.net/sinat_41621566/article/details/124090741

版权

玉米基因组专栏收录该内容

7 篇文章

订阅专栏

本文主要介绍了育种领域早期（2001年以前）定位 QTL（quantitative trait loci，数量性状基因座）所使用的方法及分子标记。虽然随着分子标记技术的不断更新，定位方法中的许多问题已经得到了有效解决，但有些矛盾是依然存在的。如全基因组测序的普及使人们使用 SNP 作为分子标记，测序能覆盖到的区间中的所有突变位点都会以 SNP 的形式呈现，无 SNP 区间则序列完全一致，再讨论分子标记和 QTL 之间的连锁性已意义不再；但对于测序无法覆盖或与参考基因组无法比对成功的片段，SNP 与缺失片段的连锁性问题依然存在。我认为，了解 QTL 定位的发展历史，学习前辈面对困难的解决办法，对如今的科学研究仍具有一定的指导意义。

计算 QTL 的效应大小（此坑待填）

https://zhuanlan.zhihu.com/p/94070722

连锁定位（Linkage Mapping）

定义

设计两个株系杂交，根据分子标记与 QTL 在 $F_1$ 减数分裂中的 重组率，计算两者之间的遗传距离，先确定 QTL 的位置，然后再分析 QTL 的效应大小。

案例

设分子标记 $M$ 的等位基因型为 $M_1$ 、 $M_2$ ，数量性状基因座 $Q$ 的等位基因型为 $Q_1$ 、 $Q_2$ ，QTL 的加性和显性效应分别为 $a$ 和 $d$ ，QTL 与分子标记的遗传距离为 $c$ 。基因型 $M_1M_1Q_1Q_1$ 的自交系与基因型 $M_2M_2Q_2Q_2$ 的个体杂交，则分离群体 $F_2$ 中纯合标记 $M_1M_1$ 与 $M_2M_2$ 之间数量性状的平均值差异为 $2 a (1 - 2 c)$ 。同理，纯合标记 $M_1M_1$ 和杂合标记 $M_1M_2$ 之间的表型平均值差异为 $d(1 - 2c)^2$ 。如果 $Q$ 和 $M$ 之间距离较远而不连锁时，则 $c = 0.5$ ，均值间差异为 0；当 $Q$ 与 $M$ 完全连锁时， $c = 0$ ，均值间差异最大。测定 $F_2$ 群体的表型后，可依次计算每个标记不同基因型之间的性状差异，进而估算 每个标记与 QTL 之间的距离 和 QTL 效应 。

在这里插入图片描述

上述模型是针对 低密度分子标记 情况：QTL 只有 1 端与分子标记强连锁（ $c = 0$ ），无法避免 QTL 效应的估计值被标记与 QTL 之间的图谱距离影响。若群体中 分子标记密度较高，QTL 两端都与分子标记强连锁，则 QTL 被锁定在这个非重组片段内，此时 $c = 0$ ，无需考虑 QTL 与标记之间的图谱距离，只需要估计 QTL 效应即可。

影响因素

由于自然群体中玉米的 LD 在 2 kb 区域内衰减，所以在自然群体中定位 QTL 往往需要数百万个 SNP 才能完全覆盖基因组，而昂贵的基因分型费用使这一设想难以实现。连锁定位 因为只考虑群体构建过程中 新产生的重组，不涉及群体历史上已发生的重组，极大的缓解了 LD 的衰减，使标记可以连锁较远的距离。但这种连锁的代价一方面是只能对 QTL 进行 粗定位，如 IBM（B73 × Mo17，2002 年构建）群体中总共有 190 个 RFLP 标记位点，覆盖了全基因组 1784.7 cM 的区间，标记平均密度为 9.4 cM（Lee et al., 2002）；另一方面是分子标记反映的是一大段区间内全部基因对表型影响的 效应和。如果区间内有多个基因参与调控表型，则标记反映的是 多重复杂因素共同作用 的结果，降低了标记的 推广性。

上述计算中使用的都是 表型均值，通过均值消除不连锁的基因座对表型的影响，或者环境等其他因素的影响，群体大小 较小时会导致采样分布较理论分布存在偏差，所以 QTL 的定位及效应也会存在偏差。
群体大小 会限制重组个体的产生，使 QTL 无法定位。如标记 $M_1$ 与 $Q_1$ 距离较近时， $c = 0.001$ ， $1-c)^2=0.998$ ，理论上 $F_2$ 至少需要 $500$ 个个体，否则重组个体数量的期望 $< 1$ 。当群体中不存在 $M_1$ 与 $Q_1$ 间发生重组的个体时，则 $c = 0$ ，只能估算 QTL 的效应，无法估算 标记与 QTL 的距离。在实际育种中，由于群体大小的限制，重组事件发生次数较少，连锁片段中分子标记密度再高也无法定位 QTL 的位置，所以过高的分子标记密度是冗余的。为了提高连锁定位的精度，通常先粗定位再精定位。连锁定位是一种 少标记、粗定位 方法。
因为只有当 $c = 0.5$ 时才能确定此标记不与 QTL 关联，而连锁图谱只包含构建群体过程中新产生的重组，大多数情况下 没有充足 的重组使无关标记与 QTL 间达到 $c = 0.5$ ，所以为保证定位的准确性，一般只考虑对表型影响最强的标记，难以挖掘强效应 QTL 附近的 弱效应 QTL。
若分子标记的 基因型 在双亲中相同，则此标记无效。如双亲基因型分别为 $A_1B_1C_1D_1$ 、 $A_2B_1C_1D_2$ ，其中标记 $B$ 、 $C$ 在双亲中基因型相同，如果重组发生在 $A B$ 、 $B C$ 、 $C D$ 之间，则只能确定 $A$ 、 $D$ 间发生了重组但无法定位重组发生的位点，即标记 $B$ 、 $C$ 无效。所以为了提高有效分子标记的密度，一般选择 亲缘关系较远 的亲本进行连锁定位分析。
由于玉米转座子活跃、染色体结构变异普遍、基因组多样性复杂，亲缘关系较远的株系间，标记连锁的区间不完全一致，甚至完全不一致。如 Beckman（1989）用 207 个 RFLP 分子标记分析了玉米产量、收获时含水量以及 50% 吐丝期 3 个数量性状位点，但他们使用不同群体测定时，发现结果很不一致。所以玉米的分子标记一般仅在 近交株系 间具有推广性。

PS：在 RFLP（Restriction fragment length polymorphism，限制性片段长度多态性）作为分子标记的阶段，因为分子标记密度低，标记与 QTL 之间很难是强连锁，所以无法保证标记纯合时，关联的 QTL 也是纯合，如 $M_1M_1Q_1Q_2$ 。但随着全基因组测序的普及和 SNP 分子标记数达到万级别，上述问题已基本不存在。

Lee, M., Sharopova, N., Beavis, W.D., Grant, D., Katt, M., Blair, D. and Hallauer, A. (2002) Expanding the genetic map of maize with the intermated B73 × Mo17 (IBM) population. Plant Mol. Biol. 48, 453–461.

重组自交系（Recombinant Inbred Lines，RIL）

重组自交系由两个株系的杂交后代 F2 不断自交得到的纯合后代。因为减数分裂过程中染色体的不断重组，RILs 中每个株系的染色体上都嵌合着双亲的遗传片段（如下图）。通过分子标记，研究人员可以绘制每个 RIL 的遗传图谱。若相邻标记 Marker1、Marker2 来自于同一亲本，则认为 M1、M2 之间连锁，标记之间的基因可以用 M1 或 M2 定位。

在这里插入图片描述

图片来自 R.W. Williams, in Brenner’s Encyclopedia of Genetics (Second Edition), 2013

RIL 优势

RIL 是多代纯化后的结果，每代中都会发生重组。相比于只发生 1 代重组的 $F_2$ ，RILs 内的 重组次数大幅增加，QTL 定位精度大幅增加。
RIL 是纯合的，相比于包含杂合子的 $F_2$ ，株系在重复种植于不同环境时 基因型稳定，不会因 QTL 杂合位点基因型分离后的随机抽样而引入随机因素。如 $F_1$ 产生了 1000 颗种子，均分成 10 份时，无法保证每份间基因型分布是完全一致的，为重复实验引入了随机因素。另一方面，RIL 株系内个体间基因型完全一致，可以通过 表型均值 降低环境因素对表型的影响，适用于研究 对环境敏感 的 QTL 定位及效应估计。

影响因素

由于 RILs 的构建十分耗费时间，往往需要十年之久，所以我们期望 RILs 能挖掘到最多的 QTL。这就需要亲本尽可能多的包含基因型存在差异的 QTL 与分子标记。在没有先验知识的情况下，研究人员一般挑选 表型差异较大 且 分子标记差异较多 的亲本自交系构建 RILs，可能挖掘出较多的 QTL。

另一方面，玉米等染色体变异活跃的物种中，由于分子标记和 QTL 连锁的普遍性较差，结论往往仅能在近交株系中使用。所以 玉米 RIL 的亲本需要具有足够的代表性，即使用应用广泛的品系，现有的种植品种与亲本片段重合的越多，则研究的分子标记越有推广价值，如 B73 × Mo17（intermated B73-by-Mo17 cross，IBM）。

关联定位（Association Mapping）

定义

不需要设计特定的株系交配，利用 高密度 分子标记 SNP 通过计算群体内 标记对表型的效应，进而推断与标记连锁的 QTL 的效应大小。（QTL 精定位）

前提假设

种群中的新突变会随着重组的不断发生，而与周围标记的连锁程度不断降低，直至完全不连锁。连锁的降低程度与突变和标记之间的距离相关，当标记与突变紧密连锁时，漫长的繁衍也难以打断两者之间的连锁性。所以，当使用 高密度分子标记 时，可以假设标记与 QTL 紧密连锁（ $\approx 1$ ），不考虑标记与 QTL 之间的重组，标记处即为 QTL。

与连锁定位一样，关联定位也假设：相同基因型标记连锁的 QTL 基因型相同，不同基因型标记连锁的 QTL 基因型不同。实际群体中 $M_1Q_1、M_1Q_2$ 与 $M_1Q_1、M_2Q_1$ 的情况会降低估算标记对表型效应大小的准确性。连锁定位中因亲本是纯合自交系，可以保证亲本内标记基因型与连锁 QTL 基因型的一致性，存在 $M_1M_1Q_1Q_1、M_2M_2Q_1Q_1$ 的情况而使标记无效，但不存在 $M_1M_1Q_1Q_1、M_2M_2Q_1Q_2$ 的情况而错误估计 QTL 的位置及效应。但关联定位因为群体遗传背景复杂，无法保证标记与 QTL 两者基因型的一致性，一般通过 综合分析 QTL 附近多个连锁 SNP 对表型的效应来排除不一致所引入的误差 。所以在 GWAS 的曼哈顿图中，有良好峰形结构的区间内存在真实 QTL 的概率较高，其满足：① 多个 SNP 共定位；② SNP 对表型的效应随距离的增加，重组的增加而不断降低的规律。

玉米的 LD 在 2 kb 内衰减，全基因组关联定位需要 数百万 SNP 才能完全覆盖基因组。在基因分型费用较为昂贵的时期，关联定位一般仅用于研究特定 候选基因 ：对收集到的具有遗传多样性的群体中不同个体的 特定基因 进行克隆，然后比较基因序列间的 SNP，进行关联分析。如 Dwarf8 基因（Thornsberry, J. et al.，2001）

Thornsberry, J., Goodman, M., Doebley, J. et al. Dwarf8 polymorphisms associate with variation in flowering time. Nat Genet 28, 286–289 (2001). https://doi.org/10.1038/90135

群体结构对关联定位的影响

关联定位是利用历史上的重组与突变，打破位点间的连锁，获得较高的分辨率。

如果关联群体的基因组某区间是血缘同源片段，即单倍型相同，则会因连锁未被打破而 分辨率大幅降低 。群体结构相似的个体间可能包含大量的血缘同源片段，即基因组中可能有大量区间的单倍型相同。若片段内包含 QTL，则无法确定 QTL 的具体位置，GWAS 结果的曼哈顿图中 峰型较粗 。
在研究 与适应性相关的表型 时，关联分析可能会产生 大量的假阳性 关联。因为驯化和改良会造成符合人们需求的优良基因型在群体中固定，可能导致 QTL 与群体结构连锁 。如与开花所需基温相关的 QTL，其适应温带的基因型，在玉米从热带传入温带的早期就已固定。但这会使温、热亚群中所有分别固定（基因型不同）的 SNP 都与表型显著关联，造成 大量假阳性，GWAS 结果的曼哈顿图中 杂乱无峰 。因为驯化和改良都会大幅减少种群的有效群体数量，所以不同地域玉米在不同研究团队的培育下，会出现明显的群体结构，如中国和美国的玉米品系间、美国与墨西哥的玉米品系间。为了避免群体结构对关联分析的影响，一般分析前会通过各种方法排除群体结构因素的影响，但这也会造成因固定而与群体结构连锁的 QTL 无法被挖掘。所以，在对某表型进行关联分析时，要先 判断群体结构对表型方差的贡献，如果贡献较大，则与群体结构连锁的 QTL 较多，排除群体结构后能挖掘的剩余 QTL 少，此群体可能不适合对该表型进行关联分析。

例子参见玉米 155 自交系资源群体（Yan Jianbing，2010）。

标记对表型的效应

估算标记效应大小的方法有很多，主要是基于 线性模型，如混合线性模型（Mixed Linear Model，MLM）、一般线性模型（General Linear Model，GLM）等。随着 GWAS 方法研究的深入，软件估算标记效应的速度和精确度都在不断增加 （此坑待填）。

与连锁定位的区别

无需设计特定的自交系交配方案，可以通过避免群体构建而 节省大量的时间 。
关联定位的群体内遗传多样性较高，出现分子标记在所有样本中基因型相同的概率很低，所以相比连锁定位方法其 标记密度更高，并且标记应用范围广。
关联定位具有连锁定位中不存在的 群体结构 因素（ 此坑待填 ：1. 数量性状受多个 QTL 共同影响，不同玉米亚种内的 QTL 组合是不同的。这些组合是 群体结构 的基础，但关联定位 无法打破 亚种内的 QTL 组合，QTL 挖掘会受到群体结构影响。2. 群体结构会降低关联定位精度并提高假阳性率，因为无法打破群体内已经存在的连锁结构，但 NAM 进行了一定程度的打破）。

在这里插入图片描述

图片来自 Joseph L. Gage, Edward S. Buckler, Ten Years of the Maize Nested Association Mapping Population: Impact, Limitations, and Future Directions, The Plant Cell, July 2020, https://doi.org/10.1105/tpc.19.00951

附录

RFLP

最初育种学家研究的是 表型之间的连锁关系。随着限制性片段长度多态（restriction fragment length polymorphism，RFLP）的发现与应用（1985），分子标记 开始被用于测定与突变的连锁关系。QTL 与 RFLP 距离较远时便不再连锁，所以各类 QTL 定位方法测定出的是 QTL 数量的下限。如果 RFLP 等分子标记密度越高，连锁图谱越饱和，对 QTL 的查找与定位则越全面、精确。

RFLP 连锁图谱的构建步骤：

探针的检测与筛选。探针的目的是标记不同个体内相同的染色体片段。如假设 $M_1$ 基因型为 10KB 片段中含有 2 个酶切位点，将片段分割为 2KB、5KB、3KB； $M_2$ 基因型为其中第一个酶切位点因突变而消失，片段被分割为 7KB、3KB。如果没有探针，研究人员无法得知 7KB 片段在 $M_1$ 中所对应的片段。探针使用在基因组上单拷贝的片段，一般筛选自 cDNA 文库和基因组文库。
培育分离群体。
在分离群体中，用连锁定位法确定 RFLP 分子标记与已知分子标记的距离，进而确定 RFLP 在染色体上的位置。