本文是 Edward S Buckler、Matthew B Hufford 等人于 2012 年在 NG 上发表的 letter,作为玉米 HapMap2 的子课题。作为资源数据的说明文章,本文没有创新性的方法,内容中规中矩,使用多种群体遗传学分析手段,比较了驯化和改良对玉米基因组的影响。本文可以作为一篇教程,记录在此以便日后查阅方便。
- 绘制系统发育进化树,观察各品系之间的遗传距离;
- 使用 XP-CLR、π、ρ、Fst、Tajima’s D、Fay and Wu’s H、LD、SNP 频率分布 等群体遗传参数进行全基因组分析;
- 在上述分析的基础上,利用合理阈值,筛选与驯化、改良相关的受选择区间与基因;
- 通过同源分析或 GO 分析等方法推断受选择基因的功能,验证其是否与驯化、改良相关,并举例说明;
PS:改良 是指地方品系培育成优良品系的过程,驯化 是指野生近缘种培育成地方品系的过程。
本文结论:
- 系统发育树中野生近缘种 聚集成簇,优良与地方品种 分散分布。不同的优良种由相应的地方品系改良而来,不同于驯化。
- 驯化和改良会增加了 低频 SNP 的比例,这可能与 中性突变 在受选择区间的 恢复 以亚群的 群体数量 有关。
- 驯化与改良之间存在 107 个区间的 交集 ,部分基因可能具有 持续改良 重要农艺性状的能力。
- 温带和热带品系中改良区间 交集较少( > 20%),说明温带和热带品系的 改良目标 存在 较大区别。
- 相比于地方品系,候选基因在改良品系内的表达量进一步升高,选择目的 可能是 提高基因的表达量。
Hufford, M., Xu, X., van Heerwaarden, J. et al. Comparative population genomics of maize domestication and improvement. Nat Genet 44, 808–811 (2012). https://doi.org/10.1038/ng.2309
材料
样本集为 75 个自交系(35 个 优良 玉米品系、23 个 地方 品种和 17 个 野生 近缘种),每个品系的平均测序深度 > 5× 。reads 被映射到玉米参考基因组(版本 4a.53)上,经过缺失率 < 50% 筛选后得到 2114 w 个 SNP。
分析
系统发育进化树
野生近缘种聚类成簇,优良与地方品种分散分布。作者认为,不同的地方种改良成为优良种,而非统一被选择,所以群体瓶颈较弱,地方品系与优良品系间多样性、重组率等差异较小。
群体遗传学分析
XP-CLR
XP-CLR,cross-population composite likelihood ratio,跨群复合似然比,扫描全基因组,挖掘受选择区间。滑窗大小 10 kb,步长 100 bp(图 2b、c),相邻的超阈值 XP-CLR 窗口会被合并,视为单次选择清扫的效果。注意,作者将每个窗口中分析的 SNP 数量固定为 50。
π、ρ、Fst、Tajima’s D、Fay and Wu’s H、LD
驯化 降低 了群体的遗传多样性(图 2a)、重组率(地方品种的重组率为野生近缘种的 25 %),增加 了连锁不平衡程度、单倍型平均长度(地方品种的单倍型平均长度比野生近缘种增加了 22-30 kb ),
SNP 频率分布
比较近缘种与地方品系、地方品系与优良品系之间的 SFS 发现,驯化和改良都增加了 低频(rare) SNP 的比例,作者认为是中性突变在受选择区间的恢复导致的低频 SNP 比例增加,但我认为可能也与 群体数量 相关,亚群数量越大,低频 SNP 比例越大(优良 > 地方 > 近缘)。
地方品种在富含基因的区域具有较少的特有 SNP,并且没有过多的低频 SNP,这种差异可能是背景选择对有害突变及时的清除。
筛选
计算完各种指标后,根据数据特征确定合适的阈值来筛选可能受到选择的基因。
筛选区间
本文使用 XP-CLR 的 Top 10% 作为阈值,筛选出了 484、695 个与驯化、改良有关的受选择区间。其中驯化与改良之间存在 107 个区间的 交集 ,说明某些基因可能具有 持续改良 重要农艺性状的能力。
驯化区间平均长度为 322 kb,包含 3.4 个基因,覆盖了大约 7.6% 的玉米基因组。作者估计驯化的平均选择强度为 s = 0.015,改良为 s = 0.003,中性为 s = 0.0011。同时,改良区间的长度以及包含的基因数量都明显低于驯化(图 2d、e),可能是由于改良发生在驯化的基础上。
同时,对温带和热带品系分别与地方品系进行 XP-CLR 扫描时,Top 10% 的改良区间 交集较少( > 20%),说明温带和热带品系的 改良目标 存在 较大区别。
筛选基因
作者将每个区间内距离最大 XP-CLR 值最近的基因定义为候选基因,驯化和改良各筛选出了 1-2% 的基因数据集(FGS,filtered gene set)。虽然这些基因可能是受到选择的,但是相邻基因的多样性也会因为搭便车效应而被限制。注意,驯化和改良中分别有 6%、11% 的区间内不包括任何基因,可能与玉米进化过程中的调控变异相关。
验证
基因的功能分析
一般通过同源分析或 GO 分析估计功能未知的候选基因,判断其是否与重要农艺性状相关,是否可能在驯化、改良的过程中受到选择。本文列举了以下几个例子。
- 同源基因功能已知 。驯化候选基因 GRMZM2G448355 是水稻基因 OsMADS56 的直系同源物,在长日照条件下延迟开花,处于已发现的开花时间相关的 9 号染色体 QTL 内。驯化候选基因 GRMZM2G010290 与拟南芥中影响种子萌发的 DAG1 和 DAG2 蛋白质显示出密切的序列同一性。GRMZM2G087612 的拟南芥直系同源基因 SDP1 功能为启动种子中储存油的分解。
- 基因结构域分析 。改良候选基因 GRMZM2G036464,编码谷氨酰胺合成酶,可能与氮代谢有关。
表达量分析
除了上述常见分析方法外,本文还对 25 优良品系、7 野生近缘种(parviglumis)的幼苗进行了 RNA-seq 分析。整体分析较为宏观,发现相比于地方品系,候选基因在改良品系内的表达量进一步升高。作者认为,选择目的 可能是 提高基因的表达量。