教程:群体遗传学方法分析玉米的驯化与改良

本文是 Edward S Buckler、Matthew B Hufford 等人于 2012 年在 NG 上发表的 letter,作为玉米 HapMap2 的子课题。作为资源数据的说明文章,本文没有创新性的方法,内容中规中矩,使用多种群体遗传学分析手段,比较了驯化和改良对玉米基因组的影响。本文可以作为一篇教程,记录在此以便日后查阅方便。

  1. 绘制系统发育进化树,观察各品系之间的遗传距离;
  2. 使用 XP-CLR、πρ、Fst、Tajima’s D、Fay and Wu’s H、LD、SNP 频率分布 等群体遗传参数进行全基因组分析;
  3. 在上述分析的基础上,利用合理阈值,筛选与驯化、改良相关的受选择区间与基因;
  4. 通过同源分析或 GO 分析等方法推断受选择基因的功能,验证其是否与驯化、改良相关,并举例说明;

PS:改良 是指地方品系培育成优良品系的过程,驯化 是指野生近缘种培育成地方品系的过程。


本文结论:

  1. 系统发育树中野生近缘种 聚集成簇,优良与地方品种 分散分布。不同的优良种由相应的地方品系改良而来,不同于驯化。
  2. 驯化和改良会增加了 低频 SNP 的比例,这可能与 中性突变 在受选择区间的 恢复 以亚群的 群体数量 有关。
  3. 驯化与改良之间存在 107 个区间的 交集 ,部分基因可能具有 持续改良 重要农艺性状的能力。
  4. 温带​​和热带品系中改良区间 交集较少( > 20%),说明温带和热带品系的 改良目标 存在 较大区别
  5. 相比于地方品系,候选基因在改良品系内的表达量进一步升高,选择目的 可能是 提高基因的表达量

Hufford, M., Xu, X., van Heerwaarden, J. et al. Comparative population genomics of maize domestication and improvement. Nat Genet 44, 808–811 (2012). https://doi.org/10.1038/ng.2309


材料

样本集为 75 个自交系(35优良 玉米品系、23地方 品种和 17野生 近缘种),每个品系的平均测序深度 > 5× 。reads 被映射到玉米参考基因组(版本 4a.53)上,经过缺失率 < 50% 筛选后得到 2114 w 个 SNP。


分析

系统发育进化树

野生近缘种聚类成簇,优良与地方品种分散分布。作者认为,不同的地方种改良成为优良种,而非统一被选择,所以群体瓶颈较弱,地方品系与优良品系间多样性、重组率等差异较小。


在这里插入图片描述


群体遗传学分析

XP-CLR

XP-CLR,cross-population composite likelihood ratio,跨群复合似然比,扫描全基因组,挖掘受选择区间。滑窗大小 10 kb,步长 100 bp(图 2b、c),相邻的超阈值 XP-CLR 窗口会被合并,视为单次选择清扫的效果。注意,作者将每个窗口中分析的 SNP 数量固定为 50。


在这里插入图片描述

πρ、Fst、Tajima’s D、Fay and Wu’s H、LD

驯化 降低 了群体的遗传多样性(图 2a)、重组率(地方品种的重组率为野生近缘种的 25 %),增加 了连锁不平衡程度、单倍型平均长度(地方品种的单倍型平均长度比野生近缘种增加了 22-30 kb ),


SNP 频率分布

比较近缘种与地方品系、地方品系与优良品系之间的 SFS 发现,驯化和改良都增加了 低频(rare) SNP 的比例,作者认为是中性突变在受选择区间的恢复导致的低频 SNP 比例增加,但我认为可能也与 群体数量 相关,亚群数量越大,低频 SNP 比例越大(优良 > 地方 > 近缘)。

地方品种在富含基因的区域具有较少的特有 SNP,并且没有过多的低频 SNP,这种差异可能是背景选择对有害突变及时的清除。



筛选

计算完各种指标后,根据数据特征确定合适的阈值来筛选可能受到选择的基因。

筛选区间

本文使用 XP-CLRTop 10% 作为阈值,筛选出了 484、695 个与驯化、改良有关的受选择区间。其中驯化与改良之间存在 107 个区间的 交集 ,说明某些基因可能具有 持续改良 重要农艺性状的能力。

驯化区间平均长度为 322 kb,包含 3.4 个基因,覆盖了大约 7.6% 的玉米基因组。作者估计驯化的平均选择强度为 s = 0.015,改良为 s = 0.003,中性为 s = 0.0011。同时,改良区间的长度以及包含的基因数量都明显低于驯化(图 2d、e),可能是由于改良发生在驯化的基础上。

同时,对温带​​和热带品系分别与地方品系进行 XP-CLR 扫描时,Top 10% 的改良区间 交集较少( > 20%),说明温带和热带品系的 改良目标 存在 较大区别


在这里插入图片描述

筛选基因

作者将每个区间内距离最大 XP-CLR 值最近的基因定义为候选基因,驯化和改良各筛选出了 1-2% 的基因数据集(FGS,filtered gene set)。虽然这些基因可能是受到选择的,但是相邻基因的多样性也会因为搭便车效应而被限制。注意,驯化和改良中分别有 6%、11% 的区间内不包括任何基因,可能与玉米进化过程中的调控变异相关。



验证

基因的功能分析

一般通过同源分析或 GO 分析估计功能未知的候选基因,判断其是否与重要农艺性状相关,是否可能在驯化、改良的过程中受到选择。本文列举了以下几个例子。

  1. 同源基因功能已知 。驯化候选基因 GRMZM2G448355 是水稻基因 OsMADS56 的直系同源物,在长日照条件下延迟开花,处于已发现的开花时间相关的 9 号染色体 QTL 内。驯化候选基因 GRMZM2G010290 与拟南芥中影响种子萌发的 DAG1 和 DAG2 蛋白质显示出密切的序列同一性。GRMZM2G087612 的拟南芥直系同源基因 SDP1 功能为启动种子中储存油的分解。
  2. 基因结构域分析 。改良候选基因 GRMZM2G036464,编码谷氨酰胺合成酶,可能与氮代谢有关。

表达量分析

除了上述常见分析方法外,本文还对 25 优良品系、7 野生近缘种(parviglumis)的幼苗进行了 RNA-seq 分析。整体分析较为宏观,发现相比于地方品系,候选基因在改良品系内的表达量进一步升高。作者认为,选择目的 可能是 提高基因的表达量


在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值