文章主要讨论了在 时间、空间 两个维度下 重组、漂变 等 随机因素 的引入,使选择清扫留下 遗传图谱不断磨损。如硬清扫图谱磨损至软清扫,再到中性。磨损不仅会导致 选择痕迹变轻,还会导致 图谱的连续性被破坏。如随机性还会导致图谱被 ”打断“,使研究人员难以确定两个相近的清扫是两次选择留下的,还是一次选择留下的。作者模拟并计算了各种情况下的多种群体遗传统计参数,通过机器学习模型 SVM 对遗传图谱的类别进行判断,以箱线图、折线图的方式形象展示了各种因素对遗传图谱的磨损。可惜的是作者提出了问题,但没有给出相应的解决方案。也许是工作量或研究目的原因,作者并没有将 SVM 与其他预测软件进行比较,讨论是否 SVM 无法处理的问题可以被别的算法所解决。
名词解释
- 软肩效应(soft-shoulder effect):硬清扫选择位点的相邻中性区间,由于突变、重组等因素,可能呈现出类似不完全清扫或软清扫的图谱。
- 不完全清扫(incomplete sweep):受选择的位点尚未固定时留下的群体遗传图谱。尚未固定的原因可能是采样时选择仍在进行中,或者等位基因具有杂合优势,或者固定完成前环境改变,有益突变转变为中性、有害突变。
- 基因转换(Gene conversion):生物基因组中一段 DNA 序列将另一段与其同源的 DNA 序列取代的机制,可在减数分裂时发生在同源染色体对应的等位基因之间(allelic gene conversion),也可发生在染色体内或同源染色体间的同源基因(如基因簇或串连重复基因中的数个基因)之间(ectopic gene conversion),使各基因序列趋于一致。
实验步骤
1. 群体模拟参数
- 群体内个体数: N = 50 N=50 N=50
- 群体突变率: θ = 4 N μ = 0.01 θ=4Nμ=0.01 θ=4Nμ=0.01, μ μ μ 为碱基突变率
- 突变热点的群体突变率( 4 N μ A 4Nμ_A 4NμA)是从均匀分布 U ( 1 , 2.5 ) U(1,2.5) U(1,2.5) 中随机抽取得到
- 常态突变的频率是从均匀分布 U ( 0.05 , 0.2 ) U(0.05, 0.2) U(0.05,0.2) 中随机抽取得到
- 选择系数与群体大小: α = 2 N s = 1000 / 2000 / 3000 α=2Ns=1000/2000/3000 α=2Ns=1000/2000/3000, s s s 为选择系数(压力)
- 群体重组率: ρ = 4 N r L ρ=4NrL ρ=4NrL, r r r 为碱基对间交换率, L L L 为两碱基间距离(单位 bp);在模拟中 N , r N, r N,r 固定,所以 ρ ρ ρ 主要用于反映距离 L L L
- 群体基因转换率: 4 N γ = [ 0 , 50 , 100 , . . . , 450 , 500 ] 4Nγ= [0, 50, 100, ..., 450, 500] 4Nγ=[0,50,100,...,450,500]
- 染色体区间长度: 10 / 100 / 210 / 500 k b 10/100/210/500 kb 10/100/210/500kb
- 突变固定后的观测时间点: 0.000625 / 0.00125 / 0.0025 / 0.005 / 0.01 / 0.02 / 0.04 / 0.08 / 0.16 / 0.32 / 0.64 / 1.28 ∗ 2 N 0.000625/0.00125/0.0025/0.005/0.01/0.02/0.04/0.08/0.16/0.32/0.64/1.28 * 2N 0.000625/0.00125/0.0025/0.005/0.01/0.02/0.04/0.08/0.16/0.32/0.64/1.28∗2N
- 模拟次数: 1000 1000 1000
2. 群体模拟数据集(Table S1)
- 1 - 8:SVM 的 训练集,区间长度 10kb(total ρ = 100 ρ=100 ρ=100),选择位点在区间中间(0.5)。
- 9 - 11:测试硬清扫位点的侧翼 连锁区间 的图谱被判断为 软清扫 的可能性,区间长度 100/200/500 kb,选择位点在区间左侧(0.05)。
- 12 - 15:测试硬清扫位点的侧翼 连锁区间 的图谱被判断为 不完全清扫 的可能性,区间长度 100/200 kb,选择位点在区间中间(0.5)。
- 16 - 18:检测硬、软清扫侧翼被错误识别的可能性,与使用 最值定位法 的准确性,区间长度 210kb,选择位点在区间中间,两边侧翼各有 100kb 的区间。
- 19:测试固定后 时间 因素对 选择位点的遗传图谱 的影响,区间长度 10kb,选择位点在区间中间。
- 21:测试固定后 时间 因素对选择位点 侧翼图谱 的影响,以及是否会影响 选择位点 的判断,区间长度 210kb,选择位点在区间中间。
3. 根据模拟结果计算各群体遗传统计参数
群体遗传统计参数主要分为以下几类:
- 等位基因数量及频率:核酸多样性 π π π、Tajima’s D D D、Fay and Wu’s θ H θ_H θH、H 统计
- 单倍型数量及频率
- 连锁不平衡:LD、Kelly’s Z n S Z_{nS} ZnS、Kim and Nielsen’s ω ω ω
- iHS(integrated haplotype score,综合单倍型评分)
将模拟数据集以 10kb 为单元对区间进行分割,使一个大区间划分为多个小窗口,计算每个窗口中各统计参数的数值。1000 次模拟会得到 1000 组值,下图将结果以箱线图的方式呈现。纵坐标为参数值,横坐标为遗传距离, ρ / α = 2 r L / s = 2 r × L / s ρ/α=2rL/s=2r×L/s ρ/α=2rL/s=2r×L/s, ρ / α ρ/α ρ/α 代表的是一种遗传距离而非物理距离,所反映的物理距离随选择强度的增加而增加。
可以发现,不同参数类别变化速度不同,如 π π π 在 ρ / α ρ/α ρ/α 为 0.15-0.25 时基本与软清扫图谱相似,而 单倍型数量 则在 ρ / α ρ/α ρ/α 为 0.450.55 时基本与软清扫图谱相似 。可以理解为:不同参数对选择、重组等因素的敏感性不同。其他参数的箱线图参见文章附录。
4. 使用 SVM 预测区间类别
上述各参数作为 SVM 的输入特征。将模拟数据集 1 - 8 作为训练集,使用网格搜索训练 SVM,然后预测 9 - 11 中每个窗口的类型(硬清扫、软清扫、中性),1000 次会得到 1000 次预测结果。下图横坐标为遗传距离,纵坐标为各种分类的百分比,展示了使用等位基因频率( π π π,图 2A)、单倍型数量(图 2B)作为特征时 SVM 的预测结果。从图中可以发现,受选择位点所在区间的预测都是准确的 —— 硬清扫。在与受选择位点连锁的中性区间的判断上,随着距离的增加,SVM 预测区间为硬清扫的概率在降低,软清扫的概率先升后降,中性的概率不断增加。其中以 π π π 作为特征时 SVM 较为敏感,当 ρ / α = 0.2 ρ/α= 0.2 ρ/α=0.2 时 SVM 已经很难将区间预测为硬清扫。
同时作者发现,将 4 类群体遗传统计参数一起作为特征输入 SVM 也并不能改变硬清扫附近连锁中性区间的软清扫图谱(图 2D)。
5. 挖掘受选择位点所在区间
值得注意的是,我们研究选择留下的遗传图谱的目的是挖掘受选择位点。所以准确挖掘受选择位点所在的区间是一个十分重要的问题。如果错将受选择区间邻近的中性区间误判成受选择区间,那么对后续的基因功能分析会带来很多误差。
- 从上面的实验结果可以看出,各种遗传统计参数值都显示出了良好的趋势性,受选择位点都是参数的最值处(波峰或波谷),那么是否只要图具有良好的波形,其波峰或波谷处就是受选择位点所在的区间?
- 从 SVM 的预测结果可以看出,预测判定具有良好的趋势性,都是从硬清扫逐渐过渡到软清扫,再到中性。在这种规律下,软肩效应对实际的预测影响不大。那么是否可以粗略的判断,如果是 “中-软-硬-软-中” 模式,则受选择位点在硬清扫区间;如果因选择压力不强等因素导致 “中-软-软-软-中” 模式,即软清扫下的固定,则受选择位点在软清扫区间的中部?
5.1 最值定位法
模拟数据集 16 - 18 的结果显示,硬清扫中最值定位比较准确,但是在软清扫中定位不够准确。下图展示了两个定位准确度较高的统计参数的频率分布图。最值定位法缺点:1. 无法识别到单元区间内(如本文是 10kb)发生多次选择的情况;2. 漂变、重组等因素中的随机性会在固定后时间的增加中被不断放大,造成最值与受选择位点间距离不断增加(见下文)。
5.2 预测定位法
以 SVM 预测出的 “中性” 区间作为清扫间的分割点,受选择位点约在每个清扫区间的中部。预测定位法缺点与最值定位法一样,随机性所导致的偶然 “中性” 会意外的多切割出一个受选择区,造成误差。
如 SVM 在预测模拟数据 16 时,判断硬扫描的正确率是 97.9%,但其中有 68.1% 的模拟群体中检测到了多次选择(清扫之间间隔至少1个 “中性“ 区间。这也导致两个 距离较近 的清扫,难以判断是 两个选择 还是 一个因随机因素被 ”打断“ 的选择。
6. 时间对固定后遗传图谱的影响
当有益突变固定后,区间就转变成为了 “中性”,影响图谱的因素不再有选择系数,只剩下重组、漂变等随机因素。所以问题转变为 随机因素对硬、软清扫遗传图谱的影响。
模拟 19、21 的 SVM 预测结果如下图,趋势与距离相似,随着时间的增加,硬清扫被准确判定的概率不断降低,预测为软清扫概率先增后减,预测为中性的概率不断增加。同样,使用全部群体遗传统计参数作为特征也无法抵挡时间带来的 ”磨损“。
不同统计参数作为特征的实验结果显示,等位基因频率( π π π)对时间的敏感性较低,可以较为稳定的保持原有属性,而单倍型频率则较为敏感,在时间下容易被磨损。如在 0.000625×2N 代时,单倍型纯合度的错误率为 44.9%,0.01×2N 代时错误率为 51%,0.08×2N 代时错误率为 91.4% 。
总结
- 重组、漂变等随机因素会导致区间多样性增加,使遗传图谱变 ”软“。但以群体遗传统计参数或其组合作为特征,使用 SVM 方法,并不能有效区分硬清扫的 “肩部” 和软清扫间的差异。
- 随机因素会导致参数及预测的趋势被破坏,从而导致图谱识别的不准确,受选择位点定位的不准确,突变效应推断不准确等等。
- 随机因素带来的随机性会随着固定后时间的增加而扩大,SVM 的预测精度会不断降低。
- 使用最值定位法或预测定位法并不能有效去除随机因素的影响。