【群体遗传】Fst(群体间分化指数)

(1) F S T F_{ST} FST是什么?含义是什么?

F S T F_{ST} FST,全称为fixation index,是一种用于衡量群体间分化程度的统计检验量(由Wright’s F-statistics衍生而来)。 一般从SNP或microsatellites数据计算得到,且一般用在群体遗传学分析中。

microsatellites,即微卫星序列,是在一种串列重复序列 —— https://en.wikipedia.org/wiki/Microsatellite
但是现在WGS和RAD-Seq都已经非常普遍了,使用的是否还多我也不了解,就略了~

(2) F S T F_{ST} FST如何计算?

示例: F S T F_{ST} FST计算原理
AAAaaa
Pop1125250125
Pop2503020
Pop3100500400
1、统计每一个群体的等位基因数量

每一个Pop对应的基因型(genotype | genotyped individuals)数量为:

  • 500

  • 100

  • 1000

每一个Pop的等位基因数量(the number of allele)为:

  • 1000

  • 200

  • 2000

这边是biallelic类型(A or a),因此等位基因数量为基因型数量的2倍。

2、计算每一个群体实际的等位基因频率

Pop1中,

  • A allele实际的频率为 125 ∗ 2 + 250 ∗ 1 1000 \frac{125*2 + 250*1}{1000} 10001252+2501,即0.5

  • a allele实际的频率为 1- 0.5 = 0.5

Pop2中,

  • A allele实际的频率为 2 ∗ 50 + 30 ∗ 1 200 \frac{2*50 + 30*1}{200} 200250+301,即0.65

  • a allele实际的频率为 1- 0.65 = 0.35

Pop3中,

  • A allele的频率为 100 ∗ 2 + 500 2000 \frac{100*2 + 500}{2000} 20001002+500,即0.35

  • a allele的频率为 1- 0.35 = 0.65

3、计算每一个群体期望的基因型数量 & 差值

【标注】期望,即服从HD平衡理论,可以看看北京大学生物演化课程

Pop1中,

  • AA genotype期望的频率为125

  • Aa genotype期望的频率为250

  • aa genotype期望的频率为125

因此,Pop1中对应的基因型数量均无偏差。

Pop2中,

  • AA genotype期望的频率为42.25

  • Aa genotype期望的频率为45.5

  • aa genotype期望的频率为12.25

对应基因型数量的差值为+7.25, -15.5, +7.75。

Pop3中,

  • AA genotype期望的频率为122.5

  • Aa genotype期望的频率为455

  • aa genotype期望的频率为422.5

对应基因型数量的差值为-22.5, +45, -22.5。

对计算结果的理解,Pop1与计算得到的期望数值一样,服从HD平衡;Pop2实际纯合基因型数目与期望纯合基因型数目差值为正,表明存在inbreeding(近亲繁殖)事件;Pop3实际纯合基因型数目与期望纯合基因型数目差值为负,表明存在outbred事件,即亚群之间的isolation(生殖隔离)被打破,导致亚群之间能够产生后代。

4、统计每一个群体实际的杂合基因型占比

Pop1为0.5,Pop2为0.3,Pop3为0.5

【公式标注】 H o b s = 杂 合 基 因 型 数 目 总 个 体 数 H_{obs} = \frac{杂合基因型数目}{总个体数} Hobs=

5、计算每一个群体期望的杂合基因型占比

Pop1为0.5,Pop2为0.455,Pop3为0.455

【公式标注】 H e x p = 1 − ∑ ( p 2 + q 2 ) H_{exp} = 1-\sum(p^2 + q^2) Hexp=1(p2+q2)

6、计算A allele的频率均值

p ‾ = 2 ∗ 125 + 250 + 2 ∗ 50 + 30 + 2 ∗ 100 + 500 1000 + 200 + 2000 \overline{p} = \frac{2*125 + 250 + 2*50 + 30 + 2*100 + 500}{1000 + 200 + 2000} p=1000+200+20002125+250+250+30+2100+500,即0.4156

7、计算a allele的频率均值

1 − p ‾ = q ‾ 1 - \overline{p} = \overline{q} 1p=q,即0.5844

8、计算the global heterozygosity indices

1.首先使用 H o b s H_{obs} Hobs计算 H I H_{I} HI

H I = H o b s 1 ∗ N 1 + H o b s 2 ∗ N 2 + H o b s 3 ∗ N 3 N t o t a l H_{I}=\frac{H_{obs1}*N_{1} + H_{obs2}*N2 + H_{obs3}*N3}{N_{total}} HI=NtotalHobs1N1+Hobs2N2+Hobs3N3,带入数值,即0.4875

2.使用H_{exp}计算H_{S}

H S = H e x p 1 ∗ N 1 + H e x p 2 ∗ N 2 + H e x p 3 ∗ N 3 N t o t a l H_{S} = \frac{H_{exp1}*N_{1} + H_{exp2}*N2 + H_{exp3}*N3}{N_{total}} HS=NtotalHexp1N1+Hexp2N2+Hexp3N3,带入数值,即0.4691

3.计算global heterozygosity indicex的期望值

H T = 1 − ∑ ( p ‾ 2 + q ‾ 2 ) = 1 − ( 0.414 6 2 + 0.584 4 2 ) H_{T} = 1 - \sum(\overline{p}^2 + \overline{q}^2) = 1 - (0.4146^2 + 0.5844^2) HT=1(p2+q2)=1(0.41462+0.58442),即0.4845

9、计算the global F-statistics

1.计算 F I S = H S − H I H S F_{IS} = \frac{H_{S} - H_{I}}{H_{S}} FIS=HSHSHI,即-0.0393
2.计算 F S T = H T − H S H T F_{ST} = \frac{H_{T} - H_{S}}{H_{T}} FST=HTHTHS,即0.0344
3.计算 F I T = H T − H I H T F_{IT} = \frac{H_{T} - H_{I}}{H_{T}} FIT=HTHTHI,即-0.0036

10、计算结果说明了什么?

群体间分化的程度达到了3.4%

示例:vcftools计算F_{ST}

【标注】只适用于二倍体。

vcftools --gzvcf input.vcf.gz --weir-fst-pop pop1_sample_id.txt --weir-fst-pop pop2_sample_id.txt --fst-window-size 10000 --fst-window-step 10000 --out pop1_pop2

# 参数说明
--gzvcf            # 要求输入为.gz格式的vcf文件
--weir-fst-pop     # 输入VCF文件中的sample,为一个文本文件,每一行一个sample
--fst-window-size  # 设置计算Fst的窗口大小,根据自己的数据进行设置,看看别人文章里怎么用的
--fst-window-step  # 设置计算Fst的步长长度,根据自己的数据进行设置

(4) F S T F_{ST} FST计算完了之后该干啥?

在对两个群体之间进行不同区段的 F S T F_{ST} FST计算之后,需要判断哪一些区段,是“真正”受到了选择压力,根据近期看的文章,得到可以选择前5%的作 F S T F_{ST} FST为一个阈值,对区域进行划分,高于该阈值的被认为受到了选择压力的影响,进一步就可以得到是受到影响的是哪些SNP,最终即可得到受到影响的是哪些gene。

当然,对 F S T F_{ST} FST的计算结果可视化,当然也是非常重要的一部分,但是这篇文章主要想写的是计算原理以及如何使用vcftools进行计算。

参考资料

[1] https://en.wikipedia.org/wiki/Fixation_index
[2] http://www.uwyo.edu/dbmcd/popecol/maylects/fst.html
[3] The genome of oil-Camellia and population genomics analysis provide insights into seed oil domestication
image.png

  • 10
    点赞
  • 30
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
### 回答1: arlequin是一种用于分析群体遗传结构的计算机软件,可以计算群体遗传差异和分化程度。在该软件中,Fstfixation index)是用来评估群体遗传分化的一种常用指标。 要进行arlequin中的Fst计算,首先需要准备好输入文件。输入文件包括包含个体的遗传数据的各个群体的数据文件以及一个配置文件。数据文件通常包含各个个体的基因型或单倍型信息。 在配置文件中,我们需要指定各个群体的比较,并设置一些参数,例如计算Fst的方法和使用的遗传模型。不同的计算方法和模型会导致不同的结果,所以要根据研究的需求选择适合的参数设置。 完成输入文件的准备后,我们可以打开arlequin软件并导入配置文件和数据文件。在软件的界面上,选择相应的菜单选项并根据导入的文件设置参数。 一旦参数设置完成,我们就可以开始计算Fst了。arlequin会根据我们的参数设置自动计算各个群体Fst值,并生成相关的结果文件。通常计算结果会包括Fst值、标准误差和置信区等信息。 得到计算结果后,我们可以对结果进行统计学分析和解释。例如,我们可以比较不同群体Fst值,评估群体遗传差异。我们还可以根据Fst结果,推断群体的亲缘关系和迁移历史。 总结而言,arlequin是一种用于计算Fst的软件工具,可以帮助我们研究群体遗传结构和进化过程。通过准备输入文件、设置参数以及分析结果,我们可以利用arlequin来计算Fst并评估群体遗传分化程度。 ### 回答2: Arlequin是一款用于遗传数据的统计分析软件,可以用于计算多个种群之遗传差异和种群结构。而Fst(多基因型位点遗传差异)是衡量种群遗传距离的一种常用指标。 以下是一个简化的Arlequin计算Fst的教程: 1. 安装和打开Arlequin软件。确保您已经下载并正确安装了Arlequin软件。 2. 输入数据。在Arlequin软件的界面上,选择“文件”→“导入”以打开您的遗传数据文件。确保您的数据文件包含了来自不同种群的个体的基因型数据。 3. 设定参数。选择“参数”→“块”以设定分析参数。参数设置可以根据您的具体研究目的和数据特点来调整。一般来说,选择适当的遗传距离和统计方法是非常重要的。 4. 运行分析。选择“操作”→“计算Fst”以开始计算。根据数据的复杂程度和计算机的性能,这个过程可能会花费一些时。 5. 查看结果。计算完毕后,您可以在Arlequin软件的界面上查看结果。通常,Fst值越高,不同种群之遗传差异越大。 请注意,这只是一个简化的教程,真正的Arlequin计算Fst可能还涉及到更多的步骤和参数设置。建议在使用Arlequin软件进行实际分析之前,阅读Arlequin官方网站上的用户手册和教程,以便更好地了解软件的功能和操作方法。 ### 回答3: Arlequin是一个用于遗传群体分析的计算软件包,可以用来计算和处理基于核苷酸或微卫星遗传标记的遗传结构。 在Arlequin中计算Fst涉及以下步骤: 1. 数据准备:首先需要准备好输入数据文件,包括基于核苷酸或微卫星的遗传标记数据。这些数据应包括个体的基因型或等位基因频率信息,通常以文本格式存储。 2. 打开Arlequin:启动Arlequin软件,并选择适当的项目类型,例如核苷酸或微卫星数据。在新项目中导入准备好的输入数据文件。 3. 数据编辑:根据实验设计,可以选择编辑数据。例如,可以选择特定的种群组或个体子集进行分析。 4. 计算Fst:在数据编辑完成后,选择适当的遗传标记分析方法,然后进行Fst计算。Arlequin中的Fst计算通常基于AMOVA(Analysis of Molecular Variance)方法。 5. 结果解释:完成计算后,Arlequin将生成Fst值和相应的统计指标。这些结果可以用来描述不同种群之遗传差异。此外,Arlequin还提供了可视化工具,如生成分层聚类树和遗传图。 6. 结果导出:最后,你可以选择将计算结果导出为文本文件或图形文件,以进一步分析或表示。 需要特别注意的是,这只是Fst计算的基本步骤,在实际应用中可能还会涉及更多的数据处理和分析步骤。因此,建议用户参考Arlequin官方文档或相关教程,以获取更详细的指导和说明。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值