群体遗传进化Pi和Fst、XP-CLR计算方法

生信分析笔记

已于 2025-01-06 21:52:00 修改

阅读量3.4k

点赞数 20

文章标签：后端

于 2024-08-19 21:42:16 首次发布

本文链接：https://blog.csdn.net/ZaoJewin/article/details/141335604

版权

在遗传学中，群体指的是一组具有共同遗传特征的个体，而个体则是指单个生物体。群体中的个体之间可以存在遗传交流和基因流动，这会导致群体中的基因频率发生变化。今天分享的笔记是群体进化与选择分析，包括Pi、Fst、TajimaD、XP-CLR的介绍和计算方法。

首先，咱们都知道时间不会停止，也就意味着历史的车轮不会停止，自然界一直在不断地演化，不管是动物还是植物，都在不停的选择和分化。例如玉米小麦等植物，在很久以前可能发源于杂草，后来经过人的驯化，才改良为现在适宜栽培的品种。

什么是正选择？

正选择可以用自然选择来解释：假如一个基因或位点能够使个体有着更强的生存力，这样就会使个体的后代更多，如此一来，这个基因或位点在群体中就越来越多。

**举个例子：**以前非洲大草原有短颈鹿，后来偶然的突变导致长颈鹿产生，由于长颈鹿能吃到更多的食物，有着更高的存活率，所以导致这个突变受到正选择。

负选择

如果群体中的某个个体出现一个致命的突变，从而使自己或者是后代从群体中被淘汰，这也导致群体中该位点的多态性的降低。

**举个例子：**假如正常生长中的玉米群体中偶然发生了一个突变，导致水分吸收受阻，这种缺陷导致后代被淘汰，因此该突变位点的多态性会降低。

平衡选择

平衡选择指多个等位基因在一个群体的基因库中以高于遗传漂变预期的频率被保留，如杂合子优势。

核酸多样性Pi

Pi指的是核苷酸多样性，Pi值越大说明核苷酸多样性越高。通常用于衡量群体内的核苷酸多样性，也可以用来推演进化关系，可以理解成先在群体内两两求Pi，再计算群体的均值,常用软件是vcftools。

vcftools --vcf input.vcf --window-pi 200000 --window-pi-step 100000 --keep 1.sample.list --out pi_window_1.sample.list
# 检查文件的行数
wc -l pi_window_1.sample.list.windowed.pi

批量计算Pi的脚本：

#!/bin/bash
#定义所有以.txt结尾的sample.list文件
sample_files=(*.txt)
#循环执行命令
for sample in "${sample_files[@]}";do
    #生成输出文件名
    output="pi_window_${sample}"

    #输出调试信息
    echo "Running vcftools for $sample,output file: $output"
    #确认文件存在
    if [ ! -f "$sample" ];then
        echo &