前言
根据MAF筛选SNP,对于常见的表型,稀有突变的作用一般较小,同时如果针对稀有突变进行选育或者研究时需要最小等位基因需要足够的个体数,那么这就需要有足够大的抽样群体,费时费力。同时稀有突变是由于基因型检测的错误导致的可能性更大。稀有突变一般在疾病中的研究比较多。
首先去除性染色体上的SNP,人的常染色体为1-22,使用以下代码即可将常染色体的SNP提取出来。
awk '{ if ($1 >= 1 && $1 <= 22) print $2 }' HapMap_3_r3_6.bim > snp_1_22.txt
常染色体一共有1398544个SNP(注意:这是经过SNP缺失质控后剩余的常染色体SNP数)
plink --bfile HapMap_3_r3_6 --extract snp_1_22.txt --make-bed --out HapMap_3_r3_7
plink --bfile HapMap_3_r3_7 --freq --out MAF_check
less MAF_check.frq
第一列是染色体号,第二列是SNP名,第三列和第四列是等位基因,第五列是次等位基因频率,第六列Number of allele observations(等位基因观察数)。
去除MAF小于0.05的位点
plink --bfile HapMap_3_r3_7 --maf 0.05 --make-bed --out HapMap_3_r3_8
可视化
前面统计的SNP频率可以通过R代码进行可视化,