好像最近大家都在做过滤,借此整理一下
plink对文件格式敏感,更容易报错,所以我先使用vcftools过滤,后续的LD过滤,文件格式转换,pca的时候再使用plink
stacks流程测试数据
特点:没有chromsome信息,没有质量信息,只记录了一个等位基因的信息
#CHROM POS ID REF ALT QUAL FILTER INFO FORMATun 13 1_11 T C . PASS NS=59;AF=0.034;locori=p GT:DP:ADun 18 1_16 G A . PASS NS=59;AF=0.068;locori=p GT:DP:ADun 46 1_44 G A . PASS NS=59;AF=0.025;locori=p GT:DP:ADun 105 2_7 C A . PASS NS=50;AF=0.010;locori=p GT:DP:ADun 134 2_36 A T . PASS NS=50;AF=0.380;locori=p GT:DP:ADun 187 2_89 T G . PASS NS=50;AF=0.010;locori=p GT:DP:AD
(1) 查看样本缺失情况,计算缺失值
vcftools --vcf ./batch_1.vcf --missing-indv##生成文件:.imiss/.logcat out.imissINDV N_DATA N_GENOTYPES_FILTERED N_MISS F_MISSPCI16.1 1416 0 99 0.0699153PCI17.1 1416 0 119 0.0840395PCI18.1 1416 0 166 0.117232PCI20.1 1416 0 190 0.134181PCI23.1 1416 0 113 0.0798023PDI17.1 1416 0 282