在之前的一篇文章中,我们用到了vcftools来过滤得到的原始vcf文件,不过由于时间关系,过滤的参数还有待优化。其实我后来请教了师兄师姐,得知我们应当先了解vcftools的具体参数,然后选择自己所需参数去过滤数据,随后根据跑出来的树的结果不断调整范围直至吻合心目中理想的结果。
所以我去看了原版的vcftools使用手册VCFtools
然后总结了一些对于我来说比较用得上的,下面结合最近的计算结果写一写。
首先是一些基本选项:
•输入文件选项,用以定义需要过滤的VCF文件,例:
--vcf filename
如果文件是压缩的,那么可以输入
--gzvcf filename
输出文件选项,为vcftools生成的所有文件定义输出文件名前缀:
--out output_prefix
如果省略此步骤那么默认生成的文件在当前工作目录中具有前缀“out.”
筛选位点参数
排除标识符与<染色体>匹配的位点
--not-chr <chromosome>
保留具有匹配ID的SNP(例如dbSNP rsID)。此命令可以多次使用,以保留多个SNP。
--snp <string>
包括或排除文件中给定的SNP列表。该文件应包含SNP ID列表(例如dbSNP RSID),每行一个ID。不需要标题行。
--snps <filename>
--exclude <filename>
仅包括次要等位基因计数大于或等于“-mac”值且小于或等于“-max mac”值的位点。
--mac <integer>
--max-mac <integer>
仅包括次要等位基因频率大于或等于“-maf”值且小于或等于“-max maf”值的位点。
--maf <float>
--max-maf <float>
仅包括平均深度值(包括所有个体)大于或等于“-min meanDP”值且小于或等于“-max meanDP”值的场地。
--min-meanDP <float>
--max-meanDP <float>
根据Wigginton, Cutler and Abecasis (2005)的定义,使用精确测试评估Hardy-Weinberg平衡点。p值低于此选项定义的阈值的站点被视为不在HWE范围内,因此被排除在外。
--hwe <float>
根据缺失数据的比例排除站点(定义为介于0和1之间,其中0表示完全缺失的站点,1表示不允许缺失数据)。
--max-missing <float>
仅包括质量值高于此阈值的站点。
--minQ <float>
提供包含要在后续分析中包括或排除的个人列表的文件。每个单独的ID(如VCF标题行中的定义)应包含在单独的行中。如果两个选项都使用,则在“-remove”选项之前执行“-keep”选项。提供多个文件时,将保留所有保留文件中的个人联合减去所有删除文件中的个人联合。不需要标题行。
--keep <filename>
--remove <filename>
仅包括大于或等于“-minDP”值且小于或等于“-maxDP”值的基因型。此选项要求为所有站点指定“DP”格式标签。
--minDP <float>
--maxDP <float>
输出统计结果
--freq
生成包含每个个体的平均深度的文件。此文件的后缀为“.idepth”
--depth
使用阶段单倍型输出报告r2、D和D'统计数据的文件。这些是群体遗传学文献中经常报道的LD的传统测量方法。输出文件的后缀为“.hap.ld”。此选项假定VCF输入文件具有阶段性单倍型。
--hap-r2
此选项用于根据Weir and Cockerham’s1984年的论文计算Fst估计值。这是Fst的首选计算方法。提供的文件必须包含VCF文件中对应于一个总体的个体列表(每行一个个体)。此选项可多次用于计算两个以上总体的Fst。这些文件还将包含为“-keep”选项。默认情况下,计算是基于每个站点进行的。输出文件的后缀为“.weir.fst”。
--weir-fst-pop <filename>
这些选项可与“-weir fst pop”一起使用,以窗口方式而不是以每个站点为基础进行fst计算。这些参数指定所需的窗口大小和窗口之间所需的步长。
--fst-window-size <integer>
--fst-window-step <integer>
计算每个个体的杂合度。具体地说,近亲繁殖系数F是使用矩量法估计每个个体的。结果文件的后缀为“.het”。
--het
根据Hardy-Weinberg平衡测试(由Wigginton, Cutler and Abecasis (2005)定义)报告每个场地的p值。结果文件(后缀为“.hwe”)还包含观察到的纯合子和杂合子数量以及hwe下相应的预期数量。
--hardy
输出文件格式
这些选项用于在应用用户指定的筛选选项后,从输入VCF或BCF文件生成VCF或BCF中的新文件。输出文件的后缀为“.recode.vcf”或“.recode.bcf”。默认情况下,信息字段将从输出文件中删除,因为信息值可能因重新编码而无效(例如,如果删除个人,则可能需要重新计算总深度)。此行为可能被以下选项覆盖。默认情况下,BCF文件作为BGZF压缩文件写入。
--recode
--recode-bcf
这些选项可与上述重新编码选项一起使用,以定义要保留在输出文件中的信息键名称。此选项可多次用于保留更多信息字段。第二个选项用于将所有信息值保留在原始文件中。
--recode-INFO <string>
--recode-INFO-all