在外显子组测序或全基因组测序后,通过标准流程如GATK获得突变位点(SNP、InDel、CNV等)后,通常突变位点数据存储格式是VCF格式。但在后续的注释、合并、比较等过程中,首先要做的可能是对待处理的VCF文件进行标准化。
对于同一个突变位点(InDel),如果没有统一的描述规范的话,可能会有多种表示方式,这就会导致两个或多个VCF文件比较或注释时发生错误。现在最普遍的对其方式便是左对齐,下面通过两个例子来比较下标准化与未表转化的区别:
下图是多核苷酸多态性突变位点的多种表示方式,右下角的表示方式是标准化表示:
下图所示一个短串联重复序列上缺失突变的多种表示方式,右下角是标准化方式:
在一般的突变位点注释过程中,需要将待注释的文件和注释文件进行比较,如果两个文件没有统一的表示方式(未标准化),则会导致注释错误。 那么我们一般从标准 SNP calling
流程中得到的VCF文件是否是标准化的呢?答案是肯定的的,GATK2.0版本输出的VCF文件已经是标准化后的了。
那其他注释工具是否将注释文件进行了标准化呢?VEP可以进行左对齐及拆分。Annovar已经做了left-algned这一步,但需要注意的是,对于多等位基因位点,Annovar并不能自动处理,需要我们在注释前手动将多等位突变位点( multiallelics
)拆分到多行。既可以使用GATK提供的标准化的工具 LeftAlignAndTrimVariants
,也可以使用 bcftools norm
进行左对齐&拆分。
bcftools norm -m-both -o ex1.step1.vcf ex1.vcf.gz
bcftools norm -f human_g1k_v37.fasta -o ex1.step2.vcf ex1.step1.vcf
参考: https://genome.sph.umich.edu/wiki/Variant_Normalization http://annovar.openbioinformatics.org/en/latest/articles/VCF/
更多原创精彩视频敬请关注生信杂谈: