文件怎么进行注释_突变位点注释前首先需要对VCF文件进行标准化

在外显子组测序或全基因组测序后,通过标准流程如GATK获得突变位点(SNP、InDel、CNV等)后,通常突变位点数据存储格式是VCF格式。但在后续的注释、合并、比较等过程中,首先要做的可能是对待处理的VCF文件进行标准化

    对于同一个突变位点(InDel),如果没有统一的描述规范的话,可能会有多种表示方式,这就会导致两个或多个VCF文件比较或注释时发生错误。现在最普遍的对其方式便是左对齐,下面通过两个例子来比较下标准化与未表转化的区别:

下图是多核苷酸多态性突变位点的多种表示方式,右下角的表示方式是标准化表示: ec5f0724d41674cad5b073265f880b39.png

  下图所示一个短串联重复序列上缺失突变的多种表示方式,右下角是标准化方式: 483119c25d01d2aca20a9ae00630bf13.png

    在一般的突变位点注释过程中,需要将待注释的文件和注释文件进行比较,如果两个文件没有统一的表示方式(未标准化),则会导致注释错误。 那么我们一般从标准 SNP calling 流程中得到的VCF文件是否是标准化的呢?答案是肯定的的,GATK2.0版本输出的VCF文件已经是标准化后的了。 8a9e4b15a85a688b4b2653c6d023797e.png

    那其他注释工具是否将注释文件进行了标准化呢?VEP可以进行左对齐及拆分。Annovar已经做了left-algned这一步,但需要注意的是,对于多等位基因位点,Annovar并不能自动处理,需要我们在注释前手动将多等位突变位点( multiallelics)拆分到多行。既可以使用GATK提供的标准化的工具 LeftAlignAndTrimVariants,也可以使用 bcftools norm进行左对齐&拆分。

bcftools norm -m-both -o ex1.step1.vcf ex1.vcf.gz

bcftools norm -f human_g1k_v37.fasta -o ex1.step2.vcf ex1.step1.vcf

参考: https://genome.sph.umich.edu/wiki/Variant_Normalization http://annovar.openbioinformatics.org/en/latest/articles/VCF/


更多原创精彩视频敬请关注生信杂谈:

96882bb2d1919054179a2d72dc77a89a.png

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值