文件怎么进行注释_突变位点注释前首先需要对VCF文件进行标准化

最新推荐文章于 2023-07-09 23:05:40 发布

黄冈新学爸

最新推荐文章于 2023-07-09 23:05:40 发布

阅读量1.7k

点赞数

文章标签：文件怎么进行注释

本文链接：https://blog.csdn.net/weixin_42298164/article/details/112701172

版权

在外显子组测序或全基因组测序后，通过标准流程如GATK获得突变位点(SNP、InDel、CNV等)后，通常突变位点数据存储格式是VCF格式。但在后续的注释、合并、比较等过程中，首先要做的可能是对待处理的VCF文件进行标准化。

对于同一个突变位点(InDel)，如果没有统一的描述规范的话，可能会有多种表示方式，这就会导致两个或多个VCF文件比较或注释时发生错误。现在最普遍的对其方式便是左对齐，下面通过两个例子来比较下标准化与未表转化的区别：

下图是多核苷酸多态性突变位点的多种表示方式，右下角的表示方式是标准化表示：

下图所示一个短串联重复序列上缺失突变的多种表示方式，右下角是标准化方式：

在一般的突变位点注释过程中，需要将待注释的文件和注释文件进行比较，如果两个文件没有统一的表示方式(未标准化)，则会导致注释错误。那么我们一般从标准 SNP calling 流程中得到的VCF文件是否是标准化的呢？答案是肯定的的，GATK2.0版本输出的VCF文件已经是标准化后的了。

那其他注释工具是否将注释文件进行了标准化呢？VEP可以进行左对齐及拆分。Annovar已经做了left-algned这一步，但需要注意的是，对于多等位基因位点，Annovar并不能自动处理，需要我们在注释前手动将多等位突变位点( multiallelics)拆分到多行。既可以使用GATK提供的标准化的工具 LeftAlignAndTrimVariants，也可以使用 bcftools norm进行左对齐&拆分。

bcftools norm -m-both -o ex1.step1.vcf ex1.vcf.gz

bcftools norm -f human_g1k_v37.fasta -o ex1.step2.vcf ex1.step1.vcf

参考： https://genome.sph.umich.edu/wiki/Variant_Normalization http://annovar.openbioinformatics.org/en/latest/articles/VCF/

更多原创精彩视频敬请关注生信杂谈:

黄冈新学爸

关注

0
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
文件怎么进行注释_突变位点注释前首先需要对VCF文件进行标准化

在外显子组测序或全基因组测序后，通过标准流程如GATK获得突变位点(SNP、InDel、CNV等)后，通常突变位点数据存储格式是VCF格式。但在后续的注释、合并、比较等过程中，首先要做的可能是对待处理的VCF文件进行标准化。对于同一个突变位点(InDel)，如果没有统一的描述规范的话，可能会有多种表示方式，这就会导致两个或多个VCF文件比较或注释时发生错误。现在最普遍的对其方式便...
复制链接

扫一扫