VCF格式文件

最新推荐文章于 2024-12-18 20:25:18 发布

Jing 我愿。

最新推荐文章于 2024-12-18 20:25:18 发布

阅读量2.6k

点赞数

分类专栏：生物文章标签：学习

本文链接：https://blog.csdn.net/qq_42351541/article/details/124246622

版权

生物专栏收录该内容

8 篇文章

订阅专栏

Variant call format，用于记录variants（SNP/InDel）的文件格式。
分为两部分：以#开头的注释部分和没有#开头的主体部分。
主体部分包含10列数据，主体部分每一行代表一个variant的信息。
1.
CHROM：参考序列名称
2.
POS：variant所在的left-most位置（1-base position）（发生变异的位置的第一个碱基所在的位置）
3.
ID：variant的ID。同时对应着dbSNP数据库中的ID，若没有，则默认使用“.”
4.
REF：参考序列的allele（等位碱基，即参考序列该位置的碱基类型及碱基数量）
5.
ALT：variant的allele，若有多个，则使用逗号分隔（变异所支持的碱基类型及碱基数量），这里的碱基类型和碱基数量，对于SNP来说是单个碱基类型的编号，而对于InDel来说是指碱基个数的添加或缺失，以及碱基类型的变化
6.
QUAL：variant的质量，Phred格式的数值，代表此位点是纯合的概率，此值越大，则概率越低，代表此位点是variants的可能性越大（表示变异碱基的可能性）
7.
FILTER：此位点是否要被过滤掉，如果是PASS，则表示此位点可以考虑为variant
8.
INFO：variant的相关信息
9.
FORMAT：variant的格式，例如GT：AD：DP：GQ：PL
10.
SAMPLES：各个sample的值，由BAM文件中的@RG下的SM标签所决定，这些值对应着第9列的各个格式，不同格式的值用冒号分开，每一个sample对应着1列；多个sample则对应着多列，这种情况下列的数多余10列。

vcf文件的基因型信息
VCF文件的主体部分的第9列是基因型信息的多个标签，这些标签之间以冒号分隔，其对应的值位于第10列，同样以冒号分隔，表示第一个样品的基因型结果。
若有多个样品，则VCF文件超过10列，且第10列后的每一列表示一个样品的基因型结果。
第9列各个标签的意义展示如下：

GT：genotype
样品的基因型（genotype），两个数字中间用“/”分开，这两个数字表示二倍体的sample的基因型。
0表示样品中有ref的allele（可初步理解为和ref的碱基相同，即和REF相同）；
1表示样品中的variant的allele（可以理解为和variant变异后的碱基相同，即和ALT相同）；
2表示有第二个variant的allele（和ALT的第二种碱基相同）对于SNP是指单个碱基类型相同而对于indel是指碱基类型及个数均相同

因此根据GT的结果得出以下结论：
0/0表示sample中该位点为纯合位点，和REF的碱基类型一致
0/1表示sample中该位点为杂合突变，有REF和ALT两个基因型（部分碱基和REF碱基类型一致，部分碱基和ALT碱基类型一致）
1/1表示sample中该位点为纯合突变，总体突变类型和ALT碱基类型一致
1/2表示sample中该位点为杂合突变，有ALT1和ALT2两个基因型（部分和ALT1碱基类型一致，部分和ALT2碱基类型一致）

AD和DP
AD(allele depth）为sample中每一种allele（等位碱基）的reads覆盖度，在diploid（二倍体，或可指代多倍型）中则是用逗号分隔的两个值，前者对应REF基因，后者对应ALT基因型
DP（depth）为sample中该位点的覆盖度，是所支持的两个AD值（逗号前和逗号后）的加和，例如：
1/1：0,175:175——GT：AD（REF），AD（ALT）：DP
0/1：79，96：175
1/2：0，20，56：76
这里的三种类型对应的DP值均是其对应的AD值的加和，1/1的175是0+175，0/1的175是79+96，1/2的76是0+20+56

GQ（基因型存在的概率）
基因型的质量值（Genotype Quality）。Phred格式（Phred_scaled）的质量值，表示在该位点该基因型存在的可能性；该值越高，则Genotype的可能性越大；计算方法：Phred值=-10*log(1-P)，P为基因型存在的概率。（一般在final.snp.vcf文件中，该值为99，为99时，其可能性最大）

PL（likelihood genotypes）
指定的三种基因型的质量值（provieds the likelihoods of the given genotypes）；这三种指定的基因型为（0/0，0/1，1/1），这三种基因型的概率总和为1。该值越大，表明为该种基因型的可能性越小。Phred值=-10*log§，P为基因型存在的概率。最有可能的genotype的值为0。
例如：
0/1:889,0,216
0/1:94,0,940
1/1:269,18,0
1/1:580,54,0
1/2:3365,1522,1357,1842,0,1706
1/2:307,190,178,117,0,104
（0/0型3个数字，第一个为0
0/1型3个数字，中间为0
1/1型3个数字，最后一个为0
1/2型6个数字，倒数第二个为0）

vcf文件第8列信息
第8列的信息包括18种，都是以“TAG=Value”，并使用分号分隔的形式，其中很多的注释信息在VCF文件的头部注释中给出，下面对常用的TAG进行解释：

AC，AF和AN AC（Allele Count）
表示基因型为与variant一致的Allele（等位碱基）的数目；AF（Allele Frequency）表示Allele的频率，AF值=AC值/AN值；AN（Allele Number）表示Allele的总数目。比如：对2个sample的双倍体进行测序，则AN值为4。若REF上位点碱基为A，而2个sample在该位点分别为A/T和T/G，则AC值为2，1；AF值为0.50，0.25。AC：variant数目，AF：频率，AN：总数目

DP（reads覆盖度）
表示reads被过滤后的覆盖度

FS
FisherStrand的缩写，表示使用Fisher’s精确检验来检测strand bias而得到的Fhred格式的p值，该值越小越好；如果该值较大，表示strand bias（正负链偏移）越严重，即所检测到的variants位点上，reads比对到正负义链上的比例不均衡。一般进行filter的时候，推荐保留FS<10~20的variants位点。GATK可设定FS参数。

ReadPosRandSum
Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias.当variants出现在reads尾部的时候，其结果可能不准确。该值用于衡量alternative allele（变异的等位基因）相比于reference allele（参考基因组等位基因），其variant位点是否匹配到reads更靠中部的位置。因此只有基因型是杂合且有一个allele和参考基因组一致的时候，才能计算该值。若该值为正值，表明和alternative allele相当于reference allele，落来reads更靠中部的位置；若该值是负值，则表示alternative allele相比于reference allele落在reads更靠尾部的位置。
进行filter的之后，推荐保留ReadPosRankSum>-1.65~-3.0的variant位点

MQRankSum
该值用于衡量alternative allele上reads的mapping quality与reference allele上reads的mapping quality的差异。若该值是负数值，则表明alternative allele比reference allele的reads mapping quality差。进行filter的时候，推荐保留MQRankSum>-1.65~-3.0的variant位点。
在这里插入图片描述