VCF格式文件

Variant call format,用于记录variants(SNP/InDel)的文件格式。
分为两部分:以#开头的注释部分和没有#开头的主体部分。
主体部分包含10列数据,主体部分每一行代表一个variant的信息。
1.
CHROM:参考序列名称
2.
POS:variant所在的left-most位置(1-base position)(发生变异的位置的第一个碱基所在的位置)
3.
ID:variant的ID。同时对应着dbSNP数据库中的ID,若没有,则默认使用“.”
4.
REF:参考序列的allele(等位碱基,即参考序列该位置的碱基类型及碱基数量)
5.
ALT:variant的allele,若有多个,则使用逗号分隔(变异所支持的碱基类型及碱基数量),这里的碱基类型和碱基数量,对于SNP来说是单个碱基类型的编号,而对于InDel来说是指碱基个数的添加或缺失,以及碱基类型的变化
6.
QUAL:variant的质量,Phred格式的数值,代表此位点是纯合的概率,此值越大,则概率越低,代表此位点是variants的可能性越大(表示变异碱基的可能性)
7.
FILTER:此位点是否要被过滤掉,如果是PASS,则表示此位点可以考虑为variant
8.
INFO:variant的相关信息
9.
FORMAT:variant的格式,例如GT:AD:DP:GQ:PL
10.
SAMPLES:各个sample的值,由BAM文件中的@RG下的SM标签所决定,这些值对应着第9列的各个格式,不同格式的值用冒号分开,每一个sample对应着1列;多个sample则对应着多列,这种情况下列的数多余10列。

vcf文件的基因型信息
VCF文件的主体部分的第9列是基因型信息的多个标签,这些标签之间以冒号分隔,其对应的值位于第10列,同样以冒号分隔,表示第一个样品的基因型结果。
若有多个样品,则VCF文件超过10列,且第10列后的每一列表示一个样品的基因型结果。
第9列各个标签的意义展示如下:

GT:genotype
样品的基因型(genotype),两个数字中间用“/”分开,这两个数字表示二倍体的sample的基因型。
0表示样品中有ref的allele(可初步理解为和ref的碱基相同,即和REF相同);
1表示样品中的variant的allele(可以理解为和variant变异后的碱基相同,即和ALT相同);
2表示有第二个variant的allele(和ALT的 第二种碱基相同)对于SNP是指单个碱基类型相同而对于indel是指碱基类型及个数均相同

因此根据GT的结果得出以下结论:
0/0表示sample中该位点为纯合位点,和REF的碱基类型一致
0/1表示sample中该位点为杂合突变,有REF和ALT两个基因型(部分碱基和REF碱基类型一致,部分碱基和ALT碱基类型一致)
1/1表示sample中该位点为纯合突变,总体突变类型和ALT碱基类型一致
1/2表示sample中该位点为杂合突变,有ALT1和ALT2两个基因型(部分和ALT1碱基类型一致,部分和ALT2碱基类型一致)

AD和DP
AD(allele depth)为sample中每一种allele(等位碱基)的reads覆盖度,在diploid(二倍体,或可指代多倍型)中则是用逗号分隔的两个值,前者对应REF基因,后者对应ALT基因型
DP(depth)为sample中该位点的覆盖度,是所支持的两个AD值(逗号前和逗号后)的加和,例如:
1/1:0,175:175——GT:AD(REF),AD(ALT):DP
0/1:79,96:175
1/2:0,20,56:76
这里的三种类型对应的DP值均是其对应的AD值的加和,1/1的175是0+175,0/1的175是79+96,1/2的76是0+20+56

GQ(基因型存在的概率)
基因型的质量值(Genotype Quality)。Phred格式(Phred_scaled)的质量值,表示在该位点该基因型存在的可能性;该值越高,则Genotype的可能性越大;计算方法:Phred值=-10*log(1-P),P为基因型存在的概率。(一般在final.snp.vcf文件中,该值为99,为99时,其可能性最大)

PL(likelihood genotypes)
指定的三种基因型的质量值(provieds the likelihoods of the given genotypes);这三种指定的基因型为(0/0,0/1,1/1),这三种基因型的概率总和为1。该值越大,表明为该种基因型的可能性越小。Phred值=-10*log§,P为基因型存在的概率。最有可能的genotype的值为0。
例如:
0/1:889,0,216
0/1:94,0,940
1/1:269,18,0
1/1:580,54,0
1/2:3365,1522,1357,1842,0,1706
1/2:307,190,178,117,0,104
(0/0型3个数字,第一个为0
0/1型3个数字,中间为0
1/1型3个数字,最后一个为0
1/2型6个数字,倒数第二个为0)

vcf文件第8列信息
第8列的信息包括18种,都是以“TAG=Value”,并使用分号分隔的形式,其中很多的注释信息在VCF文件的头部注释中给出,下面对常用的TAG进行解释:

AC,AF和AN AC(Allele Count)
表示基因型为与variant一致的Allele(等位碱基)的数目;AF(Allele Frequency)表示Allele的频率,AF值=AC值/AN值;AN(Allele Number)表示Allele的总数目。比如:对2个sample的双倍体进行测序,则AN值为4。若REF上位点碱基为A,而2个sample在该位点分别为A/T和T/G,则AC值为2,1;AF值为0.50,0.25。AC:variant数目,AF:频率,AN:总数目

DP(reads覆盖度)
表示reads被过滤后的覆盖度

FS
FisherStrand的缩写,表示使用Fisher’s精确检验来检测strand bias而得到的Fhred格式的p值,该值越小越好;如果该值较大,表示strand bias(正负链偏移)越严重,即所检测到的variants位点上,reads比对到正负义链上的比例不均衡。一般进行filter的时候,推荐保留FS<10~20的variants位点。GATK可设定FS参数。

ReadPosRandSum
Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias.当variants出现在reads尾部的时候,其结果可能不准确。该值用于衡量alternative allele(变异的等位基因)相比于reference allele(参考基因组等位基因),其variant位点是否匹配到reads更靠中部的位置。因此只有基因型是杂合且有一个allele和参考基因组一致的时候,才能计算该值。若该值为正值,表明和alternative allele相当于reference allele,落来reads更靠中部的位置;若该值是负值,则表示alternative allele相比于reference allele落在reads更靠尾部的位置。
进行filter的之后,推荐保留ReadPosRankSum>-1.65~-3.0的variant位点

MQRankSum
该值用于衡量alternative allele上reads的mapping quality与reference allele上reads的mapping quality的差异。若该值是负数值,则表明alternative allele比reference allele的reads mapping quality差。进行filter的时候,推荐保留MQRankSum>-1.65~-3.0的variant位点。
在这里插入图片描述
在这里插入图片描述
在这里插入图片描述

评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值