java 苹果vcf解析,VCF格式解析 | Public Library of Bioinformatics

VCF是用于描述SNP,INDEL和SV结果的文件,下面所记录的是以GATK软件结果的VCF文件,与SAMtools的结果有点不同

VCF文件可以分为两部分看,最上面#号注释的的部分是对一些参数的解释(看英文能懂的话,下面的解释就不用看了),而下面没#号注释的部分则是各个参数对应的具体的值

一般先关注以下几列信息,从左到右为:#CHROM POS ID REF ALT QUAL FILTER INFO

1 17538 rs200046632 C A 99.60 PASS

1 54421 rs146477069 A G 88.60 PASS

1 55299 rs10399749 C T 867.60 PASS

1 61442 rs74970982 A G 593.03 PASS

1 63268 rs75478250 T C 357.60 PASS

1 64310 rs367969174 A G 59.60 PASSCHROM :染色体编号

POS:参考基因组上variant碱基的位置,如果是INDEL,则该位置是INDEL第一个碱基的位置

ID:variant的ID,如果在dbSNP中有SNP的id,则显示其id,不然以点表示novel variant。

REF:参考序列上该位点对应的碱基

ALT:与参考序列上的碱基相比发生了突变的碱基,即Variant的碱基

QUAL:Phred格式(Phred_scaled)的质量值,表示该位点存在Variant的可能性,值越高表示突变可能性越大

FILTER:理想情况下,QUAL这个值应该是用所有的错误模型算出来的,这个值就可以代表正确的变异位点了,但是事实是做不到的。因此,还需要对原始变异位点做进一步的过滤。无论你用什么方法对变异位点进行过滤,过滤完了之后,在FILTER一栏都会留下过滤记录,如果是通过了过滤标准,那么这些通过标准的好的变异位点的FILTER一栏就会注释一个PASS,如果没有通过过滤,就会在FILTER这一栏提示除了PASS的其他信息(如:LowQual)。如果这一栏是一个“.”的话,就说明没有进行过任何过滤。

以上几列是最先关注的,接下来还有两列也是蛮重要的FORMAT和最后一列(最后一列一般为样品名),两者和一起则为基因型信息,前者为格式,后者为对应的数据,如:GT:AD:DP:GQ:PL 0/1:6,5:11:99:138,0,153GT:表示样品的基因型,对于二倍体生物,GT值表示的是样本在这个位点所携带的两个等位基因。0表示跟REF一样,1表示跟ALT一样,2表示有第二个ALT;当只有一个ALT等位基因时:0/0表示纯合子并跟REF一致;0/1表示杂合子,有两个allele,一个是ALT,另一个是REF;1/1表示纯合子并都为ALT

AD:两个以逗号分隔的值,分别表示覆盖到REF和ALT碱基的reads数,也就是REF和ALT对应的测序深度

DP:表示覆盖在这个位点的总reads数,也就是这个位点的测序深度(并不是指具体有多少个reads数量,而是大概满足一定质量值要求的reads数)

PL:三个逗号分隔的值,分别对应该位点的三个基因型0/0,0/1,1/1的没经过先验的标准化Phred-scaled似然值(L),L=-10lgP,P为支持该基因型的概率,3个概率总和为1;因此,L这个值越小,支持概率就越大,也就是说是这个基因型的可能性越大。

GQ:表示基因型的质量值,Phred格式(Phred_scaled)的质量值,Phred值 = -10 * log (1-p) p为基因型存在的概率,表示该位点基因型存在的可能性。

最后则是INFO列所包含的信息:AC=1;AF=0.500;AN=2;BaseQRankSum=0.748;ClippingRankSum=0.000;DB;DP=34;ExcessHet=3.0103;FS=3.424;MLEAC=1;MLEAF=0.500;MQ=31.07;MQRankSum=-0.087;QD=11.87;ReadPosRankSum=-1.349;SOR=2.636

AC=2;AF=1.00;AN=2;DB;DP=14;ExcessHet=3.0103;FS=0.000;MLEAC=2;MLEAF=1.00;MQ=31.60;QD=29.36;SOR=5.421AC:表示该Allele的数目,Allele数目为1表示双倍体的样本在该位点只有1个等位基因发生了突变

AF:表示Allele的频率,Allele频率为0.5表示双倍体的样本在该位点只有50%的等位基因发生了突变

AN:表示Allele的总数目

即:对于1个diploid sample而言:则基因型 0/1 表示sample为杂合子,Allele数为1(双倍体的sample在该位点只有1个等位基因发生了突变),Allele的频率为0.5(双倍体的 sample在该位点只有50%的等位基因发生了突变),总的Allele为2; 基因型 1/1 则表示sample为纯合的,Allele数为2,Allele的频率为1,总的Allele为2。DP:样本在这个位置的reads覆盖度,是一些reads被过滤掉后的覆盖度(跟上面提到的DP类似)

FS:使用Fisher’s精确检验来检测strand bias而得到的Fhred格式的p值,值越小越好

MQ:表示覆盖序列质量的均方值RMS Mapping Quality

BaseQRankSum:Z-score from Wilcoxon rank sum test of Alt Vs. Ref base qualities

ClippingRankSum:Z-score From Wilcoxon rank sum test of Alt vs. Ref number of hard clipped bases

ExcessHet:Phred-scaled p-value for exact test of excess heterozygosity

MLEAC:Maximum likelihood expectation (MLE) for the allele counts (not necessarily the same as the AC), for each ALT allele, in the same order as listed

MLEAF:Maximum likelihood expectation (MLE) for the allele frequency (not necessarily the same as the AF), for each ALT allele, in the same order as listed

MQRankSum:Z-score From Wilcoxon rank sum test of Alt vs. Ref read mapping qualities

QD:Variant Confidence/Quality by Depth

ReadPosRankSum:Z-score from Wilcoxon rank sum test of Alt vs. Ref read position bias

SOR:Symmetric Odds Ratio of 2x2 contingency table to detect strand bias

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值