VCF文件主题有两部分组成:
1、注释文件:包括了
##fileformat=VCFv4.1 #文件格式版本
##program=fas2vcf #文件生成系统
##samples=DUNA3503 #样本个体编号
##FORMAT=<ID=GT,Number=1,Type=String,Description="Genotype">
2、主体文件:
#CHROM POS ID REF ALT QUAL FILTER INFO FORMAT DUNA3503 D
CHROM:染色体位置
POS: 碱基所在的位置
ID: dbSNP里的rs编号
REF和ALT: 变异位点处,参考基因组中的碱基和研究对象对应的碱基
QUAL:质量值,可以理解为所call出来的变异位点的质量值。表 示在该位点存在variant的可能性;该值越高,则variant的可能性越大;
计算方法:① Q=-10*lgP,Q表示质量值;P表示这个位点发生错误的概率。
②Phred值Q = -10 * lg (1-p) ,p为variant存在的概率;
通过计算公式可以看出值为10的表示错误概率为0.1,该位点为variant的概率为90%。
同理,当Q=20时,错误率就控制在了0.01。
FILTER: FILTER一栏就会注释一个PASS,没有进行过任何过滤的话就注释为“.”。
GT: 表示这个样本的基因型,对于一个二倍体生物,GT值表示的是这个样本在这个位点所携带的两个等位基因。0表示跟REF一样;1表示表示跟ALT一样;2表示第二个ALT。当只有一个ALT 等位基因的时候,0/0表示纯和且跟REF一致;0/1表示杂合,两个allele一个是ALT一个是REF;1/1表示纯和且都为ALT