2020-8-2
其中GQ 代表genotype quality,Phred格式(Phred_scaled)的质量值,Phred值 = -10 * log (1-p) p为基因型存在的概率,表示该位点基因型存在的可能性。 和碱基质量值的表示一样,20表示错误率为1%。
AA :ancestral allele 祖先等位基因
AC : allele frequency for each ATL allele in the same order as listed: use this when estimated from primary data, not called genotype 对于每一个的变异在相同位置被列出来,当评估从之前的数据,而不是called基因型。
AN:表示Allele的总数目
即:对于1个二倍体样本而言,0/1表示样本为杂合子,allele数为1(二倍体的位点一个一个位点发生了突变),allele的频率为0.5(二倍体的样品在该位点只有50%的等位基因发生了突变)总的allele为2,基因型1/1则表示样品为纯合,allele数为2,allele的频率为1,总allele为2。
DP:样本在这个位置的reads覆盖度,是一些reads被过滤后的覆盖度。
FS:使用Fisher精确检验来检验的strand bias而得到的fhred格式的p值,越小越好。
MQ:表示覆盖序列质量的均方值 RMS Mapping Quality
下面是主体的说明格式
GT:AD:DP:GQ:PGT:PID:PL
GT :genotype。/分隔表示为定向, |各自支持的碱基数目,表示已定相
AD : 两种碱基各自的碱基数目,用,分开,分别代表两个等位基因的深度;
DP : 该样品该变异位点的测序深度综合,也就是AD两个数字的总和。
PL : 归一化后各基因型的可能型,通常有三个数字用,隔开,顺序为AA,AB,BB基因型,A代表REF,B代表ALT,即0/0, 0/1, 1/1. 鉴于是归一化之后,数值越小代表基因型越可靠,那么最小的数字对应的基因型判读为盖样品的最可能的基因型。
PGT : phased genotype,
chrA01 1093 A G 0|1 chrA01 1103 C T 0|1 竖线左边的碱基来源于一条染色体,竖线右边的碱基来源于另一条染色体,即A,C来自相同的染色体;G,T来源于另一条染色体。定相这一步需要结合多个样本的信息。