格式说明_vcf格式说明

VCF格式用于记录基因变异信息,包括基因型质量(GQ)、祖先等位基因(AA)、等位基因频率(AC)、碱基覆盖度(DP)等。GQ表示基因型存在的概率,Phred值表示错误率。GT字段展示基因型,AD表示等位基因深度,PL表示基因型可能性。定相基因型(PGT)涉及染色体信息,需要多样本定相。
摘要由CSDN通过智能技术生成

2020-8-2

其中GQ 代表genotype quality,Phred格式(Phred_scaled)的质量值,Phred值 = -10 * log (1-p) p为基因型存在的概率,表示该位点基因型存在的可能性。 和碱基质量值的表示一样,20表示错误率为1%。

AA :ancestral allele  祖先等位基因

AC : allele frequency for each ATL allele in the same order as listed: use this when estimated from primary data, not called genotype 对于每一个的变异在相同位置被列出来,当评估从之前的数据,而不是called基因型。

AN:表示Allele的总数目

 即:对于1个二倍体样本而言,0/1表示样本为杂合子,allele数为1(二倍体的位点一个一个位点发生了突变),allele的频率为0.5(二倍体的样品在该位点只有50%的等位基因发生了突变)总的allele为2,基因型1/1则表示样品为纯合,allele数为2,allele的频率为1,总allele为2。

DP:样本在这个位置的reads覆盖度,是一些reads被过滤后的覆盖度。

FS:使用Fisher精确检验来检验的strand bias而得到的fhred格式的p值,越小越好。

MQ:表示覆盖序列质量的均方值 RMS Mapping Quality

下面是主体的说明格式

GT:AD:DP:GQ:PGT:PID:PL

GT :genotype。/分隔表示为定向, |各自支持的碱基数目,表示已定相

AD : 两种碱基各自的碱基数目,用,分开,分别代表两个等位基因的深度;

DP : 该样品该变异位点的测序深度综合,也就是AD两个数字的总和。

PL : 归一化后各基因型的可能型,通常有三个数字用,隔开,顺序为AA,AB,BB基因型,A代表REF,B代表ALT,即0/0, 0/1, 1/1. 鉴于是归一化之后,数值越小代表基因型越可靠,那么最小的数字对应的基因型判读为盖样品的最可能的基因型。

PGT : phased genotype,

chrA01 1093 A G 0|1 chrA01 1103 C T 0|1 竖线左边的碱基来源于一条染色体,竖线右边的碱基来源于另一条染色体,即A,C来自相同的染色体;G,T来源于另一条染色体。定相这一步需要结合多个样本的信息。

df31166f72e1c891ca069b7909f967a3.png

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值