【生信笔记】gvcf 和 vcf文件中的星号 * 是啥意思

分析的时候ALT中出现了*,(如下)懵逼。

#CHROM	POS	ID	REF	ALT	QUAL	FILTER	INFO	FORMAT
chr9	10105	rs575580161	C	*,A	180.66	VQSRTrancheSNP99.50to99.90	AC=3,2;AF=1.280e-03,8.532e-4;AN=2344;DB;DP=1886;ExcessHet=0;FS=0;InbreedingCoeff=0.331;MQ=40.98;NEGATIVE_TRAIN_SITE;PG=0,28,61,29,60,64;QD=25.81;SOR=0.223;VQSLOD=-3.718e+00;culprit=DP	GT:AD:DP:GQ:PL:PP

根据The Variant Call Format Specification文件(https://samtools.github.io/hts-specs/VCFv4.3.pdf)5.5内容可知,在gvcf中,*表示非特定的等位基因,其他可能的等位基因(包括SNP、INDEL或其他)。AC、AF等信息也是有2份,分别对应 ALT * 和 ALT A

这里提到* 优于<NON_REF> ,那<NON_REF>又是啥?这个在vcf4.2版本的header里就有说明。

##fileformat=VCFv4.2
##ALT=<ID=NON_REF,Description="Represents any possible alternative allele at this location">
##FILTER=<ID=LowQual,Description="Low quality">

...


#CHROM  POS ID  REF ALT QUAL    FILTER  INFO    FORMAT  NA12878
20  10001670    .   T   G,<NON_REF> 1773.77 .   DP=42;ExcessHet=3.0103;MLEAC=2,0;MLEAF=1.00,0.00;RAW_MQ=151200.00   GT:AD:DP:GQ:PGT:PID:PL:SB   1/1:0,42,0:42:99:0|1:10001661_T_C:1802,129,0,1802,129,1802:0,0,25,17

这俩好像是一个意思,盲猜是因为*占的内存比<NON_REF>小,所以更优。。

 

而在vcf中,*则被认为是优于上游deletion导致的missing。

 

参考资料:

https://samtools.github.io/hts-specs/VCFv4.2.pdf

https://samtools.github.io/hts-specs/VCFv4.3.pdf

  • 7
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值