vcf文件格式详解: 主要讲解FORMAT和之后的样本格式信息

本文详细解析了vcf文件中的关键字段,如FORMAT部分的GT、AD、DP、GQ和PL,以及它们在表示基因型、等位深度和质量评估中的作用,特别提到多等位位点的理解和星号现象的处理。适合理解和记录遗传学数据。
摘要由CSDN通过智能技术生成

vcf文件格式详解:
主要讲解FORMAT和之后的样本格式信息
以二等位位点基因型解释为主
GT:AD:DP:GQ:PL

GT Genotype 基因型,主要包括 0/0 0/1 1/1 。0/0 是和参考基因组一致;0/1 是一条reads 突变,一条和参考基因组一致 也叫杂合snp;1/1 是两条reads都突变了,和参考基因不一致 也叫纯和snp
AD “Allelic depths for the ref and alt alleles in the order listed”
支持参考位点和比对位点的reads个数,因此有两个数值,参考位点,比对位点 DP 测序深度,其实等于AD的值的和
GQ 和 PL是结合着看的:
PL记录的信息是GT基因型判定的标准,随着测序深度的增加,一个位点的基因型三种类型都可能会出现(0/0,0/1,1/1 三者代表aa, Aa,AA a代表参考位点,A代表比对位点),那么应该判定该位点是什么基因型呢,就出现了PL的算法:归一化后各基因型的可能性。归一化之后,数值越小代表基因型越可靠。
三个数值,依次代表0/0,0/1,1/1的可能性数值
GQ是用于判断基因型的质量情况,数值为0-99,此值越大基因型质量值越好。
取自PL中第二小的数字,如果第二小的数字大于99,只取99。

另外还有多等位位点,理解意义和二等位位点差不多

附上两个参考链接(如果要全面了解vcf文件格式,就一定要看!)
看懂变异记录结果文件(VCF)
indel中出现了*星号的现象如如何解释

主要用于个人记录和理解,防丢失。欢迎补充。
最后点赞组学大讲堂👍

  • 9
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值