gatk过滤_VCF文件中的原始突变过滤–filter raw variants in vcf

Hard filter突变的传统过滤方式

此时VCF文件中的突变,与刚开始下机得到的FASTQ文件类似,称为raw data。此时的突变集合中,有很多假阳性突变,这些突变需要在突变分析之前过滤掉。

传统的过滤方式,直接根据每个突变的注释信息,进行过滤。最直接和最常见的是根据DP标签过滤,即根据该突变位点的测序深度进行过滤。通常,深度越低,支持该突变的reads数目越少,该突变越不可信。还可以根据前面提到的QUAL质量分值进行过滤,分值越低越不可信。Forward reads和Reverse reads的比例。通过,设定一定的阈值,看这些注释信息是高于还是低于该阈值。

这种直接根据突变信息进行过滤的方式,GATK成为hard filter。GATK常用的hard filter参数还有DP < 10,QD < 2.0,FS > 60.0,MQ < 10.0,MQRankSum < -12.5,ReadPosRankSum < -8.0等方式。这些阈值通过GATK的VariantFiltration工具进行过滤,突变满足其中一条,就会被过滤。

这种过滤方式直接根据特定阈值就将突变过滤掉,考虑的维度较少,真实突变可能因为某一注释没有到达阈值而被错误的过滤掉。如果为了保留这些真实的突变,而放松阈值,又可能同样将假阳性突变保留。

Hard filter常用于panel测序,panel测序得到的突变位点较少,不足以通过机器学习的方式进行过滤。

VQSR突变质量分值再校准

虽然这步叫做Varaint Quality Score Recalibrate,但该步并没有再校准

  • 2
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值