gatk过滤_详解GATK突变硬过滤 | 群体遗传专题

GATK是基因变异检测的重要工具,它提供了多种质量标签用于过滤SNP和INDEL,确保变异数据的可靠性。关键过滤标准包括QD、FS、MQ、MQRankSum和ReadPosRankSum等,这些指标帮助去除低质量变异,如FisherStrand用于检测链特异性偏好,MQ衡量比对质量。通过这些过滤,可以得到适用于群体遗传分析的高质量变异数据集。
摘要由CSDN通过智能技术生成

对于联川的重测序组来说,每天都会和许许多多的SNP打交道(什么是SNP?),经手处理过的SNP位点何止上亿。而在他们手中,GATK(Genome analysis toolkit)是一柄锋利无比的雕刻刀,原始数据经过GATK的处理之后才能去伪存真,显出本色,进入后续的挖掘过程。

GATK(不是GANK也不是GTA!)这款软件是变异检测的常用软件,但是它不仅可以从比对信息中挖掘出大量的SNP和INDEL,还可以对挖掘出的变异进行质量检测和过滤。因为从比对信息中挖掘变异数据,就好像考古发掘的过程,最初的挖掘结果难免会真假混杂,泥沙俱下,如何对它们进行质量判断,从而为下游分析呈现出最好的数据便成了重中之重。

对于每一个SNP或者INDEL位点,GATK都会在鉴定出的同时给它们加上不同的质量标签,同时GATK官方也会推荐质量值过滤的标准。例如推荐的SNP过滤标准如下:

QD > 2.0

FS > 60.0

MQ > 40.0

MQRankSum > -12.5

ReadPosRankSum > -8.0

SOR > 3.0

不过光看这个,我们可能很难理解这些缩写背后究竟代表什么含义,下面我们就来具体看一下:

Qual:即quality质量值,以Phred格式存储,这个值越大,代表这里存在variant的可能性越高(计算方法与测序质量值Q20/Q30等类似)。

QD:QualByDepth,即经过深度校正的质量值,是使用Q

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值