gatk过滤_快速入门GATK | Public Library of Bioinformatics

GATK是基因组分析的强大工具,适用于变异位点寻找和基因分型。本文介绍了作者如何从零开始学习GATK,通过SNP calling流程,包括Add read groups、Mark duplicates、Realign reads等步骤,逐步建立对GATK的理解。重点强调了GATK在降低假阳性变异中的作用,如BaseRecalibrator和VariantFiltration。
摘要由CSDN通过智能技术生成

GATK,全称是Genome Anlysis Toolkit,顾名思义,是一套用于分析基因组的工具箱。主要功能是寻找变异位点和基因分型,但是实际上功能超多,导致初学者都不知道从何学习GATK。

最近因为mapping-by-sequencing要寻找variant,所以接触了GATK。我相信很多人第一眼看到GATK是茫然的,因为它的功能实在是太多了,都不知道从何开始。这里就说下我是如何在一脸茫然的情况下学习GATK。

GATK的功能虽然超级多,但主要可以归为以下几个方面:诊断和质量控制工具(Diagnostics and Quality Control Tools)

序列数据处理工具(Sequence Data Processing Tools)

变异位点探索工具(Variant Discovery Tools)

变异位点评估工具(Variant Evaluation Tools)

变异位点操作工具(Variant Manipulation Tools)

注释模块

读段(reads)过滤

资源文件解码工具

参考序列实用工具

如何快速建立GATK的心理表征

这里面的每一项点开都有好多内容,我第一次点开的时候,也是一脸茫然,不知道从何入手。

但是根据《认知学习法》,最好的学习方式就是“不要怂,直接上”,找到一个已有流程,先把代码敲上去,然后慢慢理解每一行代码的作用,建立一个模糊的心理表征,然后循序渐进,慢慢学习其他工具,最后就能熟练使用GATK了。

所以记下来主要的任务,就是带大家建立关于GATK的模糊概念。

mapping-by-sequencing其中一个重要环节就是“SNP calling”,我最初用的是samtools和bcftools,结果的variant特别多(估计很多是假阳性).虽然最后还是找到了causual mutation, 但是为了保证今后causual mutation的准确性,我发现了有文章使用了GATK。他给的代码如下:1. Add read groups (Picard tools)

AddOrReplaceReadGroups.jar I=sorted.bam_file O=s1.rg.bam RGLB=genome RGPL=ILLUMINA

RGPU=GATKv4 RGSM=sample_name VALIDATION_STRINGENCY=LENI

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值