GATK,全称是Genome Anlysis Toolkit,顾名思义,是一套用于分析基因组的工具箱。主要功能是寻找变异位点和基因分型,但是实际上功能超多,导致初学者都不知道从何学习GATK。
最近因为mapping-by-sequencing要寻找variant,所以接触了GATK。我相信很多人第一眼看到GATK是茫然的,因为它的功能实在是太多了,都不知道从何开始。这里就说下我是如何在一脸茫然的情况下学习GATK。
GATK的功能虽然超级多,但主要可以归为以下几个方面:诊断和质量控制工具(Diagnostics and Quality Control Tools)
序列数据处理工具(Sequence Data Processing Tools)
变异位点探索工具(Variant Discovery Tools)
变异位点评估工具(Variant Evaluation Tools)
变异位点操作工具(Variant Manipulation Tools)
注释模块
读段(reads)过滤
资源文件解码工具
参考序列实用工具
如何快速建立GATK的心理表征
这里面的每一项点开都有好多内容,我第一次点开的时候,也是一脸茫然,不知道从何入手。
但是根据《认知学习法》,最好的学习方式就是“不要怂,直接上”,找到一个已有流程,先把代码敲上去,然后慢慢理解每一行代码的作用,建立一个模糊的心理表征,然后循序渐进,慢慢学习其他工具,最后就能熟练使用GATK了。
所以记下来主要的任务,就是带大家建立关于GATK的模糊概念。
mapping-by-sequencing其中一个重要环节就是“SNP calling”,我最初用的是samtools和bcftools,结果的variant特别多(估计很多是假阳性).虽然最后还是找到了causual mutation, 但是为了保证今后causual mutation的准确性,我发现了有文章使用了GATK。他给的代码如下:1. Add read groups (Picard tools)
AddOrReplaceReadGroups.jar I=sorted.bam_file O=s1.rg.bam RGLB=genome RGPL=ILLUMINA
RGPU=GATKv4 RGSM=sample_name VALIDATION_STRINGENCY=LENI