05GATK流程和找变异
GATK 集合了一套功能全面的高通量测序数据基因组分析工具包,算是业界的权威,更新的速度非常快。需要注意的是,不同版本的 GATK 在工具应用上会有些许不同。这里我们使用是最新版本 GATK 4.1.4.1(截止2019年12月31日)。
数据准备
前面我们提到了,走GATK流程需要到官网下载很多数据库文件,比如下面这些:
dbsnp_146.hg38.vcf.gz
dbsnp_146.hg38.vcf.gz.tbi
Mills_and_1000G_gold_standard.indels.hg38.vcf.gz
Mills_and_1000G_gold_standard.indels.hg38.vcf.gz.tbi
Homo_sapiens_assembly38.fasta
Homo_sapiens_assembly38.fasta.gz
Homo_sapiens_assembly38.fasta.fai
Homo_sapiens_assembly38.dict
1000G_phase1.snps.high_confidence.hg38.vcf.gz
1000G_phase1.snps.high_confidence.hg38.vcf.gz.tbi
有了这些数据之后,我们就可以开始 GATK 的最佳实践流程了ÿ