1. 标记PCR重复序列
gatk MarkDuplicates \
-I input.bam \
-O marked_duplicates.bam \
-M marked_dup_metrics.txt
2. 碱基质量分数重校准 (BQSR)
# STEP1: 生成recal_data.table表
gatk BaseRecalibrator \
-I marked_duplicates.bam \
-R reference.fasta \
--known-sites known_sites.vcf \
-O recal_data.table
# STEP2: 矫正BAM碱基质量
gatk ApplyBQSR \
-R reference.fasta \
-I marked_duplicates.bam \
-bqsr recal_data.table \
-O recalibrated.bam
3. 变异检测
3.1 单样本变异检测
# reference.fasta: 参考基因组fasta文件
gatk HaplotypeCaller \
-R reference.fasta \
-I recalibrated.bam \
-O output.vcf.gz
3.2 多样本变异检测
gatk HaplotypeCaller \
-R reference.fasta \
-I sample1.bam \
-I sample2.bam \
-I sample3.bam \
-O output.vcf.gz
4. 变异过滤
# QD: 深度的质量分数, 变异位点的质量分数除以测序深度
# QD < 2.0表示低质量的变异
# MQ: 比对质量值, 衡量reads比对到参考基因组的准确性
# MQ < 40.0表示比对质量较差
# FS: Fisher链偏好性检验值, 使用Fisher精确检验计算正负链reads分布的偏好性
# FS > 60.0表示存在明显的链偏好性
gatk VariantFiltration \
-R reference.fasta \
-V input.vcf.gz \
--filter-expression "QD < 2.0 || FS > 60.0 || MQ < 40.0" \
--filter-name "FILTER" \
-O filtered.vcf.gz
5. 拷贝数变异 (CNV) 分析
适用于肿瘤样本的CNV分析即,及全基因组或外显子组测序数据的CNV检测。
# STEP1: 对每个区间内的reads计数
gatk CollectReadCounts \
-I sample.bam \
-L intervals.list \
--interval-merging-rule OVERLAPPING_ONLY \
-O read_counts.tsv
# STEP2: 去噪
gatk DenoiseReadCounts \
-I read_counts.tsv \
--count-panel-of-normals pon.tsv \
--standardized-copy-ratios standardized_copy_ratios.tsv \
--denoised-copy-ratios denoised_copy_ratios.tsv
# STEP3: 片段CNV分析
gatk ModelSegments \
--denoised-copy-ratios denoised_copy_ratios.tsv \
--output-prefix output
6. 生殖细胞变异检测
# calling gvcf
gatk GenotypeGVCFs \
-R reference.fasta \
-V input.g.vcf.gz \
-O output.vcf.gz
7. 体细胞变异检测
gatk Mutect2 \
-R reference.fasta \
# 肿瘤样本比对BAM
-I tumor.bam \
# 对照样本对比BAM
-I normal.bam \
--normal-sample normal_sample_name \
-O somatic_output.vcf.gz
生信软件文章推荐
生信软件1 - 测序下机文件比对结果可视化工具 visNano
生信软件3 - mapping比对bam文件质量评估工具 qualimap
生信软件4 - 拷贝数变异CNV分析软件 WisecondorX
生信软件7 - 多线程并行运行Linux效率工具Parallel
生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计
生信软件9 - 多公共数据库数据下载软件Kingfisher
生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa
生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV
生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )
生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计
生信软件14 - bcftools提取和注释VCF文件关键信息
生信软件15 - 生信NGS数据分析强大的工具集ngs-bits
生信软件17 - 基于fasta文件的捕获探针设计工具catch
生信软件18 - 基于docker部署Web版 Visual Studio Code
生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑
生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump
生信软件22 - 测序数据5‘和3‘端reads修剪工具sickle
生信软件23 - Samtools和GATK去除PCR重复方法汇总
生信软件24 - 查询物种分类学信息和下载基因组TaxonKit和ncbi-genome-download
生信软件26 - BWA-MEM比对算法性能更好的bwa-mem2
生信软件27 - 基于python的基因注释数据查询/检索库mygene
生信软件28 - fastq与bam的reads数量计算与双端fastq配对检测工具fastq-pair
生信软件29 - 三代数据高效映射精确的长读段比对工具mapquik
生信软件31 - Bcftools操作VCF/BCF文件高级用法合集
生信软件33 - Wgsim生成双端(PE) fastq模拟数据
生信软件34 - 大幅提升Python程序执行效率的工具Pypy
生信软件36 - SAM/BAM/CRAM文件插入SNV/INDEL/SV工具Bamsurgeon
生信软件37 - 基于测序reads变异进行单倍型分型工具WhatsHap