生信软件41 - GATK经典使用方法合集

1. 标记PCR重复序列

gatk MarkDuplicates \
    -I input.bam \
    -O marked_duplicates.bam \
    -M marked_dup_metrics.txt
    

2. 碱基质量分数重校准 (BQSR)

# STEP1: 生成recal_data.table表
gatk BaseRecalibrator \
    -I marked_duplicates.bam \
    -R reference.fasta \
    --known-sites known_sites.vcf \
    -O recal_data.table

# STEP2: 矫正BAM碱基质量
gatk ApplyBQSR \
    -R reference.fasta \
    -I marked_duplicates.bam \
    -bqsr recal_data.table \
    -O recalibrated.bam

3. 变异检测

3.1 单样本变异检测

# reference.fasta: 参考基因组fasta文件
gatk HaplotypeCaller \
    -R reference.fasta \
    -I recalibrated.bam \
    -O output.vcf.gz

3.2 多样本变异检测

gatk HaplotypeCaller \
    -R reference.fasta \
    -I sample1.bam \
    -I sample2.bam \
    -I sample3.bam \
    -O output.vcf.gz
    

4. 变异过滤

# QD: 深度的质量分数, 变异位点的质量分数除以测序深度
# QD < 2.0表示低质量的变异

# MQ: 比对质量值, 衡量reads比对到参考基因组的准确性
# MQ < 40.0表示比对质量较差

# FS: Fisher链偏好性检验值, 使用Fisher精确检验计算正负链reads分布的偏好性
# FS > 60.0表示存在明显的链偏好性

gatk VariantFiltration \
    -R reference.fasta \
    -V input.vcf.gz \
    --filter-expression "QD < 2.0 || FS > 60.0 || MQ < 40.0" \
    --filter-name "FILTER" \
    -O filtered.vcf.gz

5. 拷贝数变异 (CNV) 分析

适用于肿瘤样本的CNV分析即,及全基因组或外显子组测序数据的CNV检测。

# STEP1: 对每个区间内的reads计数
gatk CollectReadCounts \
    -I sample.bam \
    -L intervals.list \
    --interval-merging-rule OVERLAPPING_ONLY \
    -O read_counts.tsv

# STEP2: 去噪
gatk DenoiseReadCounts \
    -I read_counts.tsv \
    --count-panel-of-normals pon.tsv \
    --standardized-copy-ratios standardized_copy_ratios.tsv \
    --denoised-copy-ratios denoised_copy_ratios.tsv

# STEP3: 片段CNV分析
gatk ModelSegments \
    --denoised-copy-ratios denoised_copy_ratios.tsv \
    --output-prefix output

6. 生殖细胞变异检测

# calling gvcf
gatk GenotypeGVCFs \
    -R reference.fasta \
    -V input.g.vcf.gz \
    -O output.vcf.gz

7. 体细胞变异检测

gatk Mutect2 \
    -R reference.fasta \
    # 肿瘤样本比对BAM
    -I tumor.bam \
	# 对照样本对比BAM
    -I normal.bam \
    --normal-sample normal_sample_name \
    -O somatic_output.vcf.gz
    

生信软件文章推荐

生信软件1 - 测序下机文件比对结果可视化工具 visNano

生信软件2 - 下游比对数据的统计工具 picard

生信软件3 - mapping比对bam文件质量评估工具 qualimap

生信软件4 - 拷贝数变异CNV分析软件 WisecondorX

生信软件5 - RIdeogram包绘制染色体密度图

生信软件6 - bcftools查找指定区域的变异位点信息

生信软件7 - 多线程并行运行Linux效率工具Parallel

生信软件8 - bedtools进行窗口划分、窗口GC含量、窗口测序深度和窗口SNP统计

生信软件9 - 多公共数据库数据下载软件Kingfisher

生信软件10 - DNA/RNA/蛋白多序列比对图R包ggmsa

生信软件11 - 基于ACMG的CNV注释工具ClassifyCNV

生信软件12 - 基于Symbol和ENTREZID查询基因注释的R包(easyConvert )

生信软件13 - 基于sambamba 窗口reads计数和平均覆盖度统计

生信软件14 - bcftools提取和注释VCF文件关键信息

生信软件15 - 生信NGS数据分析强大的工具集ngs-bits

生信软件16 - 常规探针设计软件mrbait

生信软件17 - 基于fasta文件的捕获探针设计工具catch

生信软件18 - 基于docker部署Web版 Visual Studio Code

生信软件19 - vcftools高级用法技巧合辑

生信软件20 - seqkit+awk+sed+grep高级用法技巧合辑

生信软件21 - 多线程拆分NCBI-SRA文件工具pfastq-dump

生信软件22 - 测序数据5‘和3‘端reads修剪工具sickle

生信软件23 - Samtools和GATK去除PCR重复方法汇总

生信软件24 - 查询物种分类学信息和下载基因组TaxonKit和ncbi-genome-download

生信软件25 - 三代测序数据灵敏比对工具ngmlr

生信软件26 - BWA-MEM比对算法性能更好的bwa-mem2

生信软件27 - 基于python的基因注释数据查询/检索库mygene

生信软件28 - fastq与bam的reads数量计算与双端fastq配对检测工具fastq-pair

生信软件29 - 三代数据高效映射精确的长读段比对工具mapquik

生信软件30 - 快速单倍型分析工具merlin

生信软件31 - Bcftools操作VCF/BCF文件高级用法合集

生信软件32 - 变异位点危害性评估预测工具合集

生信软件33 - Wgsim生成双端(PE) fastq模拟数据

生信软件34 - 大幅提升Python程序执行效率的工具Pypy

生信软件35 - AI代码编辑器Cursor

生信软件36 - SAM/BAM/CRAM文件插入SNV/INDEL/SV工具Bamsurgeon

生信软件37 - 基于测序reads变异进行单倍型分型工具WhatsHap

生信软件38 - 基因型填充软件IMPUTE2

生信软件39 - GATK最佳实践流程重构,提高17倍分析速度的LUSH流程

生信软件40 - bedtools经典使用方法合集

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

生信与基因组学

每一份鼓励是我坚持下去动力

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值