gatk的参数和用法

GATK(Genome Analysis Toolkit)是一个强大的软件工具集,用于分析高通量测序数据。它由Broad Institute开发,广泛应用于基因组变异发现、基因表达分析和变异注释等任务。GATK的工具通常以命令行形式运行,具有大量的参数来定制分析流程。

下面是一些GATK工具的用法和常用参数,但请注意,这里只列出了部分工具和参数。GATK不断更新,因此请参考官方文档以获取最新信息。

GATK BaseRecalibrator

用于碱基质量分数校正。

用法:

gatk BaseRecalibrator \
    -R reference.fasta \
    -I input.bam \
    --known-sites dbsnp.vcf.gz \
    -O recal_data.table

常用参数:

  • -R:参考基因组文件。
  • -I:输入BAM文件。
  • --known-sites:已知变异位点VCF文件。
  • -O:输出校正表文件。

GATK ApplyBQSR

应用碱基质量分数校正。

用法:

gatk ApplyBQSR \
    -R reference.fasta \
    -I input.bam \
    -bqsr recal_data.table \
    -O output.bam

常用参数:

  • -R:参考基因组文件。
  • -I:输入BAM文件。
  • -bqsr:输入校正表文件。
  • -O:输出校正后的BAM文件。

GATK HaplotypeCaller

用于变异发现。

用法:

gatk HaplotypeCaller \
    -R reference.fasta \
    -I input.bam \
    -O output.vcf.gz \
    -L intervals.list

常用参数:

  • -R:参考基因组文件。
  • -I:输入BAM文件。
  • -O:输出VCF文件。
  • -L:要分析的基因组区域列表。

GATK GenotypeGVCFs

用于合并GVCF文件并进行基因分型。

用法:

gatk GenotypeGVCFs \
    -R reference.fasta \
    -V gvcf1.vcf.gz \
    -V gvcf2.vcf.gz \
    -O output.vcf.gz

常用参数:

  • -R:参考基因组文件。
  • -V:输入GVCF文件(可以指定多个)。
  • -O:输出VCF文件。

GATK SelectVariants

用于选择或排除特定类型的变异。

用法:

gatk SelectVariants \
    -R reference.fasta \
    -V input.vcf.gz \
    -O output.vcf.gz \
    --select-type-to-include SNP

常用参数:

  • -R:参考基因组文件。
  • -V:输入VCF文件。
  • -O:输出VCF文件。
  • --select-type-to-include:要包含的变异类型。

GATK VariantFiltration

用于过滤VCF文件中的变异。

用法:

gatk VariantFiltration \
    -R reference.fasta \
    -V input.vcf.gz \
    -O output.vcf.gz \
    --filter-expression "QUAL < 30.0" \
    --filter-name "LowQual"

常用参数:

  • -R:参考基因组文件。
  • -V:输入VCF文件。
  • -O:输出VCF文件。
  • --filter-expression:过滤表达式。
  • --filter-name:过滤器的名称。

GATK MarkDuplicates 

用于识别和标记比对文件中的重复读段。

用法:

gatk MarkDuplicates \
  -I input.bam \
  -O output.marked.bam \
  -M metrics.txt \
  --REMOVE_DUPLICATES \
  --ASSUME_SORT_ORDER coordinate

常用参数:

  • -I <input.bam> 或 --input <input.bam>

    • 指定输入的BAM或CRAM文件。
  • -O <output.bam> 或 --output <output.bam>

    • 指定输出文件的名称,该文件将包含标记重复后的读段。
  • -M <metrics_file> 或 --METRICS_FILE <metrics_file>

    • 指定一个文件来保存关于重复读段的度量信息。
  • --ASSUME_SORT_ORDER <type>

    • 指定输入文件的排序顺序。有效值包括unsortedquerynamecoordinate。如果未指定,则默认为coordinate
  • --CREATE_INDEX

    • 创建输出文件的索引。
  • --REMOVE_DUPLICATES

    • 从输出文件中移除重复的读段。
  • --MAX_FILE_HANDLES_FOR_READ_ENDS_MAP <int>

    • 限制用于存储读段末尾信息的文件句柄数量。这有助于减少内存消耗,但可能会增加运行时间。
  • --OPTICAL_DUPLICATE_PIXEL_DISTANCE <int>

    • 设置用于识别光学重复的距离阈值(以像素为单位)。
  • --BARCODE_TAG <tag>

    • 指定用于识别分子标签的BAM标签。
  • --READ_NAME_REGEX <regex>

    • 指定一个正则表达式,用于从读段名称中提取分子标签。
  • --TAG_DUPLICATE_SET_MEMBERS

    • 在输出BAM文件的每个重复读段中添加一个标签,以指示该读段属于哪个重复集。

其他参数:

  • --QUIET

    • 静默模式,减少日志输出。
  • --VERBOSITY <level>

    • 设置日志的详细程度。有效值包括ERRORWARNINGINFODEBUG
  • --help 或 -h

    • 显示工具的帮助信息。

请注意,GATK工具通常需要大量的计算资源和正确的输入数据格式。此外,参数和工具可能会随着版本的更新而发生变化。始终建议查阅官方文档和最佳实践指南来确保正确使用GATK

  • 3
    点赞
  • 9
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值