GATK Germline Best Practice学习

本文详细介绍了使用GATK3.7进行germline变异分析的最佳实践,包括Map to Reference、Basic Statistics、Mark Duplicates、Base Recalibration、HaplotypeCaller和Joint-Call Cohort等步骤。在Variant Quality Score Recalibration (VQSR)阶段,通过VariantRecalibrator和ApplyRecalibration对SNPs和Indels进行过滤,以提高变异检测的准确性和敏感性。资源数据集如HapMap、Omni、1000G、Mills和dbSNP在该过程中起着关键作用。
摘要由CSDN通过智能技术生成

数据是sporadic的慢病case-control的组合。想用GATK germline best practice的方法进行突变的分析。这里主要参考GATK Germline best practice的教程。1 这里用的是GATK3.7的版本,目前已经出到GATK3.8。最近4.0也发布了。
部分步骤后续补完。。。


Map to Reference

bwa mem -t 8 -M -R '@RG\tID:${name}\tLB:${name}\tPL:ILLUMINA\tPM:X10\tSM:${name}' ${INDEX} ${RAW_DATA}/${name}_1.fastq ${RAW_DATA}/${name}_2.fastq > ${WORKING_DIR}/2018rerun/processed_bam/${name}.sam
$java -Xmx20g -jar $PICARD SortSam SORT_ORDER=coordinate INPUT=${WORKING_DIR}/2018rerun/processed_bam/${name}.sam OUTPUT=${WORKING_DIR}/2018rerun/processed_bam/${name}.bam

Basic Statistics

samtools flagstat ${WORKING_DIR}/2018rerun/processed_bam/${name}.bam > ${WORKING_DIR}/2018rerun/processed_bam/${name}.flagstat &
samtools stats ${WORKING_DIR}/2018rerun/processed_bam/${name}.bam > ${WORKING_DIR}/2018rerun/processed_bam/${name}.stats &

Mark Duplicates

$java -Xmx20g -jar $PICARD MarkDuplicates INPUT=${WORKING_DIR}/2018rerun/processed_bam/${name}.bam OUTPUT=${WORKING_DIR}/2018rerun/processed_bam/${name}_marked.bam METRICS_FILE=${WORKING_DIR}/2018rerun/processed_bam/${name}.metrics
samtools index ${WORKING_DIR}/2018rerun/processed_bam/${name}_marked.bam

Base Recalibration

$java -Xmx10g -jar $gatk_jar -T BaseRecalibrator -R $INDEX -I ${WORKING_DIR}/2018r
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值