二代靶向测序的分析流程(从fastq到vcf)

本文介绍了二代靶向测序的分析步骤,从fastq文件开始,经过比对到参考基因组、排序、标记重复序列、质量值校正,最终得到bam文件并使用gatk HaplotypeCaller进行变异呼叫。后续将探讨bam文件的质量统计和vcf文件的变异注释分析。
摘要由CSDN通过智能技术生成

当原始数据通过基本质控后(二代靶向测序的分析流程-质控),接下来就可以执行测序的主要目的:call 变异。

fastq到bam文件

  1. 准备参考基因组(hg19/hg38)及索引
bwa index human.fasta

2.比对到参考基因组
ID:指的是测序所在的lane,可以用sample_name替代
PL:测序平台,主流的有illumina,华大的测序平台用COMPLETE
LB:文库名字,可以不填

bwa mem -t 4 –R ‘@RG\tID:foo_lane\tPL:illumina\tLB:library\tSM:sample_name’ /path/to/human.fasta read_1.fq.gz read_2.fq.gz | samtools view -S -b - > sample_name.bam 

3.排序,下面列出了三种方法,后两种可以设置线程数进行加速

gatk SortSam -I sample.bam -O sample.sorted.bam -SO coordinate #根据染色体进行排序
samtools sort sample.bam -@ 10 -o sample.sorted.bam  #速度较上步更快
sambamba sort sample.bam -t 8 -o sample.sorted.bam #速度更快

4.接下来对排序后的文件进行质控,主要包

  • 4
    点赞
  • 5
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值