1.序列QC:
去除低质量reads,和连续的低质量片段,去掉接头序列。QC统计reads数量及测序质量。
2.Mapping:
由于bwa能准确,快速的将短序列比对到基因组上,而且软件持续更新和说明文档完备,是外显子捕获测序的首选。
3.Sam到bam转换:
Samtools 的多种工具可以将sam文件转换为bam文件,rmdup工具能去除PCR扩增产生的冗余reads,消除由于文库扩增而导入的突变,降低假阳性。
Flagstat统计reads的mapping情况以及比较去除duplicate前后reads数目的反映样品建库的冗余情况。
Picard提供的多个工具,修改bam文件,是之适合于后续的GATK软件包中的工具的处理。
4.Indel区域的reads重新做局部多序列比对:
在indel的边缘,一些错配看起来很像是SNP,通过对dbSNP库及bam文件检测到的indel附近的reads进行局部的重新比对,可以消除indel周边的假阳性SNP。
5.碱基质量重新打分:
测序仪给reads中的碱基的qual值存在一定的偏差,通过经验的错误模型来重新计算的碱基的qual值,重新给reads的各个碱基的qual打分。
6.Call snv和indel:
对处理好的多样品bam文件同时运行UnifiedGenotyper&#