参考了许多WES的流程之后,终于学会了几个找变异软件的使用,记在这里备忘一下。学习不可囫囵吞枣,我还是把软件的各个参数理解下,也充实下内容,避免只有代码的尴尬。
1、找变异的前处理
这里主要是对bam文件进行排序,不知道用samtools和picard的差别在哪,但是,02样本用picard会报错的。
对 mapping 得到的 bam 文件做完 Fix Mate Information、Sort 和 mark duplicates 处理后, 就可以进入 GATK 流程了。
BWA 有时会产生不正常的 flag 信息,在进行其它分析前最好先整理 reads 的 mate 信息以及 flags。
SortSam 并没有依据 Mate 信息进行过滤,MarkDuplicates 如果仅仅是标记重复而不移除重复时,不会对 mate 信息产生影响,当时觉得 FixMateInformation 只要在用 GATK 分析之前运行了就可以 (GATK 默认会依据 mate 信息对数据进行过滤)。
如果 MarkDuplicates 这步把重复去掉,则会对 mate 信息产生影响,可以考虑在这步之后加上 FixMateInformation。
picard SortSam SORT_ORDER=coordinate INPUT= Illumina_B1702-sorted.dedup.add.bam OUTPUT= Illumina_B1702.add.sorted.bam
# samtools index Illumina_B1702-sorted.bam 这个也能实现
echoMarkDuplicates
java -Xmx9g -jar ~/miniconda3/share/picard-2.14.