背景:
从samtools sort 默认排序后的bam文件中提取fastq序列并对其格式化,对格式化后的fastq文件重新比对到参考基因组,报错如下:”[mem_sam_pe] paired reads have different names: “A00575:297:HWHKYDMXX:1:1331:22372:31814:”, “A00575:297:HWHKYDMXX:2:2167:15004:31297:”
原因分析:
最开始在网上也查找了很多的提问,有说使用BBtools工具处理,最终看到有一个解答更为简单解决该问题(如何从BAM文件中提取fastq by徐洲更),比较原始fastq的两个文件,R1和R2reads name排序是统一的,最终确认为是由于reads name不统一导致该问题。
解决问题
重新使用samtools sort -n 对已排序的bam按照reads name 重新排序,重新进行fastq提取