开始学习生物信息分析,在ubuntu上运行了samtools view,结果显示错误,如下:
# samtools view -@ 60 -bS *.sam > ra24p.bam
[samopen] no @SQ lines in the header.
尝试改变参数也不行
就查看了sam文件
#head -10 ra24p.sam
[M::bwa_idx_load_from_disk] read 0 ALT contigs
@SQ SN:chr1 LN:248956422
@SQ SN:chr10 LN:133797422
@SQ SN:chr11 LN:135086622
@SQ SN:chr11_KI270721v1_random LN:100316
@SQ SN:chr12 LN:133275309
@SQ SN:chr13 LN:114364328
@SQ SN:chr14 LN:107043718
@SQ SN:chr14_GL000009v2_random LN:201709
@SQ SN:chr14_GL000225v1_random LN:211173
看到应该是有@SQ的,但是第一行多了不知道是什么信息
查看了之前的某个数据sam文件,显示第一行是没有这个 0 ALT的信息的
尝试删除第一行信息,
#sed -i '1d' ra24pcp.sam
head -10 ra24pcp.sam
@SQ SN:chr1 LN:248956422
@SQ SN:chr10 LN:133797422
@SQ SN:chr11 LN:135086622
@SQ SN:chr11_KI270721v1_random LN:100316
@SQ SN:chr12 LN:133275309
@SQ SN:chr13 LN:114364328
@SQ SN:chr14 LN:107043718
@SQ SN:chr14_GL000009v2_random LN:201709
@SQ SN:chr14_GL000225v1_random LN:211173
@SQ SN:chr14_KI270722v1_random LN:194050
显示数据已经删除,但是运行samtools view 仍然是有问题
samtools view -bS -@ 60 ra24pcp.sam > ra24pcp.bam
[samopen] SAM header is present: 455 sequences.
[sam_read1] reference '[M::mem_pestat] analyzing insert size distribution for orientation FF...' is recognized as '*'.
Parse error at line 457: invalid CIGAR character
Aborted (core dumped)
所以就重新做吧,或许之前的某个操作出现了点问题
bwa mem -M -t 60 /home/cx/radata/ref/hg38.fa ra24p1.fq ra24p2.fq > ra24pc.sam
samtools view -bS -@ 72 ra24pc.sam > ra24p.bam
samtools view -bF 12 -@ 72 ra24p.bam > ra24p.F12.bam
samtools sort -@ 60 ra24p.F12.bam ra24p.F12.bam.sort
samtools index ra24p.F12.bam.sort.bam ra24p.F12.bam.sort.bam.bai
一切正常了。
总结一下:可能是某个job出现了差错,找问题的时间会很长,可以一边找一遍重做,加快job的进程。