hicpro在mergeSAM报错的检查过程

本文记录了使用HiC-Pro软件进行高通量染色质构象捕获数据分析时遇到的问题及解决过程。主要介绍了从数据对齐到配对过程中出现的错误及其原因分析,包括对Makefile配置文件的理解、日志文件解读、以及如何利用samtools工具进行BAM文件排序和索引。
摘要由CSDN通过智能技术生成

hicpro.out

$ cat r_hicpro.out 

Run HiC-Pro 3.0.0
--------------------------------------------
Wed Mar 17 10:45:59 CST 2021
Bowtie2 alignment step1 ...
Logs: logs/sample/mapping_step1.log

--------------------------------------------
Wed Mar 17 13:05:18 CST 2021
Bowtie2 alignment step2 ...
Logs: logs/sample/mapping_step2.log

--------------------------------------------
Wed Mar 17 14:57:55 CST 2021
Combine R1/R2 alignment files ...
Logs: logs/sample/mapping_combine.log

--------------------------------------------
Wed Mar 17 15:09:49 CST 2021
Mapping statistics for R1 and R2 tags ...
Logs: logs/sample/mapping_stats.log

--------------------------------------------
Wed Mar 17 15:28:29 CST 2021
Pairing of R1 and R2 tags ...
Logs: logs/sample/mergeSAM.log
make: *** [/lustre/home/acct-agrfyd/agrfyd/software/HiC-Pro/bin/../scripts//Makefile:144: bowtie_pairing] Error 1

这里找到了makefile文件第144行 bowtie_pairing有问题
这里捋一下:out文件基本是根据makefile里面的要求一步一步来的,makefile里面需要的脚本也在scripts/文件夹之下,makefile里面显示的错误文件打开以后是一个看不懂的脚本
大概看一下也没太看懂,大概就是makefile里面这一步怎么去进行,按照这个sh文件去进行就好。
然后按照makefile文件,每一步结束都会有输出文件,比如在我们这里的输出r_hicpro文件夹之下

drwxrwxr-x 5 agrfyd agrfyd   4096 Mar 17 14:57 bowtie_results
-rw-rw-r-- 1 agrfyd agrfyd   3122 Mar 17 10:45 config-hicpro.txt
drwxrwxr-x 3 agrfyd agrfyd   4096 Mar 17 10:45 logs
lrwxrwxrwx 1 agrfyd agrfyd     60 Mar 17 20:06 Rawdata -> /lustre/home/acct-agrfyd/agrfyd/rice/clean/Rice-9311-4C-hic/
drwxrwxr-x 2 agrfyd agrfyd 770048 Mar 17 15:09 tmp

主要的结果 在bowtie_results文件下有,基本也是按照makefile去输出的

drwxrwxr-x 3 agrfyd agrfyd 4096 Mar 17 14:57 bwt2
drwxrwxr-x 3 agrfyd agrfyd 4096 Mar 17 10:45 bwt2_global
drwxrwxr-x 3 agrfyd agrfyd 4096 Mar 17 13:05 bwt2_local

其中这个log输出记录了log的内容。基本也是makefile里面要求的一步一步出来的

[ agrfyd@login1: 19:58:12 /lustre/home/acct-agrfyd/agrfyd/software/HiC-Pro/bin/r_hicpro/logs/sample/ ]
$ ll
total 416
-rw-rw-r-- 1 agrfyd agrfyd   1664 Mar 17 15:09 mapping_combine.log
-rw-rw-r-- 1 agrfyd agrfyd   1236 Mar 17 15:24 mapping_stats.log
-rw-rw-r-- 1 agrfyd agrfyd   1198 Mar 17 10:45 mapping_step1.log
-rw-rw-r-- 1 agrfyd agrfyd   1982 Mar 17 13:12 mapping_step2.log
-rw-rw-r-- 1 agrfyd agrfyd   1105 Mar 17 15:28 mergeSAM.log
-rw-rw-r-- 1 agrfyd agrfyd    245 Mar 17 13:03 Rice-9311-4C-hic_R1_bowtie2.log
-rw-rw-r-- 1 agrfyd agrfyd 187504 Mar 17 14:38 Rice-9311-4C-hic_R1_MH63RS3.bwt2glob.unmap_bowtie2.log
-rw-rw-r-- 1 agrfyd agrfyd    264 Mar 17 13:12 Rice-9311-4C-hic_R1_MH63RS3.bwt2glob.unmap_readsTrimming.log
-rw-rw-r-- 1 agrfyd agrfyd    245 Mar 17 13:05 Rice-9311-4C-hic_R2_bowtie2.log
-rw-rw-r-- 1 agrfyd agrfyd 191945 Mar 17 14:57 Rice-9311-4C-hic_R2_MH63RS3.bwt2glob.unmap_bowtie2.log
-rw-rw-r-- 1 agrfyd agrfyd    264 Mar 17 13:12 Rice-9311-4C-hic_R2_MH63RS3.bwt2glob.unmap_readsTrimming.log

这是没做出来的一步的log内容

$ cat mergeSAM.log 
/lustre/home/acct-agrfyd/agrfyd/.conda/envs/py3.7/bin/python /lustre/home/acct-agrfyd/agrfyd/software/HiC-Pro/HiC-Pro_3.0.0/scripts/mergeSAM.py -q 30 -t -v -f bowtie_results/bwt2/sample/Rice-9311-4C-hic_R1_MH63RS3.bwt2merged.bam -r bowtie_results/bwt2/sample/Rice-9311-4C-hic_R2_MH63RS3.bwt2merged.bam -o bowtie_results/bwt2/sample/Rice-9311-4C-hic_MH63RS3.bwt2pairs.bam
[E::idx_find_and_load] Could not retrieve index file for 'bowtie_results/bwt2/sample/Rice-9311-4C-hic_R1_MH63RS3.bwt2merged.bam'
[E::idx_find_and_load] Could not retrieve index file for 'bowtie_results/bwt2/sample/Rice-9311-4C-hic_R2_MH63RS3.bwt2merged.bam'
## mergeBAM.py
## forward= bowtie_results/bwt2/sample/Rice-9311-4C-hic_R1_MH63RS3.bwt2merged.bam
## reverse= bowtie_results/bwt2/sample/Rice-9311-4C-hic_R2_MH63RS3.bwt2merged.bam
## output= bowtie_results/bwt2/sample/Rice-9311-4C-hic_MH63RS3.bwt2pairs.bam
## min mapq= 30
## report_single= False
## report_multi= False
## verbose= True
## Merging forward and reverse tags ...
Forward and reverse reads not paired. Check that BAM files have the same read names and are sorted.

这里说可能是文件名字出现了问题或者是因为没有排序。
复习了一下排序,自己试了一下samtools是有排序功能的。
(sam与bam是两种最常用的比对结果输出文件格式
如转录组Tophat分析软件输出的比对结果为.bam文件,而BWA、bowtie等比对软件则主要输出为.sam文件。bam文件格式是sam``文件的二进制格式,占用的存储空间更小,更利于节省存储资源,而且bam文件的计算处理也更快,但二进制无法直接查看则是它的一个明显缺点。)

samtools view -S seq.sam -b > seq.bam  #文件格式转换
samtools sort seq.bam -0 seq_sorted.bam  #将bam文件排序
samtools sort  h1_muant_3.bam -o h1_muant_3_sorted.bam #(根据左起位点对序列排序,并输出为bam文件)
samtools index seq_sorted.bam  #对排序后对bam文件索引生成bai格式文件,用于快速随机处理。

评论 7
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值