pairtools是一个简单快速的命令行框架,用于处理Hi-C实验中的测序数据。pairtool在Hi-C对上执行各种操作,并在典型的Hi-C数据处理管道中占据中间位置。
pairtools parse detects ligation events in the aligned sequences of DNA molecules formed in Hi-C experiments and reports them in the .pairs/.pairsam format.
1. 安装
conda install -c conda-forge -c bioconda pairtools
# 或者
pip install pairtools
2.pairtools parse:将序列比对解析为Hi-C对
pairtools parse -o test.pairs.gz -c /home/zheng/HiC_data/hg38/hg38.chrom.sizes --assembly hg38 --min-mapq 1 --max-molecule-size 2000 --max-inter-align-gap 20 --walks-policy all --nproc-in 32 --nproc-out 32 --drop-sam test.bam
3. pairtools sort:排序
pairtools sort test.pairs.gz -o test.sorted.pairs.gz --nproc 32 --memory 32G --nproc-in 32 --nproc-out 32
4.pairtools dedup:去重
# 必需排序后才能去重
pairtools dedup test.sorted.pairs.gz --max-mismatch 1 --method max --nproc-in 32 --nproc-out 32 -o test.nodups.pairs.gz
5.pairtools select:选择特定类型Hi-C对
pairtools select '(pair_type=="UU") or (pair_type=="UR") or (pair_type=="RU") or (pair_type=="uu")' test.nodups.pairs.gz -o test.select.pairs.gz --nproc-in 32 --nproc-out 32
6. pairtools stat:统计Hi-C对距离、类型等
pairtools stats test.select.pairs.gz -o test.select.stats
参考: