ubuntu c c++ gdb make_[工具][Hi-C] HiC-Pro Hi-C数据处理工具-CSDN博客

打算写一个关于Hi-C处理的过程总结，网上这方面资源比较少，正好最近在做，预期是从数据处理到可视化完整地记录下来。

HiC-Pro 是一个很棒的Hi-C数据处理软件，能够直接输出后面可视化需要的矩阵文件和.bed文件，换句话说它就是一个封装的数据处理pipeline。

但安装比较麻烦，需要手动修改config。

HiC-Pro的运作流程：

HiC-Pro下载和环境准备:

我还是把环境变量都装在anaconda里了

#HiC-Pro下载
git clone https://github.com/nservant/HiC-Pro.git
#环境安装:
conda create -n hicpro python2.7
source activate hicpro
conda install -y samtools bowtie2 R
conda install -y pysam bx-python numpy scipy 

#打开R
install.packages(c('ggplot2','RColorBrewer'))

修改HiC-Pro目录下的config-install.txt

（找不到的文件目录可以用which进行查找）

#########################################################################
## Paths and Settings  - Start editing here !
#########################################################################
PREFIX = 文件安装位置
BOWTIE2_PATH = bowtie2安装目录
SAMTOOLS_PATH = samtools安装目录
R_PATH = R的安装目录
PYTHON_PATH = python安装目录
CLUSTER_SYS = 用于集群提交的调度器,必须为TORQUE,SGE,SLURM,LSF四个中的一种

修改后：

make configure
#在安装目录下：
make

安装成功，可以export一下方便调用。

HiC-Pro的使用：

将下载好的.sra数据用fastq-dump转换成fastq或fastq.gz保存在rawdata文件夹下

修改config-hicpro.txt 文件:

BOWTIE2_IDX_PATH = # bowtie2索引文件目录，索引文件提前下载或用bowtie2-build生成
REFERENCE_GENOME = # bowtie2索引的文件名
GENOME_SIZE = # 染色体大小文件，可从http://hgdownload.cse.ucsc.edu/goldenPath/ 下载
GENOME_FRAGMENT = # 储存消化碎片位置信息的bed文件，一般在HiC-Pro的annotation文件夹下
LIGATION_SITE = # 酶切位点重连接后的序列
# 注：GENOME_FRAGMENT 和 LIGATION_SITE 完全取决于使用了什么酶，一般来说是Hind III，所以要仔细检查数据来源的说明。 
PAIR2_EXT = 
# 根据你的.sra文件的名称，分别输入双端数据文件名称，不用输入后缀

如果annotation下没有对应的消化片段文件，则需要用digest_genome.py产生，命令为：

digest_genome.py -r A^AGCTT -o HindIII_resfrag_hg19.bed hg19_rCRSchrm.fa

最后的执行：

HiC-Pro -c config-hicpro.txt -i [rawdata目录] -o [输出文件目录]

处理之后，所有数据会按照分辨率要求，分别储存在对应的文件夹下。

恩恩...目前就是这样，有空把Hi-CUP加上

注：

HIC-Pro发表论文：

Servant N., Varoquaux N., Lajoie BR., Viara E., Chen CJ., Vert JP., Dekker J., Heard E., Barillot E. HiC-Pro: An optimized and flexible pipeline for Hi-C processing. Genome Biology 2015, 16:259 doi:10.1186/s13059-015-0831-x

GitHub地址：

nservant/HiC-Pro