打算写一个关于Hi-C处理的过程总结,网上这方面资源比较少,正好最近在做,预期是从数据处理到可视化完整地记录下来。
HiC-Pro 是一个很棒的Hi-C数据处理软件,能够直接输出后面可视化需要的矩阵文件和.bed文件,换句话说它就是一个封装的数据处理pipeline。
但安装比较麻烦,需要手动修改config。
HiC-Pro的运作流程:
HiC-Pro下载和环境准备:
我还是把环境变量都装在anaconda里了
#HiC-Pro下载
git clone https://github.com/nservant/HiC-Pro.git
#环境安装:
conda create -n hicpro python2.7
source activate hicpro
conda install -y samtools bowtie2 R
conda install -y pysam bx-python numpy scipy
#打开R
install.packages(c('ggplot2','RColorBrewer'))
修改HiC-Pro目录下的config-install.txt
(找不到的文件目录可以用which进行查找)
#########################################################################
## Paths and Settings - Start editing here !
#########################################################################
PREFIX = 文件安装位置
BOWTIE2_PATH = bowtie2安装目录
SAMTOOLS_PATH = samtools安装目录
R_PATH = R的安装目录
PYTHON_PATH = python安装目录
CLUSTER_SYS = 用于集群提交的调度器,必须为TORQUE,SGE,SLURM,LSF四个中的一种
修改后:
make configure
#在安装目录下:
make
安装成功,可以export一下方便调用。
HiC-Pro的使用:
将下载好的.sra数据用fastq-dump转换成fastq或fastq.gz保存在rawdata文件夹下
修改config-hicpro.txt 文件:
BOWTIE2_IDX_PATH = # bowtie2索引文件目录,索引文件提前下载或用bowtie2-build生成
REFERENCE_GENOME = # bowtie2索引的文件名
GENOME_SIZE = # 染色体大小文件,可从http://hgdownload.cse.ucsc.edu/goldenPath/ 下载
GENOME_FRAGMENT = # 储存消化碎片位置信息的bed文件,一般在HiC-Pro的annotation文件夹下
LIGATION_SITE = # 酶切位点重连接后的序列
# 注:GENOME_FRAGMENT 和 LIGATION_SITE 完全取决于使用了什么酶,一般来说是Hind III,所以要仔细检查数据来源的说明。
PAIR2_EXT =
# 根据你的.sra文件的名称,分别输入双端数据文件名称,不用输入后缀
如果annotation下没有对应的消化片段文件,则需要用digest_genome.py产生,命令为:
digest_genome.py -r A^AGCTT -o HindIII_resfrag_hg19.bed hg19_rCRSchrm.fa
最后的执行:
HiC-Pro -c config-hicpro.txt -i [rawdata目录] -o [输出文件目录]
处理之后,所有数据会按照分辨率要求,分别储存在对应的文件夹下。
恩恩...目前就是这样,有空把Hi-CUP加上
注:
HIC-Pro发表论文:
Servant N., Varoquaux N., Lajoie BR., Viara E., Chen CJ., Vert JP., Dekker J., Heard E., Barillot E. HiC-Pro: An optimized and flexible pipeline for Hi-C processing. Genome Biology 2015, 16:259 doi:10.1186/s13059-015-0831-x
GitHub地址:
nservant/HiC-Pro