准备工作:
- 准备数据
- 参考基因组:Ler-1.allpaths_lg.final.assembly.fasta
- HiC数据:data_1.fastq.gz data_2.fastq.gz
- 安装所需软件并软连接到~/.local下。(添加环境变量)
- bwa
- samtools
其他支持性软件: - bedtools
- lachesis
- R
工作流程

Data Prep Flowchart.png
建立参考基因组的bwa索引
bwa的比对没有bowtie2那么严格。
mkdir ref && cd ref
bwa index Ler-1.allpaths_lg.final.assembly.fasta
数据比对
cd ..
mkdir 02.bwa && cd 02.bwa
bwa mem ../ref/Ler-1.allpaths_lg.final.assembly.fasta -t 10 ../01.fq/data_1.fastq.gz ../01.fq/data_2.fastq.gz > ninanjie.sam
数据过滤
- 过滤掉比对时大于2000表示分段匹配结果的sub-alignment。
perl /data/software/3dgenome/pip/LACHESIS/PreprocessSAMs-rmsubalig.pl
ninanjie.sam ninanjie.II.sam
- 过滤距离酶切位点500bp以外的reads,并选取唯一比对的reads。
这一步需要用到PreprocessSAMs.pl。我们需要用vim打开这个脚本修改一些内容以适应当前所需要处理的物种。
vim PreprocessSAMs.pl
测试物种是拟南芥,HiC实验中酶切使用的是HindⅢ,对应的酶切位点序列是AAGCTT,因此需要修改$RE_site = 'AAGCTT'
(一般现在用四碱基酶比较多,因为四碱基酶的酶切位点44比六碱基酶的46更多,分辨率更高。)

PreprocessSAMs.pl
这里还需要指定Lachesis内部的一个脚本
make_bed_around_RE_site.pl
的位置还有
bedtools
和
samtools
的安装位置。另外两个
$mem
和
$picard_head
就注释着不用管。
接下来修改
PreprocessSAMs.sh
文件
vim PreprocessSAMs.sh