Juicer: 辅助基因组组装

最新推荐文章于 2024-08-31 07:20:13 发布

数据科学工厂

最新推荐文章于 2024-08-31 07:20:13 发布

阅读量2.1k

点赞数 7

本文链接：https://blog.csdn.net/swindler_ice/article/details/127138589

版权

Juicer: 辅助基因组组装

导读

本文主要对处理HiC数据的Juicer程序进行一个简短的介绍，并展示如何利用Juicer进行基因组组装中染色体挂载的第一步。

1. 介绍

Juicer^[1] 是一款能够提供一键式分析Loop-Resolution的程序。

特点

只需一次单击，用户就能够处理 terabase规模的Hi-C数据集
自动注释 Loops和 Domains
Juicer是一款开源的程序
与多个集群操作系统和Amazon Web Services兼容

2. 安装

2.1. 环境要求

运行 Juicer 的最低软件要求是在 Windows、Linux 和 Mac OSX 上安装有效的 Java（版本 >= 1.8）。建议使用可用的最新 Java 版本，但请不要使用 Java Beta 版本。可以在sysreq^[2]找到运行 Java 的最低系统要求。
要下载和安装最新的 Java 运行时环境 (JRE)，请访问java^[3]。
GNU CoreUtils；最新版本的 GNU coreutils 可以从coreutils^[4]下载。
Burrows-Wheeler Aligner (BWA)，可以从BWA^[5]下载安装。

上面的环境要求，基本在Linux服务器上都是已经配置完毕的，使用之前只需要检查下Java和bwa的版本即可。

2.2. 安装

下面的安装环境是在Ubuntu系统上进行，bwa将采用conda安装。

# 新建Juice目录
mkdir juicer && cd juicer

# 新建参考基因组相关文件目录
mkdir references 

# 新建样本的序列文件和分析结果目录
mkdir work  

# 新建参考基因组酶切图谱目录
mkdir restriction_sites

Juicer下载

这里需要注意，小伙伴们在Github上仓库下载时，不要采用git clone的方式，因为这样会拉取最新的版本，还处于开发中，存在许多错误，建议去Releases中下载1.6的版本

不会下载的小伙伴，可以私信小编获取。

bwa安装

# 新建conda 环境安装
conda create -n juicer -c bioconda bwa -y

# 激活环境
conda activate jucier

配置 jucier

# 构建scripts链接
ln -s juicer/CPU scripts  
# scripts 应该在juicer目录下

# 切换目录
cd scripts/common

# 下载 juicer_tools.1.9.9_jcuda.0.8.jar
wget -c https://hicfiles.tc4ga.com/public/juicer/juicer_tools.1.9.9_jcuda.0.8.jar

# 创建符号链接
ln -s juicer_tools.1.9.9_jcuda.0.8.jar  juicer_tools.jar

3. 实战

下面将详细介绍如何运行Juicer生成merged_nodups.txt文件，用于3D-DNA进行染色体挂载

构建基因组索引

# 基因组放在jucier/reference 目录下
bwa index genome.fa

生成酶切图谱文件

# 需要将 DpnII 换为 测序过程使用的酶
# genome 替换为 基因组的名字
python /home/juicer/misc/generate_site_positions.py DpnII genome /home/juicer/references/genome.fa

生成染色体长度文件

# genome_DpnII.txt 文件由上一步生成
awk 'BEGIN{OFS="\t"}{print $1, $NF}'  genome_DpnII.txt > genome.chrom.sizes

fastq文件

# juicer/work 文件夹下创建fastq文件夹存放fastq文件
mkdir fastq

# 文件名称需要整理如下格式
work
    └── fastq
        ├── Sample1_R1.fastq.gz 
        ├── Sample1_R2.fastq.gz 
        ├── Sample2_R1.fastq.gz 
        ├── Sample2_R2.fastq.gz 
        ├── Sample3_R1.fastq.gz 
        └── Sample3_R2.fastq.gz

运行

# nohup 命令会将程序挂在后台运行
nohup /home/juicer/scripts/juicer.sh \
-z /home/juicer/references/genome.fa \
-p /home/juicer/restriction_sites/genome.chrom.sizes \
-y /home/juicer/restriction_sites/genome_DpnII.txt \
-s DpnII \
-d /home/juicer/work/ \
-D /home/juicer \
-t 40 > log.txt

# -z参数指定参考基因组fasta所在路径，在该路径下必须同时存在对应的bwa索引
# -p参数指定染色体长度文件；
# -y指定基因组酶切图谱的路径；
# -d指定样本原始文件存放的路径；
# -D指定软件的安装路径，
# -t指定bwa比对使用的线程数，默认是使用全部线程。

结果

Juicer运行完成后主要有以下两个目录：

splits

splits目录下存放的是中间结果，由于hi-C数据量很大，所以会将原始序列拆分成很多份，并行运算，加快速度。默认每份包含22.5M的reads, 当然这个可以通过-C参数调整，该参数指定拆分文件的行数，默认是90000000，注意fastq文件4行代表一条序列，所以这个参数的值必须是4的倍数。拆分后序列的R1和R2端分别通过bwa比对基因组，然后合并，筛选嵌合体序列，去重复，生成预处理后的结果文件。