lachesis辅助组装流程

最新推荐文章于 2023-09-20 16:48:55 发布

weixin_33699914

最新推荐文章于 2023-09-20 16:48:55 发布

阅读量1.2k

点赞数 2

文章标签：人工智能开发工具 python

原文链接：https://yq.aliyun.com/articles/664097

版权

本文档详细介绍了使用Lachesis进行HiC数据处理的步骤，包括准备工作，建立参考基因组的bwa索引，数据比对和过滤，以及运行Lachesis进行组装。还涉及到HiC培训中的常见问题解答，如compartment的区分，loop与TAD的关系，影响HiC分辨率的因素等。最后，展示了Lachesis组装结果的可视化。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

准备工作：

准备数据
- 参考基因组：Ler-1.allpaths_lg.final.assembly.fasta
- HiC数据：data_1.fastq.gz data_2.fastq.gz
安装所需软件并软连接到~/.local下。（添加环境变量）
- bwa
- samtools
  其他支持性软件：
- bedtools
- lachesis
- R

工作流程

Data Prep Flowchart.png

建立参考基因组的bwa索引

bwa的比对没有bowtie2那么严格。

mkdir ref && cd ref
bwa index Ler-1.allpaths_lg.final.assembly.fasta

数据比对

cd ..
mkdir 02.bwa && cd 02.bwa
bwa mem ../ref/Ler-1.allpaths_lg.final.assembly.fasta -t 10 ../01.fq/data_1.fastq.gz ../01.fq/data_2.fastq.gz > ninanjie.sam

数据过滤

过滤掉比对时大于2000表示分段匹配结果的sub-alignment。

perl /data/software/3dgenome/pip/LACHESIS/PreprocessSAMs-rmsubalig.pl
ninanjie.sam ninanjie.II.sam

过滤距离酶切位点500bp以外的reads，并选取唯一比对的reads。

这一步需要用到PreprocessSAMs.pl。我们需要用vim打开这个脚本修改一些内容以适应当前所需要处理的物种。

vim PreprocessSAMs.pl

测试物种是拟南芥，HiC实验中酶切使用的是HindⅢ，对应的酶切位点序列是AAGCTT，因此需要修改$RE_site = 'AAGCTT'（一般现在用四碱基酶比较多，因为四碱基酶的酶切位点4⁴比六碱基酶的4⁶更多，分辨率更高。）

PreprocessSAMs.pl

这里还需要指定Lachesis内部的一个脚本 make_bed_around_RE_site.pl的位置还有 bedtools和 samtools的安装位置。另外两个 $mem和 $picard_head就注释着不用管。
接下来修改 PreprocessSAMs.sh文件

vim PreprocessSAMs.sh

最低0.47元/天解锁文章