lachesis辅助组装流程

本文档详细介绍了使用Lachesis进行HiC数据处理的步骤,包括准备工作,建立参考基因组的bwa索引,数据比对和过滤,以及运行Lachesis进行组装。还涉及到HiC培训中的常见问题解答,如compartment的区分,loop与TAD的关系,影响HiC分辨率的因素等。最后,展示了Lachesis组装结果的可视化。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

准备工作:

  • 准备数据
    • 参考基因组:Ler-1.allpaths_lg.final.assembly.fasta
    • HiC数据:data_1.fastq.gz data_2.fastq.gz
  • 安装所需软件并软连接到~/.local下。(添加环境变量)
    • bwa
    • samtools
      其他支持性软件:
    • bedtools
    • lachesis
    • R

工作流程

img_9bca9132edea730b1fa0a2326f47ac39.png
Data Prep Flowchart.png

建立参考基因组的bwa索引

bwa的比对没有bowtie2那么严格。

mkdir ref && cd ref
bwa index Ler-1.allpaths_lg.final.assembly.fasta

数据比对

cd ..
mkdir 02.bwa && cd 02.bwa
bwa mem ../ref/Ler-1.allpaths_lg.final.assembly.fasta -t 10 ../01.fq/data_1.fastq.gz ../01.fq/data_2.fastq.gz > ninanjie.sam

数据过滤

  1. 过滤掉比对时大于2000表示分段匹配结果的sub-alignment。
perl /data/software/3dgenome/pip/LACHESIS/PreprocessSAMs-rmsubalig.pl
ninanjie.sam ninanjie.II.sam
  1. 过滤距离酶切位点500bp以外的reads,并选取唯一比对的reads。

这一步需要用到PreprocessSAMs.pl。我们需要用vim打开这个脚本修改一些内容以适应当前所需要处理的物种。

vim PreprocessSAMs.pl

测试物种是拟南芥,HiC实验中酶切使用的是HindⅢ,对应的酶切位点序列是AAGCTT,因此需要修改$RE_site = 'AAGCTT'(一般现在用四碱基酶比较多,因为四碱基酶的酶切位点44比六碱基酶的46更多,分辨率更高。)

img_20f958e8605bcc75edafda5781236789.png
PreprocessSAMs.pl

这里还需要指定Lachesis内部的一个脚本 make_bed_around_RE_site.pl的位置还有 bedtoolssamtools的安装位置。另外两个 $mem$picard_head就注释着不用管。
接下来修改 PreprocessSAMs.sh文件

vim PreprocessSAMs.sh
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值