HiCBin复现试验的过程记录以及问题总结Part1

本文链接：https://blog.csdn.net/rivendd/article/details/142718511

HiCBin首先需要安装bbtools，尝试使用conda进行安装但是失败了，所以使用的是直接在官方下载压缩文件然后解压缩的方法，直接把bbmap工具解压的指定目录下

然后运行HICBIN上面的步骤

1.Preprocess Raw reads

Adaptor sequences are removed by bbduk from the BBTools suite with parameter ‘ktrim=r k=23 mink=11 hdist=1 minlen=50 tpe tbo’ and reads are quality-trimmed using bbduk with parameters ‘trimq=10 qtrim=r ftm=5 minlen=50’. Then, the first 10 nucleotides of each read are trimmed by bbduk with parameter ‘ftl=10’.
这句话翻译过来就三条指令

使用 BBTools 套件中的 bbduk 工具对原始 reads 进行接头去除和质量修剪。

去除接头序列：

bbduk.sh in=原始_reads.fastq.gz out=去接头_reads.fastq.gz ktrim=r k=23 mink=11 hdist=1 minlen=50 tpe tbo

参数说明：
- ktrim=r：从右端修剪接头序列。
- k=23：k-mer 长度为 23。
- mink=11：最小 k-mer 长度为 11。
- hdist=1：允许 1 个碱基错配。
- minlen=50：最小 reads 长度为 50。
- tpe 和 tbo：启用对接头的精确匹配和去除。
质量修剪：

bbduk.sh in=去接头_reads.fastq.gz out=质量修剪_reads.fastq.gz trimq=10 qtrim=r ftm=5 minlen=50

参数说明：
- trimq=10：质量值低于 10 的碱基将被修剪。
- qtrim=r：从右端进行质量修剪。
- ftm=5：修剪模式设置。
- minlen=50：最小 reads 长度为 50。
去除 reads 的前 10 个碱基：

bbduk.sh in=质量修剪_reads.fastq.gz out=最终_reads.fastq.gz ftl=10

参数说明：
- ftl=10：从左端修剪前 10 个碱基。

执行完毕上面的步骤之后得到的文件是

但是首先我们要明白bbduk要对什么序列进行操作，也就是说我们从NCBI上下载的数据应该怎么操作才能转化成bbduk的输入
我们下载的数据如下注意去NCBI官方上去搜索这个数据是不是双端测序
有个layer 如果是paired-end就是双端测序，single-end就是单端数据

然后使用sratool进行转化
这个东西也是直接官方下载就行了，然后解压，不要忘记添加环境变量，把下载下来的包的bin二进制文件的路径添加到环境变量中就行了

# 单端数据（如果数据为单端测序）
fasterq-dump --outdir output_directory your_file.sra

# 双端数据（如果数据为双端测序）
fasterq-dump --split-files --outdir output_directory your_file.sra

这是进行操作的代码

2.Shotgun assembly

For the shotgun library, de novo metagenome assembly is produced by an assembly software, such as MEGAHIT.

megahit -1 SG1.fastq.gz -2 SG2.fastq.gz -o ASSEMBLY --min-contig-len 1000 --k-min 21 --k-max 141 --k-step 12 --merge-level 20,0.95

然后就是使用megahit进行组装
首先进行的是megahit的安装
conda install -c bioconda megahit
然后进行组装
megahit -1 final_1.fastq.gz -2 final_2.fastq.gz -o ASSEMBLY --min-contig-len 1000 --k-min 21 --k-max 141 --k-step 12 --merge-level 20,0.95
这个地方输入的gz不用考虑，使用第一步的最终结果就行

3.Align Hi-C paired-end reads to assembled contigs

Hi-C paired-end reads are mapped to assembled contigs using BWA-MEM with parameters ‘-5SP’. Then, samtools with parameters ‘view -F 0x904’ is applied to remove unmapped reads (0x4) and supplementary (0x800) and secondary (0x100) alignments and then sort BAM files by read names.

bwa index final.contigs.fa
bwa mem -5SP final.contigs.fa hic_read1.fastq.gz hic_read2.fastq.gz > MAP.sam
samtools view -F 0x904 -bS MAP.sam > MAP_UNSORTED.bam
samtools sort -n MAP_UNSORTED.bam -o MAP_SORTED.bam

这一步进行bwa比对，首先就是安装bwa

conda install -c bioconda bwa
然后就进行比对，注意这里面的hic_read1是faster-dump的结果也就是没有经过任何处理得到的东西，在bbduk这个步骤之前
关于samtools的安装需要另外起一个环境，不能在这个基础上安装，至少我没成功
conda create -n bioinfo_env samtools

conda activate bioinfo_env
直接运行上面的两条命令之后按照作者给的步骤执行就行