HiCBin首先需要安装bbtools,尝试使用conda进行安装但是失败了,所以使用的是直接在官方下载压缩文件然后解压缩的方法,直接把bbmap工具解压的指定目录下
然后运行HICBIN上面的步骤
1.Preprocess Raw reads
Adaptor sequences are removed by bbduk from the BBTools suite with parameter ‘ktrim=r k=23 mink=11 hdist=1 minlen=50 tpe tbo’ and reads are quality-trimmed using bbduk with parameters ‘trimq=10 qtrim=r ftm=5 minlen=50’. Then, the first 10 nucleotides of each read are trimmed by bbduk with parameter ‘ftl=10’.
这句话翻译过来就三条指令
使用 BBTools 套件中的 bbduk 工具对原始 reads 进行接头去除和质量修剪。
-
去除接头序列:
bbduk.sh in=原始_reads.fastq.gz out=去接头_reads.fastq.gz ktrim=r k=23 mink=11 hdist=1 minlen=50 tpe tbo
参数说明:
ktrim=r
:从右端修剪接头序列。k=23
:k-mer 长度为 23。mink=11
:最小 k-mer 长度为 11。hdist=1
:允许 1 个碱基错配。minlen=50
:最小 reads 长度为 50。tpe
和tbo
:启用对接头的精确匹配和去除。
-
质量修剪:
bbduk.sh in=去接头_reads.fastq.gz out=质量修剪_reads.fastq.gz trimq=10 qtrim=r ftm=5 minlen=50
参数说明:
trimq=10
:质量值低于 10 的碱基将被修剪。qtrim=r
:从右端进行质量修剪。ftm=5
:修剪模式设置。minlen=50
:最小 reads 长度为 50。
-
去除 reads 的前 10 个碱基:
bbduk.sh in=质量修剪_reads.fastq.gz out=最终_reads.fastq.gz ftl=10
参数说明:
ftl=10
:从左端修剪前 10 个碱基。
执行完毕上面的步骤之后得到的文件是
但是首先我们要明白bbduk要对什么序列进行操作,也就是说我们从NCBI上下载的数据应该怎么操作才能转化成bbduk的输入
我们下载的数据如下 注意去NCBI官方上去搜索这个数据是不是双端测序
有个layer 如果是paired-end就是双端测序,single-end就是单端数据
然后使用sratool进行转化
这个东西也是直接官方下载就行了,然后解压,不要忘记添加环境变量,把下载下来的包的bin二进制文件的路径添加到环境变量中就行 了
# 单端数据(如果数据为单端测序)
fasterq-dump --outdir output_directory your_file.sra
# 双端数据(如果数据为双端测序)
fasterq-dump --split-files --outdir output_directory your_file.sra
这是进行操作的代码
2.Shotgun assembly
For the shotgun library, de novo metagenome assembly is produced by an assembly software, such as MEGAHIT.
megahit -1 SG1.fastq.gz -2 SG2.fastq.gz -o ASSEMBLY --min-contig-len 1000 --k-min 21 --k-max 141 --k-step 12 --merge-level 20,0.95
然后就是使用megahit进行组装
首先进行的是megahit的安装
conda install -c bioconda megahit
然后进行组装
megahit -1 final_1.fastq.gz -2 final_2.fastq.gz -o ASSEMBLY --min-contig-len 1000 --k-min 21 --k-max 141 --k-step 12 --merge-level 20,0.95
这个地方输入的gz不用考虑,使用第一步的最终结果就行
3.Align Hi-C paired-end reads to assembled contigs
Hi-C paired-end reads are mapped to assembled contigs using BWA-MEM with parameters ‘-5SP’. Then, samtools with parameters ‘view -F 0x904’ is applied to remove unmapped reads (0x4) and supplementary (0x800) and secondary (0x100) alignments and then sort BAM files by read names.
bwa index final.contigs.fa
bwa mem -5SP final.contigs.fa hic_read1.fastq.gz hic_read2.fastq.gz > MAP.sam
samtools view -F 0x904 -bS MAP.sam > MAP_UNSORTED.bam
samtools sort -n MAP_UNSORTED.bam -o MAP_SORTED.bam
这一步进行bwa比对,首先就是安装bwa
conda install -c bioconda bwa
然后就进行比对,注意这里面的hic_read1是faster-dump的结果也就是没有经过任何处理得到的东西,在bbduk这个步骤之前
关于samtools的安装需要另外起一个环境,不能在这个基础上安装,至少我没成功
conda create -n bioinfo_env samtools
conda activate bioinfo_env
直接运行上面的两条命令之后按照作者给的步骤执行就行