HiCBin复现试验的过程记录以及问题总结Part1

HiCBin首先需要安装bbtools,尝试使用conda进行安装但是失败了,所以使用的是直接在官方下载压缩文件然后解压缩的方法,直接把bbmap工具解压的指定目录下

然后运行HICBIN上面的步骤
 

1.Preprocess Raw reads

Adaptor sequences are removed by bbduk from the BBTools suite with parameter ‘ktrim=r k=23 mink=11 hdist=1 minlen=50 tpe tbo’ and reads are quality-trimmed using bbduk with parameters ‘trimq=10 qtrim=r ftm=5 minlen=50’. Then, the first 10 nucleotides of each read are trimmed by bbduk with parameter ‘ftl=10’.
这句话翻译过来就三条指令
 

使用 BBTools 套件中的 bbduk 工具对原始 reads 进行接头去除和质量修剪。

  1. 去除接头序列

    bbduk.sh in=原始_reads.fastq.gz out=去接头_reads.fastq.gz ktrim=r k=23 mink=11 hdist=1 minlen=50 tpe tbo

    参数说明:

    • ktrim=r:从右端修剪接头序列。
    • k=23:k-mer 长度为 23。
    • mink=11:最小 k-mer 长度为 11。
    • hdist=1:允许 1 个碱基错配。
    • minlen=50:最小 reads 长度为 50。
    • tpetbo:启用对接头的精确匹配和去除。
  2. 质量修剪

    bbduk.sh in=去接头_reads.fastq.gz out=质量修剪_reads.fastq.gz trimq=10 qtrim=r ftm=5 minlen=50

    参数说明:

    • trimq=10:质量值低于 10 的碱基将被修剪。
    • qtrim=r:从右端进行质量修剪。
    • ftm=5:修剪模式设置。
    • minlen=50:最小 reads 长度为 50。
  3. 去除 reads 的前 10 个碱基

    bbduk.sh in=质量修剪_reads.fastq.gz out=最终_reads.fastq.gz ftl=10

    参数说明:

    • ftl=10:从左端修剪前 10 个碱基。

执行完毕上面的步骤之后得到的文件是 

但是首先我们要明白bbduk要对什么序列进行操作,也就是说我们从NCBI上下载的数据应该怎么操作才能转化成bbduk的输入
我们下载的数据如下 注意去NCBI官方上去搜索这个数据是不是双端测序
有个layer 如果是paired-end就是双端测序,single-end就是单端数据
 

 

然后使用sratool进行转化 
这个东西也是直接官方下载就行了,然后解压,不要忘记添加环境变量,把下载下来的包的bin二进制文件的路径添加到环境变量中就行 了
 

# 单端数据(如果数据为单端测序)
fasterq-dump --outdir output_directory your_file.sra

# 双端数据(如果数据为双端测序)
fasterq-dump --split-files --outdir output_directory your_file.sra

这是进行操作的代码

2.Shotgun assembly

For the shotgun library, de novo metagenome assembly is produced by an assembly software, such as MEGAHIT.

megahit -1 SG1.fastq.gz -2 SG2.fastq.gz -o ASSEMBLY --min-contig-len 1000 --k-min 21 --k-max 141 --k-step 12 --merge-level 20,0.95

 然后就是使用megahit进行组装
首先进行的是megahit的安装
conda install -c bioconda megahit
然后进行组装
megahit -1 final_1.fastq.gz -2 final_2.fastq.gz -o ASSEMBLY --min-contig-len 1000 --k-min 21 --k-max 141 --k-step 12 --merge-level 20,0.95
这个地方输入的gz不用考虑,使用第一步的最终结果就行
 

3.Align Hi-C paired-end reads to assembled contigs

Hi-C paired-end reads are mapped to assembled contigs using BWA-MEM with parameters ‘-5SP’. Then, samtools with parameters ‘view -F 0x904’ is applied to remove unmapped reads (0x4) and supplementary (0x800) and secondary (0x100) alignments and then sort BAM files by read names.

bwa index final.contigs.fa
bwa mem -5SP final.contigs.fa hic_read1.fastq.gz hic_read2.fastq.gz > MAP.sam
samtools view -F 0x904 -bS MAP.sam > MAP_UNSORTED.bam
samtools sort -n MAP_UNSORTED.bam -o MAP_SORTED.bam

这一步进行bwa比对,首先就是安装bwa

conda install -c bioconda bwa
然后就进行比对,注意这里面的hic_read1是faster-dump的结果也就是没有经过任何处理得到的东西,在bbduk这个步骤之前
关于samtools的安装需要另外起一个环境,不能在这个基础上安装,至少我没成功
conda create -n bioinfo_env samtools

conda activate bioinfo_env
直接运行上面的两条命令之后按照作者给的步骤执行就行

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值