去污染(宿主)过程记录

最新推荐文章于 2025-04-01 11:15:42 发布

better_strong

最新推荐文章于 2025-04-01 11:15:42 发布

阅读量8.2k

点赞数 3

本文链接：https://blog.csdn.net/better_strong/article/details/103920056

版权

去宿主污染用了两个软件kneaddata、bowtie

一.kneaddata (虽然去除了，但结果是不符合要求的)

首先是用kneaddata去污染整个过程的记录：

1.构建污染物(宿主)的基因组索引(假设污染物参考基因组为genomic.fa)

bowtie2-build  genomic.fa  genomic

2.使用kneaddata去除宿主(污染物)

kneaddata -t 20 --input sample_R1.fq.gz --input  sample_R1.fq.gz -db ./ --output sample --trimmomatic /data1/software/Trimmomatic-0.36/ --remove-intermediate-output

上面这条代码trimmomatic参数用的是默认的，而默认的是单端的，如图所示

因此，按照trimmomatic对双端数据的处理参数标准，调整了--trimmomatic-options这个参数的设置

kneaddata -t 20 --input sample_R1.fq.gz --input sample_R2.fq.gz  -db ./ --output sample --trimmomatic /data1/software/Trimmomatic-0.36/ --trimmomatic-options "ILLUMINACLIP:/data1/software/Trimmomatic-0.36/adapters/TruSeq3-PE_all.fa:2:30:10:8:true LEADING:3 TRAILING:3 SLIDINGWINDOW:4:18 MINLEN:36" --remove-intermediate-output

关于各个参数的含义，可参考链接https://www.jianshu.com/p/396dc17f2615

结果创建一个--output 指定的名字的文件夹，会包含以下文件

图中红圈所示就是最终我们需要的去除污染后的序列，至此，去污染就结束了

这里会有两个问题

第一个问题： fastq文件中会生成下图中红色的部分，而我所处理的数据是不包含的红圈的部分的，这会使比对产生的bam文件中也有红圈中那一部分，这导致了在后面做snp分析时报错

snp分析报错

第二个问题：我调整了--trimmomatic-options这个参数的设置，将其设置成双端的，但是好像没有作用，使得Concordant pair alignment rate特别的低(ps:有哪位读者知道是何原因吗)

以上是使用kneaddata去污染的过程。

二.用bowtie2去宿主污染

bowtie2是用于比对的软件，但是有个参数可将未比对上的序列输出，因此，以污染物基因组为参考基因组进行比对，为比对上的就是我们需要的

1.bowtie2建立索引(假设污染物参考基因组为genomic.fa)

bowtie2-build  genomic.fa  genomic

2.开始比对

 bowtie2 -p 15 -x genomic -1 sample_R1.fq -2 sample_R2.fq -S sample.sam --un-conc sample.fq

主要的那个参数就是--un-conc

具体含义可使用bowtie2 -h 查看函数参数说明或者参考以下链接:

http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml#options

生成的结果文件有：

sample.1.fq

sample.2.fq

sample.sam

说明：

a.所生成的sample.1.fq文件也会有红圈中的那一部分，但是在后面比对时，bam文件中并不会有图中红圈中的那一部分（ps:这是为什么）

至此，用bowtie2如何去污染（宿主)的全部过程已记录完毕。