去宿主污染用了两个软件kneaddata、bowtie
一.kneaddata (虽然去除了,但结果是不符合要求的)
首先是用kneaddata去污染整个过程的记录:
1.构建污染物(宿主)的基因组索引(假设污染物参考基因组为genomic.fa)
bowtie2-build genomic.fa genomic
2.使用kneaddata去除宿主(污染物)
kneaddata -t 20 --input sample_R1.fq.gz --input sample_R1.fq.gz -db ./ --output sample --trimmomatic /data1/software/Trimmomatic-0.36/ --remove-intermediate-output
上面这条代码trimmomatic参数用的是默认的,而默认的是单端的,如图所示
因此,按照trimmomatic对双端数据的处理参数标准,调整了--trimmomatic-options这个参数的设置
kneaddata -t 20 --input sample_R1.fq.gz --input sample_R2.fq.gz -db ./ --output sample --trimmomatic /data1/software/Trimmomatic-0.36/ --trimmomatic-options "ILLUMINACLIP:/data1/software/Trimmomatic-0.36/adapters/TruSeq3-PE_all.fa:2:30:10:8:true LEADING:3 TRAILING:3 SLIDINGWINDOW:4:18 MINLEN:36" --remove-intermediate-output
关于各个参数的含义,可参考链接https://www.jianshu.com/p/396dc17f2615
结果创建一个--output 指定的名字的文件夹,会包含以下文件
图中红圈所示就是最终我们需要的去除污染后的序列,至此,去污染就结束了
这里会有两个问题
第一个问题: fastq文件中会生成下图中红色的部分,而我所处理的数据是不包含的红圈的部分的,这会使比对产生的bam文件中也有红圈中那一部分,这导致了在后面做snp分析时报错
snp分析报错
第二个问题:我调整了--trimmomatic-options这个参数的设置,将其设置成双端的,但是好像没有作用,使得Concordant pair alignment rate特别的低(ps:有哪位读者知道是何原因吗)
以上是使用kneaddata去污染的过程。
二.用bowtie2去宿主污染
bowtie2是用于比对的软件,但是有个参数可将未比对上的序列输出,因此,以污染物基因组为参考基因组进行比对,为比对上的就是我们需要的
1.bowtie2建立索引(假设污染物参考基因组为genomic.fa)
bowtie2-build genomic.fa genomic
2.开始比对
bowtie2 -p 15 -x genomic -1 sample_R1.fq -2 sample_R2.fq -S sample.sam --un-conc sample.fq
主要的那个参数就是--un-conc
具体含义可使用bowtie2 -h 查看函数参数说明或者参考以下链接:
http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml#options
生成的结果文件有:
sample.1.fq
sample.2.fq
sample.sam
说明:
a.所生成的sample.1.fq文件也会有红圈中的那一部分,但是在后面比对时,bam文件中并不会有图中红圈中的那一部分(ps:这是为什么)
至此,用bowtie2如何去污染(宿主)的全部过程已记录完毕。