去污染(宿主)过程记录

去宿主污染用了两个软件kneaddata、bowtie

一.kneaddata (虽然去除了,但结果是不符合要求的)

首先是用kneaddata去污染整个过程的记录:

1.构建污染物(宿主)的基因组索引(假设污染物参考基因组为genomic.fa)

bowtie2-build  genomic.fa  genomic

2.使用kneaddata去除宿主(污染物)

kneaddata -t 20 --input sample_R1.fq.gz --input  sample_R1.fq.gz -db ./ --output sample --trimmomatic /data1/software/Trimmomatic-0.36/ --remove-intermediate-output

 上面这条代码trimmomatic参数用的是默认的,而默认的是单端的,如图所示

 因此,按照trimmomatic对双端数据的处理参数标准,调整了--trimmomatic-options这个参数的设置

kneaddata -t 20 --input sample_R1.fq.gz --input sample_R2.fq.gz  -db ./ --output sample --trimmomatic /data1/software/Trimmomatic-0.36/ --trimmomatic-options "ILLUMINACLIP:/data1/software/Trimmomatic-0.36/adapters/TruSeq3-PE_all.fa:2:30:10:8:true LEADING:3 TRAILING:3 SLIDINGWINDOW:4:18 MINLEN:36" --remove-intermediate-output

关于各个参数的含义,可参考链接https://www.jianshu.com/p/396dc17f2615

结果创建一个--output 指定的名字的文件夹,会包含以下文件

图中红圈所示就是最终我们需要的去除污染后的序列,至此,去污染就结束了

这里会有两个问题

第一个问题: fastq文件中会生成下图中红色的部分,而我所处理的数据是不包含的红圈的部分的,这会使比对产生的bam文件中也有红圈中那一部分,这导致了在后面做snp分析时报错

snp分析报错

第二个问题:我调整了--trimmomatic-options这个参数的设置,将其设置成双端的,但是好像没有作用,使得Concordant pair alignment rate特别的低(ps:有哪位读者知道是何原因吗)

以上是使用kneaddata去污染的过程。

二.用bowtie2去宿主污染

bowtie2是用于比对的软件,但是有个参数可将未比对上的序列输出,因此,以污染物基因组为参考基因组进行比对,为比对上的就是我们需要的

1.bowtie2建立索引(假设污染物参考基因组为genomic.fa)

bowtie2-build  genomic.fa  genomic

2.开始比对

 bowtie2 -p 15 -x genomic -1 sample_R1.fq -2 sample_R2.fq -S sample.sam --un-conc sample.fq 

主要的那个参数就是--un-conc

具体含义可使用bowtie2 -h 查看函数参数说明或者参考以下链接:

http://bowtie-bio.sourceforge.net/bowtie2/manual.shtml#options

生成的结果文件有:

sample.1.fq

sample.2.fq

sample.sam

说明:

a.所生成的sample.1.fq文件也会有红圈中的那一部分,但是在后面比对时,bam文件中并不会有图中红圈中的那一部分(ps:这是为什么)

至此,用bowtie2如何去污染(宿主)的全部过程已记录完毕。

 

 

 

 

Kneaddata 是一种用于处理宏基因组学数据的生物信息学工具,主要用于去除宿主序列并保留微生物相关序列。以下是关于 Kneaddata 去除宿主 DNA 的功能以及配置方法的相关说明: ### 功能概述 Kneaddata 能够通过比对输入序列到指定的参考基因组来识别和移除可能属于宿主的序列[^4]。它支持多种输入格式(如 FASTQ 和 FASTA),并且可以生成质量控制后的输出文件。 ### 使用方法 要使用 Kneaddata 移除宿主 DNA,通常需要以下几个关键步骤及其对应的参数设置: #### 1. 准备参考数据库 为了有效区分宿主与非宿主序列,需提供一个高质量的参考基因组作为比对目标。例如人类基因组 (GRCh38) 或其他特定物种的基因组。 ```bash # 下载并索引参考基因组 bowtie2-build human_genome.fasta human_index ``` 此操作会创建供后续分析使用的 Bowtie2 索引文件集合。 #### 2. 配置命令行选项 下面是一个典型的调用示例,展示如何利用 Kneaddata 来过滤掉潜在的人类 DNA 序列: ```bash kneaddata \ --input reads.fastq.gz \ --output output_directory/ \ --reference-db human_index \ --threads 8 \ --trimmomatic /path/to/Trimmomatic.jar \ --paired ``` 上述脚本中的各个部分解释如下: - `--input`: 输入原始测序读段路径; - `--output`: 输出目录位置; - `--reference-db`: 已构建好的参考数据库地址; - `--threads`: 并行线程数设定; - `--trimmomatic`: Trimmomatic jar 文件的具体定位以便于预处理阶段剪裁低质碱基; - `--paired` 表明这是成对末端配对模式下的样本。 注意这里还依赖另一个软件包 **Bowtie2** 进行情境匹配工作流管理[^5]^, 同时也集成了 Trimommatic 对原始 fastq 数据先期清理杂质噪声干扰项. ### 注意事项 尽管 Kneaddata 提供了一个强大的框架去减少宿主贡献比例,但在实际应用过程中仍可能存在一些局限性和挑战: - 如果样品中含有高度相似性的近缘种属,则难以完全剔除非目的片段; - 不同批次间实验条件差异可能导致结果重现性波动等问题均应予以考虑; 总之,在正式开展大规模数据分析之前建议充分验证所选策略的有效性及可靠性。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值