文章目录
简介
【注意】HUMAnN和MetaPhlAn分析前需要对下机数据进行质控。
【注意】HUMAnN和MetaPhlAn分析前需要对下机数据进行质控。
【注意】HUMAnN和MetaPhlAn分析前需要对下机数据进行质控。
- KneadData是一款宏基因组和宏转录组测序数据质控的流程,其主要功能包括使用Trimmomatic序列质控,bowtie2比对至对应数据库基因组去除宿主等序列。
安装
## 构建虚拟环境,安装kneaddata
conda create -n kneaddata
conda activate kneaddata
conda install -c biobakery kneaddata
下载数据库
mkdir kneaddata_database
cd kneaddata_database/
kneaddata_database --download human_genome bowtie2 ./
kneaddata_database --download mouse_C57BL bowtie2 ./
kneaddata_database --download human_transcriptome bowtie2 ./
kneaddata_database --download ribosomal_RNA bowtie2 ./
## 分别解压数据库文件到自定义目录中
mkdir kneaddata_db_DATABASE_NAME
tar -zxvf DATABASE_NAME.tar.gz -C ./kneaddata_db_DATABASE_NAME/
创建定制数据库(可选)
# bowtie2-build <reference> <db-name>
mkdir kneaddata_db_Rnor_6
cd kneaddata_db_Rnor_6
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/895/GCF_000001895.5_Rnor_6.0/GCF_000001895.5_Rnor_6.0_genomic.fna.gz
bowtie2-build GCF_000001895.5_Rnor_6.0_genomic.fna.gz Rnor_6 --threads 8
运行
## 指定数据库,可以全列出来,也可以用到某个就写某个
KNEADDATA_DB_MOUSE_C57BL_6NJ=/home/dengysh/anaconda3/envs/kneaddata/kneaddata_database/kneaddata_db_mouse_C57BL_6NJ/mouse_C57BL_6NJ
KNEADDATA_DB_HUMAN_GENOME=/home/dengysh/anaconda3/envs/kneaddata/kneaddata_database/kneaddata_db_human_genome/Homo_sapiens
KNEADDATA_DB_HUMAN_TRANSCRIPTOME=/home/dengysh/anaconda3/envs/kneaddata/kneaddata_database/kneaddata_db_human_transcriptome/human_hg38_refMrna
KNEADDATA_DB_RIBOSOMAL_RNA=/home/dengysh/anaconda3/envs/kneaddata/kneaddata_database/kneaddata_db_ribosomal_rna/SILVA_128_LSUParc_SSUParc_ribosomal_RNA
KNEADDATA_DB_RNOR_6=/home/dengysh/anaconda3/envs/kneaddata/kneaddata_database/kneaddata_db_Rnor_6/Rnor_6
## 单端数据
kneaddata -i D84-1.fastq.gz -o ./D84-1 -t 20 -p 20 -db $KNEADDATA_DB_HUMAN_GENOME
## 双端数据
## 如果是使用多个数据库进行质控,建议添加‘--serial’参数,会将多个数据库的输入输出串联起来,同时建议添加‘--cat-final-output’参数,合并最终输出文件,便于后续分析
kneaddata -i D84-1.R1.fastq.gz -i D84-1.R2.fastq.gz -o ./D84-1 --output-prefix D84-1 -t 20 -p 20 --cat-final-output --serial -db $KNEADDATA_DB_HUMAN_GENOME -db $KNEADDATA_DB_RNOR_6 -db $KNEADDATA_DB_RIBOSOMAL_RNA
质控后结果统计
跑完质控后,还可以对跑完后的数据记性质控过程统计。使用kneaddata_read_count_table
功能,输入文件是输出目录中的log文件,里面记录了质控过程。如果是多个独立样本,可以将多个样本的log文件汇总在同一个目录下,对目录下所有log文件进行汇总统计。
kneaddata_read_count_table --input log_file/ --output kneaddata_read_count_table.tsv
结果:
列名中含有“pair”表示配对的reads数,“orphan”表示过滤后不成对的reads数。
Sample raw pair1 raw pair2 trimmed pair1 trimmed pair2 trimmed orphan1 trimmed orphan2 decontaminated Homo_sapiens pair1 decontaminated Homo_sapiens pair2 decontaminated Rnor_6 p