kneaddata安装及使用

KneadData是一个用于宏基因组和宏转录组测序数据质控的工具,包括Trimmomatic序列质控和bowtie2比对去除宿主序列。本文档介绍了KneadData的安装、数据库下载、运行以及质控结果的统计分析,并提供了添加FastQC功能的步骤和参考资料。

摘要生成于 C知道 ,由 DeepSeek-R1 满血版支持, 前往体验 >

简介

【注意】HUMAnN和MetaPhlAn分析前需要对下机数据进行质控。
【注意】HUMAnN和MetaPhlAn分析前需要对下机数据进行质控。
【注意】HUMAnN和MetaPhlAn分析前需要对下机数据进行质控。

  • KneadData是一款宏基因组和宏转录组测序数据质控的流程,其主要功能包括使用Trimmomatic序列质控,bowtie2比对至对应数据库基因组去除宿主等序列。

安装

## 构建虚拟环境,安装kneaddata
conda create -n kneaddata
conda activate kneaddata
conda install -c biobakery kneaddata

下载数据库

mkdir kneaddata_database
cd kneaddata_database/
kneaddata_database --download human_genome bowtie2 ./
kneaddata_database --download mouse_C57BL bowtie2 ./
kneaddata_database --download human_transcriptome bowtie2 ./
kneaddata_database --download ribosomal_RNA bowtie2 ./

## 分别解压数据库文件到自定义目录中
mkdir kneaddata_db_DATABASE_NAME
tar -zxvf DATABASE_NAME.tar.gz -C ./kneaddata_db_DATABASE_NAME/

创建定制数据库(可选)

# bowtie2-build <reference> <db-name>
mkdir kneaddata_db_Rnor_6
cd kneaddata_db_Rnor_6
wget https://ftp.ncbi.nlm.nih.gov/genomes/all/GCF/000/001/895/GCF_000001895.5_Rnor_6.0/GCF_000001895.5_Rnor_6.0_genomic.fna.gz
bowtie2-build GCF_000001895.5_Rnor_6.0_genomic.fna.gz Rnor_6 --threads 8

运行

## 指定数据库,可以全列出来,也可以用到某个就写某个
KNEADDATA_DB_MOUSE_C57BL_6NJ=/home/dengysh/anaconda3/envs/kneaddata/kneaddata_database/kneaddata_db_mouse_C57BL_6NJ/mouse_C57BL_6NJ
KNEADDATA_DB_HUMAN_GENOME=/home/dengysh/anaconda3/envs/kneaddata/kneaddata_database/kneaddata_db_human_genome/Homo_sapiens
KNEADDATA_DB_HUMAN_TRANSCRIPTOME=/home/dengysh/anaconda3/envs/kneaddata/kneaddata_database/kneaddata_db_human_transcriptome/human_hg38_refMrna
KNEADDATA_DB_RIBOSOMAL_RNA=/home/dengysh/anaconda3/envs/kneaddata/kneaddata_database/kneaddata_db_ribosomal_rna/SILVA_128_LSUParc_SSUParc_ribosomal_RNA
KNEADDATA_DB_RNOR_6=/home/dengysh/anaconda3/envs/kneaddata/kneaddata_database/kneaddata_db_Rnor_6/Rnor_6

## 单端数据
kneaddata -i D84-1.fastq.gz  -o ./D84-1 -t 20 -p 20 -db $KNEADDATA_DB_HUMAN_GENOME

## 双端数据
## 如果是使用多个数据库进行质控,建议添加‘--serial’参数,会将多个数据库的输入输出串联起来,同时建议添加‘--cat-final-output’参数,合并最终输出文件,便于后续分析
kneaddata -i D84-1.R1.fastq.gz -i D84-1.R2.fastq.gz -o ./D84-1 --output-prefix D84-1 -t 20 -p 20 --cat-final-output --serial -db $KNEADDATA_DB_HUMAN_GENOME -db $KNEADDATA_DB_RNOR_6 -db $KNEADDATA_DB_RIBOSOMAL_RNA

质控后结果统计

跑完质控后,还可以对跑完后的数据记性质控过程统计。使用kneaddata_read_count_table功能,输入文件是输出目录中的log文件,里面记录了质控过程。如果是多个独立样本,可以将多个样本的log文件汇总在同一个目录下,对目录下所有log文件进行汇总统计。

kneaddata_read_count_table --input log_file/ --output kneaddata_read_count_table.tsv

结果:
列名中含有“pair”表示配对的reads数,“orphan”表示过滤后不成对的reads数。

Sample  raw pair1       raw pair2       trimmed pair1   trimmed pair2   trimmed orphan1 trimmed orphan2 decontaminated Homo_sapiens pair1       decontaminated Homo_sapiens pair2       decontaminated Rnor_6 p
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值