PICRUST2预测得到的结果文件里只有KO层级,而这一层级有几千条,很难进行统计分析。如果能将KO层级所属的上两级进行统计,能够更好地进行分析和描述。
PICRUST2目前出了官方的注释命令,建议大家使用官方命令进行注释。
参考刘永鑫老师的文章及代码,成功进行了KEGG第一第二层级的注释及汇总。
刘永鑫老师文章——PICRUST2
1、脚本文件包下载
git下载,可使用wget或主页中直接下载压缩包
没有安装git的可以进入链接后,手动下载上传。
git clone https://github.com/YongxinLiu/EasyMicrobiome
unzip EasyMicrobiome.zip
2、添加linux命令可执行权限
chmod +x EasyMicrobiome/linux/*
3、添加软件至环境变量,否则需要指定软件的完整路径使用
echo "PATH=$PATH:`pwd`/EasyMicrobiome/linux:`pwd`/EasyMicrobiome/script" >> ~/.bashrc
4、KO层级注释
原代码python3 ${db} script/summarizeAbundance.py
中${db}/script/summarizeAbundance.py不知为何无法识别,将第一个斜杠去掉以后就可以了。
zcat KO_metagenome_out/pred_metagenome_unstrat.tsv.gz > KEGG.KO.txt
python3 ${db} script/summarizeAbundance.py \
-i KEGG.KO.txt \
-m ${db} kegg/KO1-4.txt \
-c 2,3,4 -s ',+,+,' -n raw \
-o KEGG
5、统计各层级特征数量
wc -l KEGG*
6707 KEGG.KO.txt
9 KEGG.PathwayL1.raw.txt
55 KEGG.PathwayL2.raw.txt
474 KEGG.Pathway.raw.txt