KEGC数据库:是系统分析基因功能、基因组信息的数据库
KEGC注释的工具:KofamKOALA有在线版与本地版(linux)
本次主要介绍本地版
安装
下载并解压Kofam
wget https://www.genome.jp/ftp/db/kofam/ko_list.gz
wget https://www.genome.jp/ftp/db/kofam/profiles.tar.gz
#下载完成之后解压
gunzip ko_list.gz
tar -xzvf profiles.tar.gz
下载并解压kofam_scan
wget https://www.genome.jp/ftp/tools/kofam_scan/kofam_scan-1.3.0.tar.gz
tar -xzvf kofam_scan-1.3.0.tar.gz
加入环境变量
vim ~/.bashrc
export PATH=/home/jiawei_li/tools/kofamscan/kofam_scan-1.3.0:\$PATH #写自己的路径
source ~/.bashrc #更新变量
需要的依赖:Ruby 、HMMER、GNU Parallel
用conda安装Ruby、HMMET、GUN Parallel
conda install -c conda-forge ruby
conda install -c bioconda hmmer
conda install -c conda-forge parallel
修改配置文件
cd Kofam_scan
cp config-template.yml config.yml
config.yml 内容
profile: /path/to/home/kofamscan/db/profiles
ko_list: /path/to/home/kofamscan/db/ko_list
hmmsearch: /path/to/home/anaconda3/bin/hmmsearch
parallel: /path/to/home /anaconda3/bin/parallel
cpu: 8
运行
#激活环境
conda activate Kofam
#注释
kofamscan -o group_rep.kofam.out --cpu 25 --format mapper -e 1e-5 group_rep.faa
#退出环境
conda deactivate
对蛋白质序列进行注释
exec_annotation -o test.querry2KO --cpu 8 --format mapper -E 1e-5 test.pep.fa
参数
--cpu 使用CPU数量
-E, --e-value 最大 e 值
-f, --format
detail:每个命中的详细信息(包括低于阈值的命中),默认
detail-tsv:详细格式的Tab分隔值
mapper: KEGG mapper兼容的格式 (可以用于后续网页分析)
mapper-one-line:类似于mapper,但所有的ko都列在一行中