KEGG数据库,即京都基因和基因组百科全书(Kyoto Encyclopedia of Genes and Genomes),是系统分析基因功能、基因组信息的数据库。
KofamKOALA是一个方便的KEGG功能注释工具,由创建KEGG的京都大学化研所生物信息中心学者在2019年11月发表于Bioinformatics。
以隐马尔科夫模型(HMM)创建的KOfam来进行蛋白序列同源搜索,其准确性可与性能最佳的工具相媲美, 有网页和Linux两个版本,本文重点介绍Linux版的安装与使用。
网页版
网址 https://www.genome.jp/tools/kofamkoala/
avatar
网页填入蛋白序列信息,设值E值和留下邮箱点击Compute,只需要等待邮箱回复
Linux版
Linux版本的KofamKOALA 需要下载 KOfam(数据库)和 KofamScan(软件),软件依赖Ruby,HMMER和GNU Parallel(事先没有安装可以看以下教程)
安装
我们以kofamscan安装在主目录$HOME(或者叫~)下为例介绍:
step1
下载和解压 KOfam 和 KofamScan
mkdir -p ~/kofamscan/dbcd ~/kofamscan/dbwget ftp://ftp.genome.jp/pub/db/kofam/ko_list.gz wget ftp://ftp.genome.jp/pub/db/kofam/profiles.tar.gz gunzip ko_list.gz tar xvzf profiles.tar.gz mkdir -p ~/kofamscan/bincd ~/kofamscan/binwget ftp://ftp.genome.jp/pub/tools/kofamscan/kofamscan-1.2.0.tar.gz # 注意kofamscan版本tar xvzf kofamscan-1.2.0.tar.gz
step2
下载 Ruby HMMER GNU Parallel
cd ~/kofamscan mkdir ruby hmmer parallel src cd src# Ruby版本应不小于2.4,这里演示的是2.7版;HMMER应大于3.1,这里是3.3;Parallel为最新版wget https://cache.ruby-lang.org/pub/ruby/2.7/ruby-2.7.0.tar.gzwget http://eddylab.org/software/hmmer/hmmer-3.3.tar.gzwget ftp://ftp.gnu.org/gnu/parallel/parallel-latest.tar.bz2
安装 Rub