进行KOG注释的方法和COG一致。对真核生物使用KOG注释:
$wget ftp://ftp.ncbi.nih.gov/pub/COG/KOG/kyva
$makeblastdb -in kyva -dbtype prot -title kog -parse_seqids -out /opt/biosoft/ncbi-blast-2.2.28+/db/kog -logfile /opt/biosoft/ncbi-blast-2.2.28+/db/kog.log
$cat /opt/biosoft/ncbi-blast-2.2.28+/db/kog.log
然后,使用Blast将基因组蛋白质序列比对到COG数据库
chenlifu的书上的代码 $blast.pl blastp kog proteins.fasta 1e-5 4 kog 5
实际上用的这个代码 $blastp -query testFSC.fasta -out kog.tab -db kog -evalue 1e-5 -outfmt 7
下载KOG数据库的kog和fun.txt文件。kog文件包含kog编号和KOG数据库中序列名的对应关系,也包含KOG编号和25个大类的对应关系;fun.txt是25个大类的描述性信息。我们根据这2个文件的信息来编写程序对Blast的结果进行处理,得到KOG注释。
KOG的ftp站点 ftp://ftp.ncbi.nih.gov/pub/COG/KOG/
$wget ftp://ftp.ncbi.nih.gov/pub/COG/KOG/kog
$wget ftp://ftp.ncbi.nih.gov/pub/COG/KOG/fun.txt
$kog_from_xml.pl kog.xml 1e-5
----------------------------------------------------昏割线---------------------------------------------------------------
运行的过程中没有出现kog.xml文件,就无法进行最后一步的操作,不知道时因为什么。。。cacacacacaca