1 COG简介
COG数据库是NCBI开发的用于同源蛋白注释的数据库。
COG数据库根据蛋白质序列的相似性,将蛋白质序列分成不同的类。每个类赋予一个COG编号,代表着一种同源蛋白。同时,将所有的同源蛋白再分成25个大类。此外,COG数据库包含COG和KOG共2个数据库。前者对原核生物的同源蛋白进行聚类,适合原核生物的COG注释;后者对真核生物的同源蛋白进行聚类,适合真核生物的COG注释。
COG的FTP站点为:ftp://ftp.ncbi.nih.gov/pub/COG
2 使用COG数据库进行注释
首先,下载COG数据库fasta文件,构建COG的blast数据库:
$wget ftp://ftp.ncbi.nih.gov/pub/COG/COG/myva
$makeblastdb -in myva -dbtype prot -title cog -parse_seqids -out /opt/biosoft/ncbi-blast-2.2.28+/db/cog -logfile /opt/biosoft/ncbi-blast-2.2.28+/db/cog.log
然后,使用blastp将基因组蛋白质序列比对到COG数据库:
$blast.pl blastp cog proteins.fasta 1e-5 4 cog 5
这是我用的代码,上面的代码运行时出错,我就换了一个。$blastp -query testFSC.fasta -out cog.tab -db cog -evalue 1e-5 -outfmt 7
下载COG数据库的whog和fun.txt 文件。whog文件包含COG编号和COG数据库中序列名的对应关系,也包含COG编号和25个大类的对应关系;fun.txt是25个大类的描述性信息。我们根据这2个文件的信息来编写程序对Blast的结果进行处理,得到COG注释。
$wget ftp://ftp.ncbi.nih.gov/pub/COG/COG/whog
$wget ftp://ftp.ncbi.nih.gov/pub/COG/COG/fun.txt
$cog_from_xml.pl cog.xml 1e-5 #运行这一步的时候,chenlianfu的脚本里面路径是需要修改的,其他的不需要改动。很奇怪,结果文件里面一个项目都没有......555555...............
-------------------------------------------------------------------------------昏割线-----------------------------------------------------------------------------------------------------------------------------
vim打开文件时显示行号
$set nu