COG注释[Ubuntu 15.10系统]

最新推荐文章于 2024-06-07 09:50:10 发布

SicongFu

最新推荐文章于 2024-06-07 09:50:10 发布

阅读量9.3k

点赞数

文章标签： KOG注释注释 COG注释

1 COG简介

COG数据库是NCBI开发的用于同源蛋白注释的数据库。

COG数据库根据蛋白质序列的相似性，将蛋白质序列分成不同的类。每个类赋予一个COG编号，代表着一种同源蛋白。同时，将所有的同源蛋白再分成25个大类。此外，COG数据库包含COG和KOG共2个数据库。前者对原核生物的同源蛋白进行聚类，适合原核生物的COG注释；后者对真核生物的同源蛋白进行聚类，适合真核生物的COG注释。

COG的FTP站点为：ftp://ftp.ncbi.nih.gov/pub/COG

2 使用COG数据库进行注释

首先，下载COG数据库fasta文件，构建COG的blast数据库：

$wget ftp://ftp.ncbi.nih.gov/pub/COG/COG/myva

$makeblastdb -in myva -dbtype prot -title cog -parse_seqids -out /opt/biosoft/ncbi-blast-2.2.28+/db/cog -logfile /opt/biosoft/ncbi-blast-2.2.28+/db/cog.log

然后，使用blastp将基因组蛋白质序列比对到COG数据库：

$blast.pl blastp cog proteins.fasta 1e-5 4 cog 5

这是我用的代码，上面的代码运行时出错，我就换了一个。$blastp -query testFSC.fasta -out cog.tab -db cog -evalue 1e-5 -outfmt 7

下载COG数据库的whog和fun.txt 文件。whog文件包含COG编号和COG数据库中序列名的对应关系，也包含COG编号和25个大类的对应关系；fun.txt是25个大类的描述性信息。我们根据这2个文件的信息来编写程序对Blast的结果进行处理，得到COG注释。

$wget ftp://ftp.ncbi.nih.gov/pub/COG/COG/whog

$wget ftp://ftp.ncbi.nih.gov/pub/COG/COG/fun.txt

$cog_from_xml.pl cog.xml 1e-5 #运行这一步的时候，chenlianfu的脚本里面路径是需要修改的，其他的不需要改动。很奇怪，结果文件里面一个项目都没有......555555...............

-------------------------------------------------------------------------------昏割线-----------------------------------------------------------------------------------------------------------------------------

vim打开文件时显示行号

$set nu

$0的含义：代指该文件的名字

SicongFu

关注

0
点赞
踩
6

收藏

觉得还不错? 一键收藏
1
评论
COG注释[Ubuntu 15.10系统]

1 COG简介COG数据库是NCBI开发的用于同源蛋白注释的数据库。COG数据库根据蛋白质序列的相似性，将蛋白质序列分成不同的类。每个类赋予一个COG编号，代表着一种同源蛋白。同时，将所有的同源蛋白再分成25个大类。此外，COG数据库包含COG和KOG共2个数据库。前者对原核生物的同源蛋白进行聚类，适合原核生物的COG注释；后者对真核生物的同源蛋白进行聚类，适合真核生物的COG注释
复制链接

扫一扫