COG注释[Ubuntu 15.10系统]

1 COG简介

COG数据库是NCBI开发的用于同源蛋白注释的数据库。

大笑

COG数据库根据蛋白质序列的相似性,将蛋白质序列分成不同的类。每个类赋予一个COG编号,代表着一种同源蛋白。同时,将所有的同源蛋白再分成25个大类。此外,COG数据库包含COG和KOG共2个数据库。前者对原核生物的同源蛋白进行聚类,适合原核生物的COG注释;后者对真核生物的同源蛋白进行聚类,适合真核生物的COG注释。

COG的FTP站点为:ftp://ftp.ncbi.nih.gov/pub/COG

2 使用COG数据库进行注释

首先,下载COG数据库fasta文件,构建COG的blast数据库:

$wget ftp://ftp.ncbi.nih.gov/pub/COG/COG/myva

$makeblastdb -in myva -dbtype prot -title cog -parse_seqids -out /opt/biosoft/ncbi-blast-2.2.28+/db/cog -logfile /opt/biosoft/ncbi-blast-2.2.28+/db/cog.log


然后,使用blastp将基因组蛋白质序列比对到COG数据库:

$blast.pl blastp cog proteins.fasta 1e-5 4 cog 5

这是我用的代码,上面的代码运行时出错,我就换了一个。$blastp -query testFSC.fasta -out cog.tab -db cog -evalue 1e-5 -outfmt 7

下载COG数据库的whog和fun.txt 文件。whog文件包含COG编号和COG数据库中序列名的对应关系,也包含COG编号和25个大类的对应关系;fun.txt是25个大类的描述性信息。我们根据这2个文件的信息来编写程序对Blast的结果进行处理,得到COG注释。

$wget ftp://ftp.ncbi.nih.gov/pub/COG/COG/whog

$wget ftp://ftp.ncbi.nih.gov/pub/COG/COG/fun.txt

$cog_from_xml.pl cog.xml 1e-5      #运行这一步的时候,chenlianfu的脚本里面路径是需要修改的,其他的不需要改动。很奇怪,结果文件里面一个项目都没有......555555...............



-------------------------------------------------------------------------------昏割线-----------------------------------------------------------------------------------------------------------------------------

vim打开文件时显示行号

$set nu

$0的含义:代指该文件的名字


  • 0
    点赞
  • 6
    收藏
    觉得还不错? 一键收藏
  • 1
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值