Cluster of Orthologous Groups ofproteins(COG)介绍
什么是COG?
COG是如何建立的?
COG是通过把所有完整测序的基因组的编码蛋白一个一个的互相比较确定的。在考虑来自一个给定基因组的蛋白时,这种比较将给出每个其他基因组的一个最相似的蛋白(因此需要用完整的基因组来定义COG。注1)这些基因的每一个都轮番的被考虑。如果在这些蛋白(或子集)之间一个相互的最佳匹配关系被发现,那么那些相互的最佳匹配将形成一个COG(注2)。这样,一个COG中的成员将与这个COG中的其他成员比起被比较的基因组中的其他蛋白更相像,尽管如果绝对相似性比较的。最佳匹配原则的使用,没有了人为选择的统计切除的限制,这就兼顾了进化慢和进化快的蛋白。然而,还有一个加的限制就是一个COG必须包含来自于3个种系发生上远的基因组的一个蛋白。
注1:仅仅应用在形成COG时,不包含新蛋白的信息。
注2:为了简化,许多步骤都省略的,请参考文献。
我可以从哪里获得更多的信息?
以下文献将提供更详细的信息。
-
Tatusov etal. (1997).
A genomic perspective on proteinfamilies. Science 278:631-637. -
Koonin et al.(1998).
Beyond complete genomes: from sequence tostructure and function. Curr. Opin. Struct. Biol.8: 355-363. -
Galperin etal. (1999).
Comparing microbial genomes: How thegene set determines the lifestyle. InOrganization of the Prokaryotic Genome, R.L.Charlebois, Ed. (American Society of Microbiology, Washington, DC)pp. 91-108. -
Tatusov etal. (2000).
A genomic perspective on proteinfamilies. Nucleic Acids Res. 28: 33-6.
使用COG可以得到什么样的信息?
简单的说,有三方面的信息:
1,蛋白的注解。COG的一个蛋白成员的已知功能(以及二维或三维结构)可以直接应用到COG的其他成员上去。然而,这里也要警告,因为有些COG含有paralogs,它们的功能并非对应与那些已知蛋白。
2,种系发生图谱。这给出在一个特定的COG中一个给定物种是否存在某些蛋白。系统使用,这些图谱可以用来确定在一个物种中是否一个特定的代谢途径。
3,多重对齐。每一个COG页面包括了一个链接到COG成员的一个多重对齐,那可以被用来确定保守序列残基和分析成员蛋白的进化关系。