基因功能注释分析的意义
基因功能注释分析简介
基因功能的注释依赖于基因结构或者序列,将基因序列或蛋白序列和主流数据库进行比对获取该基因的功能信息,最终对预测的编码基因进行功能注释。常见的功能注释数据库有:Nr:NCBI官方非冗余蛋白数据库; 如果涉及DNA序列,就用nt库。Pfam: 蛋白结构域注释的分类系统。 Swiss-Prot: 高质量的蛋白质数据库。KEGG: 代谢通路注释数据库。GO: 基因本体论注释数据库。COG :是由NCBI创建和维护的蛋白质数据库。在生物信息学中,常用GO功能注释和KEGG(pathway)通路富集分析以及COG富集分析对差异表达基因进行功能注释分析。通过对差异表达基因进行注释分析,挖掘相关生物学意义,从而为疾病的基础研究,发病机制机理,药物发现等研究提供理论基础。
基因功能注释在生物学中的应用
随着测序技术的发展,产生了大量的测序数据以及整合这些数据产生的各种数据库。在生物医学研究过程中,进行差异基因表达分析时,会得到一批显著差异基因,对这些差异基因参与的功能进行注释分析,从而了解相关生物学意义。
- 对基因或蛋白参与的生物学代谢通路途径进行注释。
- 对基因或蛋白参与的生物进程,细胞组成以及分子功能进行注释。
- 对微生物(如人体肠道微生物)进行功能注释分类。
常见数据库介绍
先说说GO,GO(gene ontology)分别从功能、参与的生物途径、细胞中的定位,对基因产物进行了简单注释。所以通过GO富集分析可粗略地了解基因富集在哪些生物学功能、途径或细胞定位。
KEGG(Kyoto Encyclopedia of Genes and Genomes)是一个整合了基因组、化学和系统功能信息的综合数据库。KEGG拥有多个子数据库,而其中使用频率最高的数据库是KEGG Pathway数据库,专门存储不同物种中基因通路的信息。
COG (Cluster of Orthologous Groups of Protein), 该数据库是对细菌、藻类和真核生物的21个完整基因组的编码蛋白根据系统进化关系分类构建而成。对于预测单个蛋白质或者整个新基因组中蛋白质的功能非常有用。