i. 基因与基因组功能注释
a. 基因功能的定义
基因(蛋白质/RNA)功能是一个概念,在不同的生物学背景下可以有不同的解释
i. 分子功能(生化功能/分子活性)
每个蛋白质都有生化功能,生化功能和蛋白质的分子功能的内在含义是一致的。
- 对于酶而言,它的生化功能就是催化一种或几种底物转化为其他物质。
- 对于一个结构蛋白而言,它的生化功能就是影响细胞的形状。
- 对于一个转运蛋白而言,它的生化功能就是将一个配体由一个地方转移到另一个地方(这种转运在不需要能量物质(如ATP)的情况下也可能发生,如视黄醇结合蛋白在血浆中可以转运视黄醇)
- 对于那些从基因组序列中预测出来的尚未被实验证实的蛋白质,它的生化功能是未知的,但是功能一定存在。
细胞中不存在没有任何功能的蛋白
ii. 生物学功能(所有的细胞过程都要求蛋白质有条不紊地按一定程序来执行它们的功能)
这些生物过程包括细胞分裂、生长和衰老;
神经元细胞的轴突要派生出分支,向前伸展,识别目标和形成突触;
这个过程中所有的细胞都需要通过不同的途径向胞外分泌分子等。
所有的细胞过程都要求蛋白质有条不紊地按一定程序来执行它们的功能,单个蛋白质的功能需要在它所参与的整个大的功能的背景上进行定义。
iii. 细胞组间
它位于细胞外区域。
细胞最外层结构的外部空间。
功能基因组学这个术语是指利用实验的手段或计算工具对成百上千个表达的基因进行探索性的研究和分析
大多数转录的最终产物还是蛋白质,所以功能基因组学这个词语也经常指大规模地对蛋白质功能进行研究。
大规模的实验经常能得到比较宏观的结论
b. 基因功能注释
即获得基因与功能的对应关系对
基因组学与功能基因组学
-
基因组学
-
研究基因组的组成、结构和功能的学科
-
结构基因组学
-
功能基因组学
-
c. 功能基因组学
功能基因组学又被称为后基因组学
利用结构基因组等提供的信息,发展和应用新的实验或计算手段,进行基因组功能注释(genome function annotation),在基因组或系统水平了解基因的功能,掌握基因的产物及其在生命活动中的作用,认识基因与疾病的关系等。
d. 基因组功能注释
i. 已知物种及基因的数目不断增加
ii. 已知的基因功能信息不断增加
iii. 一种基因多个功能
iv. 生物学功能的多种描述
v. 功能比较的挑战
ii. 基因功能注释数据库
a. GO数据库
i.内容,背景目的
GO数据库是一个关系数据库,包括GO 本体论、基因和基因产物在这些本体论术语中的注释信息
旨在建立一套适用于各种物种的,对基因和蛋白质功能从多个方面进行限定和描述的,并能随着研究不断深入而更新的语义(terms)词汇标准,即基因产物分类标准
- 现今,生物学家浪费了太多的时间和精力在搜寻生物信息上,这种情况归结于生物学上定义混乱的原因,不同的生物学数据库可能会使用不同的术语。
- GO就是为了解决上述问题,使各种数据库中基因产物功能描述相一致而发起的一个项目。
- GO具有的意义和当前发挥的作用是广泛的
- GO术语在多个合作数据库中的统一使用,促进了各类数据库对基因描述的一致性
ii.本体论
什么是ontology
-
“概念模型”指通过抽象出客观世界中一些现象(Phenomenon) 的相关概念而得到的模型。概念模型所表现的含义独立于具体的环境状态。
-
“明确”指所使用的概念及使用这些概念的约束都有明确的定义。
-
“形式化”指Ontology 是计算机可读的(即能被计算机处理) 。
-
“共享”指Ontology 中体现的是共同认可的知识,反映的是相关领域中公认的概念集,即Ontology 针对的是团体而非个体的共识。
Ontology
Ontology 的目标是捕获相关领域的知识,提供对该领域知识的共同理解,确定该领域内共同认可的词汇,给出标准化的定义,并从不同层次的形式化模式上给出这些词汇(术语) 和词汇间相互关系的明确定义
包括
-
术语词汇表(概念名称)
-
定义
- 定义彼此之间的逻辑关系并形成层次结构
iii.GO中基因功能注释的特点
a) go结点包括
-
Term(结点): gluconeogenesis(葡萄糖生物合成)
-
id: GO:0006094
-
definition(定义): The formation of glucose from noncarbohydrate(非碳水) precursors, such as pyruvate(丙酮酸), amino acids and glycerol(甘油三酯)
-
Ontology(本体):Biological Process(生物过程)
-
Synonyms (同义词)
exact: glucose biosynthesis (葡萄糖生物合成)
exact: glucose biosynthetic process (葡萄糖生物合成过程)
注释系统中每一个结点都是基因或蛋白功能的一种命名及描述
b) term调控关系(regulate)及其推导
Part of下一个概念是上一个概念的一部分
Is a 上一个概念包括下一个概念
下一个概念是上一个概念的实例
Is a .part of→part of
Part of.is a→part of
Is a .is a→is a
Part of.part of →part of
如果一个过程直接影响另一个过程,我们称前者调控(regulate)后者
被调节的对象可以是一个过程
c) 本体结构
层次性的有向无环图
结点之间保持严格的关系,即"is a"或"part of"
一种有向无环图 (DAG),其中每个孩子都可以有一个或多个父母。 具有多个父节点的节点为红色,附加边为灰色
d) True Path Rule
如果某一个概念可以用于描述此基因产物,其上面的概念也可以适用
iV.GO的三个本体论
GO语义的分类
-
分子功能(Molecular Function, MF)
描述在个体分子生物学上的活性,如催化活性或结合活性。
-
生物学过程(Biological Process,BP)
由分子功能有序地组成的,具有多个步骤的一个过程,如细胞周期。
-
细胞组件(Cellular Component, CC)
指基因产物位于何种细胞器或基因产物组中(如糙面内质网,核糖体,蛋白酶体等),即基因产物在什么地方起作用。
V.GO数据库的使用
a) 两种模式的注释
i) 电子注释(98%)
GO与外部概念的映射
同源性分析。
ii) 手动注释
从已发表的文献中提取信息
手动分配的证据代码分为三大类:实验性、作者声明和策展声明
iii) 其他注意事项
基因产物可以具有多种功能、细胞位置并参与许多过程
基因产物对一个本体的注释独立于它对其他本体的注释
注释仅用于反映正常活动或位置的术语
b. KEGG数据库
i.背景
1995年5月,日本的教育、科学、体育和文化部携手建立了KEGG数据库。经过了26年的发展,数据库的规模不断的扩大,其应用价值也得到了世界范围内的认可。
KEGG是系统地分析基因功能、链接基因组信息和功能信息的数据库,旨在揭示生命现象的遗传与化学蓝图。
数据库的维护人员不定期的根据最近出版的一些学术论文和生物学实验得到的数据对该数据库进行更新,来保证数据库的信息与最近的科研成果同步。
ii.通路解释
KEGG是一个整合了基因组、化学和系统功能信息的数据库。把从已经完整测序的基因组中得到的基因目录与更高级别的细胞、物种和生态系统水平的系统功能关联起来是KEGG数据库的特色之一。与其他数据库相比,KEGG 的一个显著特点就是具有强大的图形功能,它利用图形而不是繁缛的文字来介绍众多的代谢途径以及各途径之间的关系,这样可以使研究者能够对其关注的代谢途径有直观全面的了解。
KEGG提供的整合代谢途径查询十分出色,包括碳水化合物、核苷酸、氨基酸等代谢及有机物的生物降解,不仅提供了所有可能的代谢途径,还对催化各步反应的酶进行了全面的注解,包括其氨基酸序列和PDB数据库的链接等。
KO(KEGG Orthology):是KEGG中一个“专有名词,作为通路中的基本单位,它是蛋白质(酶)的一个分类体系。通常序列高度相似且在同一通路中具有相似功能的蛋白质被归为一组,即一个KO。
iii.KEGG pathway数据库的使用
红框内的是KEGG分层数据库,这里面包括对所有基因的功能注释和信号通路注释这种分析有点类似GO分析,就是按照不同的功能以及信号通路进行分类,然后打上Ko(KEGG Ontology)的标签。蓝框中的呢,是KEGG的蛋白质或者酶的一个分类体系,他们把序列高度相似,并且在同一条通路上有相似功能的蛋白质被归为一组,然后打上KO(KEGG Orthologs)标签。
所以在KEGG上这两种KO标记其实是不一样的,本体论分层分类(KEGG Ontology)的用小写“ko”标记。KEGG同源物(KEGG Orthologs),缩写成K。
- 代谢(Metabolism)------细胞内发生的各种化学反应的总称。
- 一个代谢通路(Metabolic pathway)包括一系列互相联系的反应(reaction), 反应中的酶( enzyme)以及反应中的底物或者产物(substrate) 。
在KEGG中有两种代谢图,一种是参考代谢通路图reference pathway,是根据已有的知识绘制的概括的、详尽的具有一般参考意义的代谢图,这种图上就不会有绿色的小框,而都是无色的,所有的框都可以点击查看更详细的信息;
另一种就是像上面这样的属于特定物种的代谢图species-specific pathway,会用绿色来标出这个物种特有的基因或酶,只有这些绿色的框点击以后才会给出更详细的信息。
这两种图很好区分,reference pathway 在KEGG中的名字是以map 开头的,比如map00010,就是糖酵解途径的参考图,而特定物种的代谢通路图开头三个字符不是map而是种属英文单词的缩写(应该就是一个属的首字母+2个种的首字母)比如人类的的糖酵解通路图就应该是hsa00010,酵母的糖酵解通路图,就是sce00010
iv.功能基因数据库应用的扩展
a) 获得基因产物的功能信息
b) 找出某个物种中有多少蛋白质参与了某个生物学过程\分子功能\细胞组分
c) 功能富集分析
d) 整合来自不同生物的蛋白组学信息
e) 判定蛋白结构域的功能
f) 把生物学知识和你的数据建立链接 …
-
找到在疾病中异常表达的基因的功能
-
分析在发育/衰老过程中不同阶段表达的基因
-
物种进化相关基因
g)建立自动的能从文献中自动获取功能的工具
iii. 基因的功能注释和富集分析
a. 基因集合的功能注释(单个/批量)
i.GO
ii.KEGG(通路)
案例1:查看单个疾病风险基因注释到哪些通路
- 神经胶质瘤(Glioma)风险基因(NCBI-GeneID :1956),该基因编码表皮生长因子受体(EGFR)
进入KEGG搜索界面http://www.genome.jp/kegg/tool/map_pathway2.html - 选择Search against为:hsa
- 选择Primary ID 类型为:NCBI-GeneID
- 输入EGFR基因(如格式:1956 red)
- 点击Exec
案例2:查看多个疾病风险基因注释到哪些通路(适用于复杂疾病)
- 从通过差异表达分析获得动脉硬化(artherosclerosis)风险基因集合:共234个基因
进入KEGG搜索界面http://www.genome.jp/kegg/tool/map_pathway2.html - 选择Search against为:hsa
- 选择Primary ID 类型为:NCBI-GeneID
- 输入差异表达基因,格式: 19 red;368 red
- 点击Exec
案例3:查看单个疾病风险基因注释到哪些功能结点
- 神经胶质瘤(Glioma)风险基因(NCBI-GeneID :1956),该基因编码表皮生长因子受体(EGFR)
进入GO界面http://www.geneontology.org/ - 输入EGFR基因(格式: EGFR )
- 选择gene or protein name
- 点击Go!
案例4:查看多个疾病风险基因注释到哪些功能
funcAssociate
b. 富集分析
基因集功能富集分析的原因
-
一组基因直接注释的结果是得到大量的功能结点
- 这些功能具有概念上的交叠现象,不利于进一步的精细分析,所以研究人员希望对得到的功能结点加以过滤和和筛选,以便获得更有意义的功能信息
-
富集分析方法通常是分析一组感兴趣的基因在某个功能结点上是否出现过
-
和随机/背景比较,关注的基因集显著注释的功能结点
-
由于分析的结论是基于一组相关的基因,而不是根据单个基因,所以富集分析方法增加了研究的可靠性,同时也能够识别出与生物现象最相关的生物过程
给定一组基因,是不是存在GO中的一个功能(或KEGG中的一个通路),这些基因参与这个功能(或通路)的数目超过了随机期望,小概率发生事件
i.富集分析统计学方法
a) 超几何分布及累积超几何分布
p = 1 − ∑ i = 0 x − 1 ( M i ) ( N − M K − i ) ( N K ) p=1-\sum_{i=0}^{x-1}\frac{\begin{pmatrix}M\\i\end{pmatrix}\begin{pmatrix}N-M\\K-i\end{pmatrix}}{\begin{pmatrix}N\\K\end{pmatrix}} p=1−i=0∑x−1(NK)(Mi)(N−M