文科的东西就是这点麻烦,看了忘忘了看,总是记不住。研究本体大半年了,连本体是什么都解释不清楚。现在花时间又整理一遍,暂且写个博客备个份。
本体首先是个哲学概念,后来才迁移到计算机领域。大致的意思是“一切实在的最终本性”,看不懂,也不做深入了解。
到上世纪末,本体被用到计算机中来,在计算机中的概念:
1) 对概念化的精确描述,用于描述事物的本质。
2)Ontology(中文称为:本体)是一种描述术语(包含哪些词汇)及术语间关系(描述苹果、香蕉、水果之间的关系)的概念模型。Ontology的形式可简单可复杂。最简单的词汇表(只定义术语集合,不定义术语之间的关系)也可以看成是一种“本体”;但严格意义上的本体,是既定义了术语、也定义了术语之间关系的。生活中,最常见、最成熟的本体,就属图书馆里的图书分类法了(人类在这方面的研究探索已有上百年历史)。
具体到基因本体:
为了查找某个研究领域的相关信息,生物学家往往要花费大量的时间,更糟糕的是,不同的生物学数据库可能会使用不同的术语,好比是一些方言一样,这让信息查找更加麻烦,尤其是使得机器查找无章可循。Gene Ontology(GO)就是为了解决这种问题而发起的一个项目。
Gene Ontology中最基本的概念是 term 。GO里面的每一个entry都有一个唯一的数字标记,形如 GO: nnnnnnn,还有一个term名,比如 "cell""fibroblast growth factor receptor binding",或者 "signal transduction"。每个term都属于一个ontology,总共有三个ontology,它们分别是molecular function, cellular component和biological process。
一个基因product可能会出现在不止一个cellular component里面,也可能会在很多biological process里面起作用,并且在其中发挥不同的molecular function。比如,基因product "cytochrome c" 用molecular function term 描述是"oxidoreductase activity",而用biological process term 描述就是"oxidative phosphorylation" 和"induction of cell death",最后,它的celluar component term是 "mitochondrial matrix" 和 "mitochondrial inner membrane"。
Gene Ontology中的term有两种相互关系,它们分别是is_a关系和part_of关系。is_a关系是一种简单的包含关系,比如A is_a B 表示A是B的一个子集。比如 nuclear chromosome is_a chromosome。part_of关系要稍微复杂一点,C part_of_D意味着如果C出现,那么它就肯定是D的一部分,但C不一定总会出现。比如nucleus part_of cell,核肯定是细胞的一部分,但有的细胞没有核。
Gene Ontology的结构是一个有向无环图,有点类似于分类树,不同点在于Gene Ontology 的结构中一个 term可以有不止一个parent。比如biological process term "hexose biosynthesis" 有两个parents,它们分别是 "hexose metabolism"和"monosaccharide biosynthesis",这是因为生物合成是代谢的一种,而己糖又是单糖的一种。
参考文献
https://www.zhihu.com/question/19558514/answer/12228788