本体概述_混合本体-CSDN博客

本文链接：https://blog.csdn.net/sfbegingmail/article/details/6093010

本体的定义

Ontology的概念最初起源于哲学领域，可以追溯到公元前古希腊哲学家亚里士多德（384-322 b.c.）尝试对世界上的事物分类，在哲学中定义为“对世界上客观存在物的系统地描述，即存在论”[1]。牛津英语词典定义为“存在的科学或研究”。当不同的理论家提出本体的不同建议，或者不同的知识领域谈论本体建议时，应该使用本体的复数即本体论（ontologies）以便表示总的本体集合[21]。

信息系统和哲学之间的关系好像永远是两个不同的国度，每个都有自己的语言和文化。事实上两者各自的研究方向是相互正交的，但今天，哲学的分支――本体论可以充当连接信息系统和哲学之间的桥梁，尽管本体论在信息系统中的作用好像与哲学中的作用完全不同[79]。信息系统需要推理世界模型，因此研究者采用术语‘本体’在程序中描述表示世界的信息。

信息系统本体论是表述特殊知识领域的形式语言；而哲学本体论解释世界某些领域不依赖于任何特定语言的特殊分类系统，尽管运用语言的概念机制作为描述手段，但却既不可约也不等同于语言或形式体系。与信息系统本体论相似，哲学本体论确实解释研究领域的知识和概念框架，主要目的是预先忠实的描述，即寻求真理。无论存在着何种区别，哲学本体论仍能对概念化的框架和信息系统本体论的开发做出一定的贡献，最大贡献是发现研究领域中某些事实，即领域的本性、范围、边界和独特性[79]。

1991年美国Stanford大学的Gruber和Neches等人[37]最早把本体定义为“构成相关领域词汇的基本术语和关系，以及利用这些术语和关系构成的规定这些词汇外延的规则”。

1993年Gruber[1]采用概念化的形式定义<D，R>结构[125]，其中D是领域，R是D中相关的关系集合。把本体定义成“共享概念化的形式的、明确地规范”，因此能够很好地表现出本体的本质特性。在此定义中，“共享（shared）”反映了本体捕获同感知识的理念，即不是限定到单个的某些人，而是一组人共同接受的知识；“概念化（conceptualization）”指的是世界中某些现象的抽象模型，辨识这些现象的相关概念；“明确（explicit）”意思是清晰地定义所有概念的类型和概念之间的约束；“形式（formal）”意思是机器应该可以理解本体，形式化具有不同的程度。

为了澄清信息系统领域对本体的概念，1995年意大利Padova大学的Guarino等人[129]对不同概念解释进行深入分析，给出基本得到领域认同的概念，即“某些方面概念化的明确解释或表示”。此定义不是最终的标准定义，但却符合大多数普通的标准用法，对信息系统具有理论指导意义。

1998年Guarino[76]认为Gruber的本体定义仅指出了领域中普通的数学关系，即反映事物特殊状态的外延关系，却没有清楚地区别本体和概念化。为了明确独立于事物状态的关系的意思，需要引入统称为概念关系的内涵关系。并把本体定义为“解释形式词汇的指定意思的逻辑理论”，也就是世界的特殊概念化，这里的概念化指的是领域空间定义的一组概念关系，包含着领域空间中对象之间所有可能关系的意思解释。

但是这两种本体定义都没有涉及跨学科，况且Gruber的本体定义太含糊，而Guarino的本体定义对推理原理又模棱两可。这就需要在‘形式化’和‘逻辑理论’之间进行折衷，因此信息系统本体论应该是“特定的形式语言产生的清晰公理理论”[79]，本体论的粒度越细含有的公理也就越多。该本体论至少用于一个特殊且实际的应用，并能描绘特定对象领域的结构，还能解释研究领域中系统使用的形式词汇或协议的指定意思。

过去的十几年中，在信息系统中已经出现了本体的很多定义，术语‘本体’大多分成两种意思[21]。第一，本体是表示性词汇，经常指定到某些领域或主题。简单来讲，不是把词汇当成本体，而是获取词汇中术语的概念化。特别强调的是概念化是语言无关的，而本体是语言相关的，应该符合特定的形式语言。第二，本体有时指的是使用表示性词汇来描述某些领域的知识体，特别是描述领域的共识知识。换句话说，表示性词汇提供描述某些领域的事实的一套术语，而使用词汇的知识体是领域的事实集合。

尽管信息系统中各领域对术语‘本体’的理论解释还存在着很多矛盾和问题，但是本体论已成为信息系统专业语言的必要组成部分，并在信息交换时起到至关重要的作用，因此信息系统研究者在多数情况下已经基本认同这种歧义状况的存在，并用其表示系统中隐含（或不明确的）信息，以便使能知识的共享和复用。

本体的形式化定义

通过把术语‘概念化’指定到哲学领域，使得信息系统和哲学领域的本体论尽管都共享同一概念化，但却使用不同的词汇。本体和概念化的清晰分离有助于表达本体的共享、熔合和转换等问题，这暗示存在着多种表示语言和多角度的世界观，因此就需要适当的形式化定义[76]以便使得本体（指定模型）和概念化之间的关系更清楚。

定义1：域空间结构，其中D是领域，W是D中最大事物状态（或可能世界）的集合。

定义2：n元概念关系，域空间上的n元概念关系是从集合W到域D中所有n元关系集合的映射，即全函数。

定义3：概念化，域D的概念化是一个有序三元组，其中是域空间中概念关系的集合。

定义4：逻辑语言L的内涵解释，其中概念化，而函数是把域D的元素赋予语言词汇V的常量符号，并把集合的元素赋予词汇V的谓词符号。

语言L的内涵解释也称为本体论承诺。如果K是语言L的本体论承诺，那么语言L通过K承诺概念化C。语言L的预计模型通常不必反映特殊的世界，没有真正描述词汇的意思，因此只能表达世界概念化的外延关系，没法从模型集合中重构L的内涵关系，即本体论承诺K。给定带有本体论承诺K的语言L，L的本体论是解释形式词汇的指定意思的逻辑公理集，此集合使得L的模型集合尽可能完美地近似于L依据K的预计模型。事实上很难发现合适的公理集，因此语言L的本体论近似于世界的概念化C，如果存在一个本体论承诺K，使得L依据K的预计模型被包含于本体论模型之中。

任何逻辑理论都隐含自身的本体论，该本体论包含理论假定存在的所有事情，因此逻辑理论是本体中所有实体存在的本体论承诺。Quine[99]首先从逻辑和哲学的角度研究本体论承诺，规定在逻辑理论中的每个术语都将成为该理论的本体；Guarino[100]把本体论承诺表述成在语言和被称为本体的某些事物之间的映射。

基于Quine的观点，每个逻辑理论都有其自己显式或隐式的本体，然而从知识工程的角度，涉及本体的很多知识基都能达到：轻便式本体[101]。把知识基限定到存在于外部本体中的术语，这显然是不实际，因此知识工程师的本体论承诺定义应该不同于哲学的定义，即应定义为在知识基中的术语和在本体中同一或等同的术语之间的形式映射[102]。

本体内的代数系统[120]

概念之间有四种最基本的关系：part-of、kind-of、attribute-of和instance-of，其中part-of表达概念之间整体和局部的关系；kind-of表达概念之间的继承关系；attribute-of表达某个概念是另外某个概念的属性；instance-of表达概念和概念的实例之间的关系。

假定Onto是一个本体，则有：

定义1：称O =｛x | x是Onto中的概念｝是本体的概念集。

假定x，y，z ∈O，则有：

定义2：符号P代表Onto中概念之间的part-of关系，P（x，y）表示概念y是概念x的一部分，例如P（car，wheel）。

定义3：符号K代表Onto中概念之间的kind-of关系，K（x，y）表示概念y是概念x的子概念，例如K（wheel，front-wheel）。

定义4：符号A代表Onto中概念之间的attribute-of关系，A（x，y）表示概念y是概念x的一属性，例如P（car，color）。

定义5：符号I代表Onto中概念之间的instance-of关系，I（x，y）表示概念y是概念x的一实例，例如P（car，Lincoln）。

定义6：关系Direct_Contain（x，y）满足：

P（x，y）→Direct_Contain（x，y）；

K（x，y）→Direct_Contain（x，y）；

A（x，y）→Direct_Contain（x，y）；

I（x，y）→Direct_Contain（x，y）。

定义7：关系Contain（x，y）满足：

Direct_Contain（x，y）→Contain（x，y）；

Contain（x，z）∧Contain（z，y）→Contain（x，y）。

定义8：关系intersection（x，y）满足

intersection（x，y）=｛z | Contain（x，z）∧Contain（y，z），z ∈O｝。

定义9：关系union（x，y）满足

union（x，y）=｛z | Contain（x，z）∨Contain（y，z），z ∈O｝。

定义10：关系difference（x，y）满足

difference（x，y）=｛z | Contain（x，z）∧┐Contain（y，z），z ∈O｝。

定义11：本体Onto内的代数N =（O，R，Op）定义为：

O是Onto上的概念集；

R是O中概念之间的关系集合；

Op是对O中概念的操作集合。

定义12：称∑=（O，R，Op）是本体Onto内的基本代数，如果∑满足：

∑是Onto内的代数；

（Direct_Contain，Contain） R （P，K，A，I，Direct_Contain，Contain）；

Op =（intersection，union，difference）。

本体的分类

本体论依据包含的内容分为：经典本体论和混合本体论。经典本体论只包含概念，例如概念分类，每个断言表示概念之间的关系；混合本体论包括本体的关系和事件。

本体论依赖于所采用的语言，按照表示和描述的形式化程度的不同，可以分为：完全非形式化的、半非形式化的、半形式化的和严格形式化的本体论[76]。形式化程度越高，越有利于计算机进行自动处理。尽管可以采用多种不同的表示形式，但一般都包含术语的词汇表和词汇意思的某些解释，即概念的定义和概念之间的关系，以及概念之间的关系所满足的公理，从而共同在领域中设定一个结构，限定对术语的可能解释。

有些文献将本体看作是构造知识库的一种途径；另外一些将本体视为知识库的一部分；此外还有将本体看作与应用有关的交互工具和企业本体。根据已有文献，按照应用领域的不同将本体可大致分成三类[134]：人或组织之间达成概念共识的通讯；系统间使用本体作为交换格式的互操作；系统工程领域（可复用性、知识获取、规范、可靠性）。

根据依赖于特定应用领域的规模或视点的级别，把本体分成4种：元级本体[126]、通用本体、领域本体、应用本体。元级本体是描述知识表示语言所用的基元分类的表示本体，例如OKBC本体；通用本体，又称为核心本体，描述独立于特定问题或领域的非常通用的概念，例如空间、时间、对象、事件、行为等，几种通用本体（主要是自然语言本体）已被开发成机器可读字典（MRDs，Machine-Readable Dictionaries），例如CYC[26]和WordNet[35]；领域本体通过特殊化高级本体中的术语，分别描述与通用领域或普通工作相关的词汇；应用本体描述依赖于特殊领域和工作的概念，这些概念经常对应于领域实体执行某些活动时扮演的角色，从方法的抽象模型中已开发出应用本体，例如Generic Tasks[127]、PROTÉGÉ-II[128]和CommonKADS[38]。

上面定义的本体分类包含了与问题求解方法无关的静态知识，是构成领域层的一部分。为实现知识库系统各层次间的灵活配置，目前已提出了任务本体和方法本体的概念，它们分别描述特定任务与问题的求解方法。任务本体和方法本体本质上是从推理与问题求解角度描述领域知识的视图，它们有助于解决系统的互操作问题，即领域知识不能以与其使用方式无关的形式表示。任务本体和方法本体通过“假设”将领域知识与问题求解方法之间的交互明确地表达出来，充当了系统层次间的“粘合剂”，从而解决了知识库系统的复用与组件化开发中的关键问题。

依据目前的文献，可把本体分成：基本的研究主题，如哲学问题、知识表示、常识知识、通用本体库、领域本体库、工作和方法本体库等；本体的设计方法，如top-down、bottom-up、middle-out、大规模、分类和概念层次、内部结构、集成等；本体的应用，如自然语言处理、知识管理、商业过程建模、智能信息检索、Internet搜索、虚拟企业、企业供应链、仿真和建模、医学、教学、照片注释、电子商务、地理等；本体的开发，如方法论、框架、工具、语言、对比、评估、标准化等；以及知识共享和复用，如本体库的参与、多Agent间通讯、知识库等。

按照对本体操作的文献可分成：

l 本体编辑：浏览[80,83]－提供浏览本体的可能性；生成[83]－生成新本体；扩展[14]－以不需修改现有定义的方式，基于现有词汇为特定使用来定义新术语的可能性；发布[80,14]－产生本体使能访问和复用；保存[80]－在开发过程中保存本体版本；更新－产生本体的更新拷贝。

l 本体代数：交集－产生由共享实体组成的新本体子集；并集[85,86]－集合本体中的所有唯一实体来产生新本体合集。

l 本体构造：抽取[81]－列举和组织大型本体的领域概念以便产生接近特定领域的本体；合并[81,85]－合并两个独立开发的KBs（Knowledge Bases）或解决术语间名称和结构表示冲突的本体；修剪[81]－删除给定领域不需要的概念或概念的子层次；切割[82]－选择部分输入的本体用于新应用或新本体。

l 本体转换：术语转换[14,80,81,82]－使得一种形式开发的本体可用于其它知识表示形式和不同的语言。

l 聚合/分解：模块化[82]或分解[14]－把KB内容分成概念部分以便充当KB开发和推理的基础。

l 本体检查：匹配[80]－判断本体的符合度；验证[81,84]－检验新本体的完整性和一致性。

l 查询[14]－提供从远程应用（客户）到系统和从系统到外部知识源（供应商）进行请求的可能性。

领域本体的表示

由于领域本体包含大量指定的概念，因此与通用本体和工作本体相比产生很少的进步。领域本体由对象、属性、关系以及子领域本体构成[41]。因此领域实体对象和实体间的关系都是独立的知识单元，而且领域本体可以嵌套。可以把领域本体形式化表示成一个连接的、有限嵌套的超图[40]，或有向非循环图（DAG，Directed Acyclic Graph）[58]，图中的结点表示概念或单个对象，有向边表示概念之间的关系或关联。通过特性以及控制概念行为的属性、约束、函数和规则可以增强图的表示。

为了捕获本体论中不同术语的语义，应该定义本体论之间的关系和转换函数[174]。术语之间的语义关系SR主要有[35,167]：同义词关系（synonym）、上位关系（hypernym）、下位关系（hyponym）[165]、属关系（positive association）[166]。其中同义词关系表示相似数据源之间对称的等价关系，即不同本体论中的两个术语有同样的语义；上位关系表示一个本体中术语的语义比另一本体中另一术语的语义更普通、更抽象；下位关系表示一个本体中术语的语义比另一本体中另一术语的语义更专业、更特殊；属关系表示一类事物属于另一类事物，如part-of关系。上下位关系是不对称的偏序关系，具有传递性。对于其它的术语关系，可以通过推理机制演绎得出。各个概念之间复杂的语义关系组成语义网络图，结点表示概念，结点间连线表示关系。

Hammer和McLeod[47]提出用一组关系描述符来捕获不同本体论中术语之间的关系。同义词关系本质上是对称的，表达方式是<canonical-term, term, ontology>；上位关系和下位关系都不是对称的，表达方式是<term1, ontology1, relationship, term2, ontology2>，在上下位关系之间存在着逆关系，因此按惯例仅定义下位关系，而上位关系则通过推理得出。

考虑到不同角色的值之间的转换函数，定义有<function name, domain, range>，其中domain和range是组对<role, ont>（在本体ont中定义role），function name是把domain中的角色值转换成range中语义对等的角色值的函数名。

本体间关系的服务主要包括有：

Get_ontologies（）：返回全局信息系统中所有本体论的名称；Get_node（ont）：返回本体所在处的结点；Related_terms（term1, ont1, rel, ont2）：返回本体ont2中通过rel关系（同义、上位、下位）与本体ont1的term1相关联的术语；Transform_value（val, role1, ont1, role2, ont2）：返回存储于本体ont1的角色role1但没存储于本体ont2的角色role2中val的对应值（role1和role2应关联于同一语义关系）；Transform_table（table, role1, ont1, roles2, ont2）：给定本体ont1的roles1中包含角色值列表的表格，如果在role1_i和role2_i间存在转换函数的话，返回用Transform_value（val, role1_i, ont1, role2_i, ont2）结果替换所有列值的另一表格。

Guarino等人[121]提出用词汇概念图（LCGs，Lexical Conceptual Graphs）表示本体的方法。LCGs是一种带标记的有向图，图中结点表示概念，有向边表示关系，结点中的词汇代表概念的名称，有向边上的词汇表示连接两个结点之间的关系。本体和XML都具备半结构化数据的特点，均可用LCGs表示，因此邓志鸿等人[123]采用XML表示本体概念，并利用XML-QL[122]查询语言实现本体概念的检索，从而提供更有效的概念检索，更好地取得本体的共享和复用。

假定本体Onto（O，R），其中O =（o₁，o₂，…，o_n）是Onto上的概念集，R =（r₁，r₂，…，r_m）是O中概念之间关系的集合。利用以下步骤实现本体的XML表示：用LCGs表示Onto；LCGs中的非叶结点????????（概念）o_i都转换成XML中的元素<o_i></o_i>；LCGs中边上的词汇转换成XML中的元素<r_i></r_i>；LCGs中的叶结点o_j转换成XML中相应元素的文本内容<r_i>o_j</r_i>，其中r_i所在的有向边指向o_j；依据LCGs