(1)本体的具体清晰的解释
目前公认的是1998/Studer :共享概念模型的明确的形式化规范说明
包括 四个主要方面 :
1. 概念化 (conceptualization):客观世界的现象的抽象模型;
2. 明确 (explicit):概念及它们之间联系都被精确定义;
3. 形式化 (formal):精确的数学描述;
4. 共享 (share):本体中反映的知识是其使用者共同认可的。
这段话具体形象的说明了本体到底是什么,用来干什么。
(2)什么是概念
概念是意义的载体。一个单一的概念可以用任何数目的语言来表达;术语则是概念的表达形式。狗的概念可以表达为德语的 Hund,法语的 chien 和西班牙语的 perro。概念在一定意义上独立于语言的事实使得翻译成为可能 - 在各种语言中词有同一的意义,因为它们表达了相同的概念。概念是人类对一个复杂的过程或事物的理解 。从哲学的观念来说概念是思维的基本单位。在日常用语中人们往往将概念与一个词或一个名词(术语)同等对待。
概念内容(内涵)包括所有一个组成该概念的事物的特性和关系。比如“饲养技术”的内容包括所有有关于这个技术的特性。但在定义这个概念时人们挑选出这些特性中最关键的,比如:“饲养技术是繁殖、喂养、圈养和使用农业用动物和以此提取有价值的产品的技术”。
中华人民共和国国家标准GB/T 15237.1—2000:“概念”是对特征的独特组合而形成的知识单元。
(3)本体构成要素
本体基本要素为:类/概念(classes) ,关系(relations) ,函数(functions) ,公理(axioms) 和实例(instances)基本关系有4 种:part-of ,kind-of ,instance-of 和attribute-of
(4)本体语言
本体语言目前成为标准的是OWL具备较强推理能力的是Cyc和loom
这三个本体语言值得关注
4.1 OWL
OWL 全称Web Ontology Language,是W3C推荐的语义互联网中本体描述语言的标准。它是从欧美一些研究机构的一种结合性的描述语言DAML+OIL发展起来的,其中 DAML来自美国的提案DAML-ONT,OIL来自欧洲的一种本体描述语言(二者在上文都有介绍)。在W3C提出的本体语言栈中,OWL处于最上层,见下图。
针对不同的需求OWL有三个子语言,描述列表如下:
子语言描述例子
OWL Lite用于提供给那些只需要一个分类层次和简单的属性约束的用户。支持基数(cardinality),只允许基数为0或1。
OWL DL支持那些需要在推理系统上进行最大程度表达的用户,这里的推理系统能够保证计算完全性(computational completeness,即所有地结论都能够保证被计算出来)和可决定性(decidability,即所有的计算都在有限的时间内完成)。它包括了 OWL语言的所有约束,但是可以被仅仅置于特定的约束下。当一个类可以是多个类的一个子类时,它被约束不能是另外一个类的实例。
OWL Full支持那些需要在没有计算保证的语法自由的RDF上进行最大程度表达的用户。它允许在一个Ontology在预定义的(RDF、OWL)词汇表上增加词汇,从而任何推理软件均不能支持OWL FULL的所有feature。一个类可以被同时表达为许多个体的一个集合以及这个集合中的一个个体。
这三种子语言之间的关系是:
每个合法的OWL Lite都是一个合法的OWL DL;
每个合法的OWL DL都是一个合法的OWL Full;
每个有效的OWL Lite结论都是一个有效的OWL DL结论;
每个有效的OWL DL结论都是一个有效的OWL Full结论。
用户在选择使用哪种语言时的主要考虑是:
选择OWL Lite还是OWL DL主要取决于用户需要整个语言在多大程度上给出了约束的可表达性;
选择OWL DL还是OWL Full主要取决于用户在多大程度上需要RDF的元模型机制(如定义类型的类型以及为类型赋予属性);
在使用OWL Full而不是OWL DL时,推理的支持不可预测,因为目前还没有完全的OWL Full的实现。
这三种子语言与RDF的关系是:
OWL Full可以看成是RDF的扩展;
OWL Lite和OWL Full可以看成是一个约束化的RDF的扩展;
所有的OWL文档(Lite,DL,Full)都是一个RDF文档;
所有的RDF文档都是一个OWL Full文档;
只有一些RDF文档是一个合法的OWL Lite和OWL DL文。
5.本体在信息检索的应用
Ontology 在信息检索技术可分为3类全文检索(Text retrieval)
数据检索(Data retrieval)
知识检索(Knowledge retrieval)
全文检索的特点是把用户的查询请求和全文中的每一个词进行比较,不考虑查询请求与文件语义上的匹配,这种方式虽然可以保证查全率,但是查准率却大大地降低了。
数据检索的特点是查询要求和信息系统中的数据都遵循一定的格式,具有一定的结构,允许对特定的字段检索(例如:作者=“王刚”) 。数据检索需要有标识字段的方法。数据检索的性能取决于所使用的标识字段的方法和用户对这种方法的理解,因此具有很大的局限性。数据检索支持语义匹配的能力也较差。
知识检索强调的是基于知识的、语义上的匹配,因此在查准率和查全率上有更好的保证。目前知识检索是信息检索研究的重点,特别是面向Web 信息的知识检索。
基于Ontology 的信息检索的基本设计思想
(1) 在领域专家的帮助下,建立相关领域的Ontology。
(2) 收集信息源中的数据,并参照已建立的Ontology ,把收集来的数据按规定的格式存储在元数据库(关系数据库、知识库等) 中。
(3) 对用户检索界面获取的查询请求,查询转换器按照Ontology 把查询请求转换成规定的格式,在Ontology 的帮助下从元数据库中匹配出符合条件的数据集合。
(4) 检索的结果经过定制处理后,返回给用户。