3.本体概念层的融合方法与技术
3.1本体映射与本体集成
- 解决本体异构的通用方法是本体集成与本体映射
- 本体集成:将多个本体合并成一个大本体
- 本体映射:寻找本体间的映射规则
1.基于单本体的集成
- 将多个本体集成为统一的本体,该本体提供统一的语义规范以及共享词汇.
- 本体集成的步骤:确定本体集成的方法,即是重新建立一个本体,还是利用现有的本体集成(根据代价和效率进行取舍);识别本体的模块,明确集成后的本体应该包含哪些模块,方便集成过程中的取舍问题.;识别每个模块中应该被表示的知识,即明确不同模块需要哪些概念,属性,关系和公理;识别候选本体,即从可能的本体选择可用于集成的候选本体;执行集成过程.
- 缺点:集成的本体过于庞大,降低了系统的效率.对于某一本体需要做出改变时,集成的本体也需要做出改变,这种修改耗费巨大.总的来讲,系统缺乏灵活性.
2.基于全局本体-局部本体的集成
- 抽取异构本体之间共同的知识,根据它建立一个全局本体,同时各个系统又有自己的本体,这叫做局部本体.局部本体既可以在全局本体上进行扩充,也可以构建自己独有的本体.但这都需要在全局本体以及局部本体上建立映射这才能保证异构的本体之间能够进行交互.
3.2 本体映射分类
1.映射对象角度
- 本体异构是由于本体间的不匹配造成的,而本体间的不匹配的主要在于语言层和模型层的不匹配。在这一方面考虑,映射的对象应该是基于语言层和模型层,但实际上本体异构很少考虑语言层上的异构。而对于模型层上的异构而言过于抽象也少考虑
- 大多数的映射对象研究是基于组成本体对象的成分,即概念、关系、实例、公理
- 由于实例数目众多,处理耗时,在实际中也不着重考虑实例上的映射
- 公理是由操作符和本体成分组合而成,若两个本体支持同样的操作符,那么公理间的映射就转化为本体成分间的映射,因此也不重点考虑公理间的映射
- 综上而言,从映射对象来分,映射主要分为概念映射和关系的映射
2.映射的功能角度
- 除了要明确映射对象,还应该要明确应该建立何种功能的映射
- 从功能上进行划分的本体映射称为异构本体映射之间的桥。
- 表示概念间桥主要有:等价、同形异义、上义、下义、重叠、部份、对立、连接
- 表示关系间的桥主要有:等价、包含、逆
- 异构本体的等价成分之间在互操作中可以相互替代
- 同形异义则指出表示相同名称的本体成分实际上的含义是不同的
- 上义和下义则旨在概念之间和属性之间的继承关系
3.映射的复杂程度角度
- 将基本的、组合成份简单的、必要的、发现过程简单的叫简单映射
- 将不直观的,组成复杂、发现过程相对困难的叫复杂映射
- 从映射对象来说,包含复杂概念的如交、并和非等算子的构成的复合概念,涉及这一类的映射较为复杂。
3.3本体映射的方法和工具
- 总的来说构建本体映射的过程分为三步:导入带映射的本体、发现映射、表示映射
- 从已有的映射方法和工具来看,可分为4种发现本体映射的方法:基于术语和结构的本体映射、基于结构的方法、基于实例的方法、综合方法
1.基于术语和结构的本体映射
(1)技术综述
1)基于术语的本体映射技术
- 此技术从本体的术语出发,比较与本体成分相关的名称、标签或是注释来寻找异构本体间的相似性。此方法又可有两种实现途径基于字符串的方法,基于语言的方法。
① 基于字符串的方法
- 此方法直接比较表述本体成分术语的字符串的结构
- 规范化:在对字符串进行严格比较之前,要对字符串进行规范化,来提高后续比较的结果。对于拉丁语系的规范化主要包括:大小写规范化,改为全大写或者全小写;消除变音符;空白正规化,将空格,制表符,回车全部转换为单个空格符号;连接符正规化:将换行的连接符全部正规化;消除标点:再不考虑句子的情况下消除标点;消除无用词:如’to’ ,'a’等
- 相似度量方法:在规范后的字符串基础上,进一步进行相似度度量,相似度度量的方法有:汉明距离,子串相似度,编辑距离,路径距离等。
②基于语言的方法
- 基于语言的方法依靠自然语言处理技术寻找概念或者关系间的联系。这类方法又可分为内部方法和外部方法
- 内部方法:用词语形态和语法分析来保证术语的规范化。例如’apple’和’apples’
- 外部方法:利用词典等外部资源来寻找映射。基于词典的方法使用外部词典匹配语义相关的术语。
2)基于结构的本体映射技术
- 在寻找映射的过程中,同时考虑本体的结构能够弥补只考虑术语的不足,提高映射结果的精度。基于结构的方法又可分为内部结构和外部结构
- 内部结构:利用属性或关系的定义域、他们的基数、传递性、对称性来计算本体成分间的相似性。
- 外部结构:比较两个本体间的相似性也可以考虑与他们相关的外部结构,例如两个概念相似,它们的邻居也可能是相似的。判断本体相似的准则包括:直接超类或所有超类相似;兄弟相似;直接子类或者所有子类相似;所有或者大部分后继相似;所有或者大部分叶子成分相似;从根节点到当前节点的路径上的实体都相似
(2)方法和工具
- AnchorPROMPT、iPROMPT、MAFRA、ONION、Wang Peng 和Xu BaoWen的方法、S-Match方法、Cupid方法等其他方法
(3)总结
- 基于术语和结构的本体映射结果不是很令人满意,大多数工作只能发现简单概念间的等价和包含映射,以及原子关系间的等价。
2.基于实例的本体映射
- 通过本体的实例来发现异构本体的语义的关联
(1)技术综述
- 基于实例的本体映射方法可以分为两种,概念间有共享实例和概念间无共享实例。
①共享实例的方法
- 当来自不同概念本体的A和B有共享实例时,寻找他们间的关系的方法是测试实例集合的交集。当两个概念等价的时候有A∩B = A= B,当两概念相似时有直接求交的方法就不大合适了,可以采用对称差分来比较两概念。
- 对称差分:集合A与集合B的对称差分定义为集合A与集合B中所有不属于A∩B的元素的集合
- 对称差分越大,概念间的相似性也就越小
②无共享实例方法
- 当两个概念无共享实例时,基于共享实例的方法就不大管用了。
- 可以根据连接聚合等数据分析方法获得实例集之间的关系。常用的连接聚合度量包含单连接、全连接、平均连接和Haussdorf距离
(2)方法和工具
- GLUE、概念近似方法、FCA、IF-Map
(3)综述
- 与基于术语和结构的本体映射相比基于实例的方法取得的结果更令人满意
- 基于实例的方法大多要求异构本体有相同的实例集合,有些采用机器学习来解决问题,有些则采用人工标注的方法解决,前者受到机器学习精度的影响,后者费时费力,缺乏有效建立的共享实例集的方法。
3.综合方法
- 综合方法就是将多种映射方法综合使用,以吸收每种方法的优势。
(1)方法和工具
- QOM、OLA、KRAFT、OntoMAP、OBSERVER、InfoSleuth、基于虚拟文档的本体匹配、
(2)综述
- 考虑将多种映射方法综合使用,吸收每种方法的优点,能够得到更好的本体映射结果。
- 但要注意在映射效率上进行权衡,对映射的结果的综合也很重要
3.4 本体映射管理
3.5 本体映射应用
- 基于本体映射能够实现很多基于多本体的应用,如子本体抽取和信息检索