知识图谱-知识融合(二)

3.本体概念层的融合方法与技术

3.1本体映射与本体集成

  • 解决本体异构的通用方法是本体集成与本体映射
  • 本体集成:将多个本体合并成一个大本体
  • 本体映射:寻找本体间的映射规则
    在这里插入图片描述
1.基于单本体的集成
  • 将多个本体集成为统一的本体,该本体提供统一的语义规范以及共享词汇.
  • 本体集成的步骤:确定本体集成的方法,即是重新建立一个本体,还是利用现有的本体集成(根据代价和效率进行取舍);识别本体的模块,明确集成后的本体应该包含哪些模块,方便集成过程中的取舍问题.;识别每个模块中应该被表示的知识,即明确不同模块需要哪些概念,属性,关系和公理;识别候选本体,即从可能的本体选择可用于集成的候选本体;执行集成过程.
  • 缺点:集成的本体过于庞大,降低了系统的效率.对于某一本体需要做出改变时,集成的本体也需要做出改变,这种修改耗费巨大.总的来讲,系统缺乏灵活性.
2.基于全局本体-局部本体的集成
  • 抽取异构本体之间共同的知识,根据它建立一个全局本体,同时各个系统又有自己的本体,这叫做局部本体.局部本体既可以在全局本体上进行扩充,也可以构建自己独有的本体.但这都需要在全局本体以及局部本体上建立映射这才能保证异构的本体之间能够进行交互.

3.2 本体映射分类

1.映射对象角度
  • 本体异构是由于本体间的不匹配造成的,而本体间的不匹配的主要在于语言层和模型层的不匹配。在这一方面考虑,映射的对象应该是基于语言层和模型层,但实际上本体异构很少考虑语言层上的异构。而对于模型层上的异构而言过于抽象也少考虑
  • 大多数的映射对象研究是基于组成本体对象的成分,即概念、关系、实例、公理
  • 由于实例数目众多,处理耗时,在实际中也不着重考虑实例上的映射
  • 公理是由操作符和本体成分组合而成,若两个本体支持同样的操作符,那么公理间的映射就转化为本体成分间的映射,因此也不重点考虑公理间的映射
  • 综上而言,从映射对象来分,映射主要分为概念映射和关系的映射
2.映射的功能角度
  • 除了要明确映射对象,还应该要明确应该建立何种功能的映射
  • 从功能上进行划分的本体映射称为异构本体映射之间的
  • 表示概念间桥主要有:等价、同形异义、上义、下义、重叠、部份、对立、连接
  • 表示关系间的桥主要有:等价、包含、逆
  • 异构本体的等价成分之间在互操作中可以相互替代
  • 同形异义则指出表示相同名称的本体成分实际上的含义是不同的
  • 上义和下义则旨在概念之间和属性之间的继承关系
3.映射的复杂程度角度
  • 将基本的、组合成份简单的、必要的、发现过程简单的叫简单映射
  • 将不直观的,组成复杂、发现过程相对困难的叫复杂映射
  • 从映射对象来说,包含复杂概念的如交、并和非等算子的构成的复合概念,涉及这一类的映射较为复杂。

3.3本体映射的方法和工具

  • 总的来说构建本体映射的过程分为三步:导入带映射的本体、发现映射、表示映射
  • 从已有的映射方法和工具来看,可分为4种发现本体映射的方法:基于术语和结构的本体映射、基于结构的方法、基于实例的方法、综合方法
1.基于术语和结构的本体映射
(1)技术综述
1)基于术语的本体映射技术
  • 此技术从本体的术语出发,比较与本体成分相关的名称、标签或是注释来寻找异构本体间的相似性。此方法又可有两种实现途径基于字符串的方法基于语言的方法
① 基于字符串的方法
  • 此方法直接比较表述本体成分术语的字符串的结构
  • 规范化:在对字符串进行严格比较之前,要对字符串进行规范化,来提高后续比较的结果。对于拉丁语系的规范化主要包括:大小写规范化,改为全大写或者全小写;消除变音符;空白正规化,将空格,制表符,回车全部转换为单个空格符号;连接符正规化:将换行的连接符全部正规化;消除标点:再不考虑句子的情况下消除标点;消除无用词:如’to’ ,'a’等
  • 相似度量方法:在规范后的字符串基础上,进一步进行相似度度量,相似度度量的方法有:汉明距离,子串相似度,编辑距离,路径距离等。
②基于语言的方法
  • 基于语言的方法依靠自然语言处理技术寻找概念或者关系间的联系。这类方法又可分为内部方法和外部方法
  • 内部方法:用词语形态和语法分析来保证术语的规范化。例如’apple’和’apples’
  • 外部方法:利用词典等外部资源来寻找映射。基于词典的方法使用外部词典匹配语义相关的术语。
2)基于结构的本体映射技术
  • 在寻找映射的过程中,同时考虑本体的结构能够弥补只考虑术语的不足,提高映射结果的精度。基于结构的方法又可分为内部结构和外部结构
  • 内部结构:利用属性或关系的定义域、他们的基数、传递性、对称性来计算本体成分间的相似性。
  • 外部结构:比较两个本体间的相似性也可以考虑与他们相关的外部结构,例如两个概念相似,它们的邻居也可能是相似的。判断本体相似的准则包括:直接超类或所有超类相似兄弟相似直接子类或者所有子类相似所有或者大部分后继相似所有或者大部分叶子成分相似从根节点到当前节点的路径上的实体都相似
(2)方法和工具
  • AnchorPROMPT、iPROMPT、MAFRA、ONION、Wang Peng 和Xu BaoWen的方法、S-Match方法、Cupid方法等其他方法
(3)总结
  • 基于术语和结构的本体映射结果不是很令人满意,大多数工作只能发现简单概念间的等价和包含映射,以及原子关系间的等价。
2.基于实例的本体映射
  • 通过本体的实例来发现异构本体的语义的关联
(1)技术综述
  • 基于实例的本体映射方法可以分为两种,概念间有共享实例和概念间无共享实例。
①共享实例的方法
  • 当来自不同概念本体的A和B有共享实例时,寻找他们间的关系的方法是测试实例集合的交集。当两个概念等价的时候有A∩B = A= B,当两概念相似时有直接求交的方法就不大合适了,可以采用对称差分来比较两概念。
  • 对称差分:集合A与集合B的对称差分定义为集合A与集合B中所有不属于A∩B的元素的集合
  • 对称差分越大,概念间的相似性也就越小
②无共享实例方法
  • 当两个概念无共享实例时,基于共享实例的方法就不大管用了。
  • 可以根据连接聚合等数据分析方法获得实例集之间的关系。常用的连接聚合度量包含单连接、全连接、平均连接和Haussdorf距离
(2)方法和工具
  • GLUE、概念近似方法、FCA、IF-Map
(3)综述
  • 与基于术语和结构的本体映射相比基于实例的方法取得的结果更令人满意
  • 基于实例的方法大多要求异构本体有相同的实例集合,有些采用机器学习来解决问题,有些则采用人工标注的方法解决,前者受到机器学习精度的影响,后者费时费力,缺乏有效建立的共享实例集的方法。
3.综合方法
  • 综合方法就是将多种映射方法综合使用,以吸收每种方法的优势。
(1)方法和工具
  • QOM、OLA、KRAFT、OntoMAP、OBSERVER、InfoSleuth、基于虚拟文档的本体匹配、
(2)综述
  • 考虑将多种映射方法综合使用,吸收每种方法的优点,能够得到更好的本体映射结果。
  • 但要注意在映射效率上进行权衡,对映射的结果的综合也很重要

3.4 本体映射管理

3.5 本体映射应用

  • 基于本体映射能够实现很多基于多本体的应用,如子本体抽取和信息检索
  • 1
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
知识图谱(Knowledge Graph)以结构化的形式描述客观世界中概念、实体及 其关系,将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地 组织、管理和理解互联网海量信息的能力。知识图谱给互联网语义搜索带来了活 力,同时也在智能问答中显示出强大威力,已经成为互联网知识驱动的智能应用 的基础设施。知识图谱与大数据和深度学习一起,成为推动互联网和人工智能发 展的核心驱动力之一。 知识图谱技术是指知识图谱建立和应用的技术,是融合认知计算、知识表示 与推理、信息检索与抽取、自然语言处理与语义 Web、数据挖掘与机器学习等方 向的交叉研究。知识图谱于 2012 年由谷歌提出并成功应用于搜索引擎,知识图 谱属于人工智能重要研究领域——知识工程的研究范畴,是利用知识工程建立大 规模知识资源的一个杀手锏应用。94 年图灵奖获得者、知识工程的建立者费根 鲍姆给出的知识工程定义——将知识集成到计算机系统从而完成只有特定领域 专家才能完成的复杂任务。在大数据时代,知识工程是从大数据中自动或半自动 获取知识,建立基于知识的系统,以提供互联网智能知识服务。大数据对智能服 务的需求,已经从单纯的搜集获取信息,转变为自动化的知识服务。我们需要利 用知识工程为大数据添加语义/知识,使数据产生智慧(smart data),完成从数据 到信息到知识,最终到智能应用的转变过程,从而实现对大数据的洞察、提供用 户关心问题的答案、为决策提供支持、改进用户体验等目标。知识图谱在下面应 用中已经凸显出越来越重要的应用价值
多源数据融合算法是指将来自不同数据源的信息进行整合和集成,以得到更全面、准确和可靠的结果。这些数据源可以是不同传感器、不同数据库、不同领域的数据等。多源数据融合算法可以解决数据冗余、不一致性和不完整性等问题,提高数据分析和决策的质量。 综述多源数据融合算法的研究可以从以下几个方面入手: 1. 数据匹配与对齐:多源数据往往具有不同的数据格式、分辨率和空间参考系,因此需要进行数据匹配与对齐。常用的方法包括基于特征的匹配、基于几何模型的匹配和基于统计模型的匹配等。 2. 数据融合方法:多源数据融合方法可以分为基于特征的融合、基于模型的融合和基于决策的融合等。基于特征的融合方法通过提取数据的特征信息进行融合;基于模型的融合方法利用数学模型来描述数据之间的关系;基于决策的融合方法则是基于决策理论将不同数据源的信息进行综合评估和决策。 3. 数据融合技术:多源数据融合技术包括传感器级融合、特征级融合和决策级融合等。传感器级融合是将来自不同传感器的原始数据进行融合;特征级融合是将不同数据源的特征信息进行融合;决策级融合是将来自不同数据源的决策结果进行综合。 4. 数据融合评估指标:评估多源数据融合算法的性能可以使用多种指标,如准确率、召回率、F1值、信息增益等。这些指标可以用于衡量数据融合算法对原始数据的保留程度、融合结果的一致性和可靠性等。 综述多源数据融合算法的研究进展和应用领域能够帮助人们更好地理解和应用这一技术,促进多源数据融合算法在实际应用中的发展和应用。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值