E. 知识图谱融合
概述
- 知识图谱包含:
- 描述抽象知识的本体层:本体层用于描述特定领域中的抽象概念、属性、公理
- 描述具体事例的实例层:用于描述具体的实体对象、实体间的关系,包含大量的事实和数据
- 知识融合
- 建立异构本体或异构实例之间的联系,从而使异构的知识图谱能相互沟通,实现它们之间的互操作
- 步骤
- 首先:分析造成本体异构和实例匹配的原因,这事解决知识融合问题的基础
- 其次:需要明确融合针对的具体对象,建立何种功能的映射,以及映射的复杂程度,这对于选择合适的融合方法非常重要。知识融合的核心问题在于映射的生成。
- 目前本体匹配和实例匹配使用的技术基本可归结为
- 基于自然语言处理进行术语比较
- 基于本体结构进行匹配
- 基于实例的机器学习
知识图谱中的异构问题
- 问题出现的原因
- 首先:不同组织建立的知识图谱往往是异构的
- 其次:交叉领域中的知识通常是异构的
- 最后:由于人类本身知识体系的复杂性和对世界的不同主观看法,建立一个包罗万象的统一知识图谱并不现实
- 异构的两个层次
- 第一个层次是语言层不匹配:指用来描述知识的元语言是不匹配,其中既包括描述知识语言的语法和所使用的语言原语上的不匹配,还包括定义类、关系和公理等知识成分机制上的不匹配
- 第二个层次是模型层不匹配:是指由于本体建模方式不同所造成的不匹配,包括不同的建模者对事物的概念化抽象不匹配、对相同概念或关系的划分不匹配,以及对本体成分解释的不匹配
- 语言层不匹配
- 语法不匹配:语言格式不匹配
- 逻辑表示不匹配:不同语言的逻辑表示也可能存在着不匹配
- 原语的语义不匹配:在rdfs:domain中,OIL声明解释为其中参数的交,而RDF Schema则将它解释为这些参数的并
- 语言表达能力不匹配:一种本体语言能够表达但是另外一种本体语言不能够表达一般来说,当本体语言的表达能力不同时,为了方便解决本体之间的异构,需要将表达能力弱的语言向表达能力强的语言转换;但是表达能力强的语言并不完全兼容表达能力弱的语言,这样的转换可能会造成信息的损失
- 模型层不匹配
- 概念化不匹配:由于对同样的建模领域进行抽象的方式不同造成的
- 概念范围的不匹配
- 同样名称的概念在不同的领域内表示的含义往往有差异
- 同时,不同的建模者出于对领域需求或主观认识上的不同,在建模过程对概念的划分往往也有差异,这些都统称为概念范围的不匹配
- 模型覆盖的不匹配:本体对于描述的领域往往在覆盖的知识范围上有差异,而且对于所覆盖的范围,它们之间描述的详细程度也有差异,这就是模型覆盖的不匹配
- 模型的广度
- 模型的粒度:有些本体仅仅列出概念,有些本体则进一步列出了概念的属性,甚至概念之间的各种关系等
- 本体建模的观点:本体从什么认识角度来描述领域内的知识
- 比如说公共交通可能包括也可能不包括“出租车”的知识,可能区分不同类型的火车,也可能不进行这样的区分,还可能从技术角度或者功能角度描述
- 概念范围的不匹配
- 解释不匹配:由于对概念化说明的方式不同造成的
- 模型风格的不匹配
- 范例不匹配:比如说对时间的表示,可以基于时间间隔的方式,也可以基于时间点的方式
- 概念描述不匹配:对同一个概念的建模可以有几种选择。例如,为了区分两个类,既可以使用一个合适的属性,也可以引入一个独立的新类
- 建模属于上的不匹配
- 同义术语:不同本体上相同的概念常常由于建模者的习惯而被使用不同的名字表示。比如说“汽车”、“Car”、“Automobile”
- 同形异义术语:术语“Conductor”在音乐领域和电子工程领域的意义分别是“指挥官”和“半导体”
- 编码格式:比如说日期表示为“dd/mm/yyyy”或“mm-dd-yy”
- 模型风格的不匹配
- 概念化不匹配:由于对同样的建模领域进行抽象的方式不同造成的
本体概念层的融合方法与技术
- 本体映射与本体集成
- 本体集成:直接将多个本体合并成为一个打本体
- 基于单本体的集成:将多个异构本体集成为一个统一的本体,该本体提供统一的语义规范和共享词汇
- 步骤
- 决定本体的集成方式:即需要判断消除异构的单本体是应该从头建立,还是应该利用现有的本体来集成,这需要评估两种方法的代价和效率来进行取舍
- 识别本体的模块:即明确集成后的本体应该包含哪些模块,以便于在集成过程中对于不同的模块选择相关的本体;
- 识别每个模块中应该被表示的知识,即需要明确不同模块中需要哪些概念、属性、关系和公理等
- 识别候选本体,即从可能的本体中选择可用于集成的候选本体
- 执行集成过程,基于上面的基础,根据一定的集成步骤完成本体集成
- 缺点:缺乏灵活性
- 首先,使用这些异构本体的系统往往有着不同的功能和侧重点,这些系统之间通常不是等价或可相互替代的,某些系统能处理一些特定和深入的问题,某些系统则可能处理全面和基础的问题。
- 其次,单个本体的方法容易受到某个系统变化的影响,当某个系统要求改变本体以适应它的新需求时,集成的本体需要重新进行修改,这种修改往往并不简单。
- 步骤
- 全局本体-局部本体的集成
- 步骤
- 首先,抽取异构本体之间的共同知识,根据它建立一个全局本体,全局本体描述了不同系统之间一直认可的知识
- 其次,各个系统可以拥有自己的本体,成为局部本体
- 再次,建立全局本体和局部本体之间的映射关系
- 优点
- 避免局部本体存在过多的冗余,本体规模不会过于庞大,同时达到了解决本体件异构的目的
- 每个局部本体可以独立开发,对它们进行修改不会影响其他系统,只要保证与全局本体一致就可以
- 缺点
- 为了保证全局本体和局部本体始终一致,还需要建立和维护它们之间的映射关系
- 步骤
- 基于单本体的集成:将多个异构本体集成为一个统一的本体,该本体提供统一的语义规范和共享词汇
- 本体映射:寻找本体间的映射关系
- 本体映射的分类
- 映射的对象:除非有特殊的要求,一般不考虑对实例和公理之间的映射
- 建立异构本体的概念之间的映射是最基本的映射,因为概念是本体中最基本的成分
- 关系映射
- 实例映射:目前的方法是基于属性匹配或逻辑推理
- 公理映射
- 映射的功能:现在大多数本体映射研究的问题在于只考虑几种基本和常见的映射功能,如概念间的等价和包含,以及关系间的等价等
- 概念间映射桥包括等价、同形异义、上义(Is-a)、下义(Include)、重叠、部分、对立和连接共8种;
- 关系间映射的桥:包括等价、包含、逆3种;
- 注意
- 首先,不同功能的映射,其发现的方法和建立的难度都具有区别
- 其次,区分具体的映射功能对于实际应用来说非常重要,不同功能的映射在处理本体互操作中扮演的角色会有不同,有的映射仅仅为了建立本体之间的数据转换的规则,有的映射还能用于进行跨本体的推理和查询应用
- 映射的复杂程度
- 简单映射:将那些基本的、必要的、组成简单的和发现过程相对容易的映射成为简单映射
- 复杂映射:将那些不直观的、组成复杂并且发现过程相对困难的映射成为复杂映射
- 映射的对象:除非有特殊的要求,一般不考虑对实例和公理之间的映射
- 本体的语义集成研究划分为三个层次
- 发现映射
- 表示映射
- 使用映射
- 本体映射的分类
- 本体集成:直接将多个本体合并成为一个打本体
- 本体映射方法和工具
- 本体映射生成的过程
- 导入待映射的本体
- 发现映射:利用一定的算法,如计算概念间的相似度等,寻找异构本体间的联系,然后根据这些联系建立异构本体件的映射规则。当然,如果映射比较简单或者难以找到合适的映射发现算法,也可以通过人工发现本体间的映射。
- 基于术语的方法:即借助自然语言处理技术,比较映射对象之间的相似度,以发现异构本体间的联系
- 基于结构的方法:即分析异构本体之间结构上的相似,寻找可能的映射规则
- 基于实例的方法:即借助本体中的实例,利用机器学习等技术寻找本体间的映射
- 综合方法:即在一个映射发现系统中同时采用多种寻找本体映射的方法
- 表示映射
- 发现映射的方法和工具
- 基于术语和结构的映射
- 技术综述
- 基于术语的本体映射技术
- 基于字符串的方法,步骤:
- 规范化:大小写规范化、消除变音符、空白正规化、连接符正规化、消除标点、消除无用词
- 相似度量方法:常用的字符串度量方法有,汉明距离、子串相似度、编辑距离和路径距离等
- 基于语言的方法:依靠自然语言处理技术寻找概念或关系之间的联系
- 内部方法:利用词语形态和语法分析来保证术语的规范化
- 外部方法:利用词典等外部资源来寻找映射
- 基于字符串的方法,步骤:
- 基于结构的本体映射技术
- 内部结构:利用诸如属性或关系的定义域、它们的基数、传递性或对称性来计算成分之间的相似度
- 外部结构:比较两本体的成分之间的相似也可以考虑与它们相关的外部结构判断准则包括:
- C1:直接超类或所有的超类相似
- C2:兄弟相似
- C3:直接子类或所有的子类相似
- C4:所有或大部分后继相似
- C5:所有或大部分的叶子成分相似
- C6:从根节点到当前节点的路径上的实体都相似
- 基于术语的本体映射技术
- 方法和工具
- AnchorPROMPT
- 思想:以SMART为基础,采用有向图表示本体,图中包括本体中的概念继承和关系继承等信息
- 目标:在术语比较的基础上利用本体结构进一步判断和发现可能相似的本体成分
- 步骤:
- 输入一个相关术语对的集合,其中每对术语分别来自两个不同本体,这样的术语对成为“锚”术语对:可以是算法自动生成,也可以由用户提供
- 将每个本体O视为一个带边有向图G
- 遍历异构本体中由“锚”限定的对应路径对于在同样的步骤下到达的概念对,算法同时增加它们之间的相似度分数
- 算法
- 等价组:区别对待Is-a关系和普通关系。Is-a的父类和子类作为等价组,视为一个节点
- 相似度分数:计算相似度分数S(C1,C2)的步骤
- 第一步:生成长度小于给定参数L的全部路径集合,这些路径连接着输入的两本体中的锚
- 第二步:从步骤1生成的路径集合中,生成所有可能的等长路径对的集合,每一对路径中的一条来自O1,另一条来自O2
- 第三步:在步骤2生成的路径对基础上,对于路径中处于相同位置的节点对N1和N2,为节点中所有概念对之间的相似度分加上一个常数X
- 评估
- 等价组大小
- 等价组成员的相似度分数
- 锚的数目和路径最大长度
- 总结:是一种基于直观的经验,缺乏严格的理论依据
- 思想:以SMART为基础,采用有向图表示本体,图中包括本体中的概念继承和关系继承等信息
- iPROMPT
- 步骤1:基于概念名或关系名相似,识别出潜在的合并候选术语,然后为用户生成一个可能的合并操作建议列表。
- 步骤2:从合并建议列表中选择一条建议,系统执行建议的合并操作(合并操作不能有冲突)。
- 名称冲突:可通过重新命名解决
- 本体间拷贝属性是,可能被拷贝属性的值域和定义域包含概念,且这些概念并不在本体中存在时,便出现了不一致问题。
- 概念继承冗余:本体合并可能造成一些概念继承连接出现冗余。
- MAFRA
- 思想:引入了语义桥和以服务为中心的思想。语义桥提供异构本体间数据转换的机制,并利用映射提供基于分布式本体的服务。
- 其结构有水平方向和垂直方向的两个模块组成:
- 水平方向
- 正规化:统一描述语言
- 相似度:
- 语义桥:根据本体成分间的相似度,利用语义桥表示本体映射
- 执行:在获得本体间交互的请求时,利用语义桥中的映射规则完成实例转换或属性转换
后处理:映射执行产生的转换结果需要进一步处理,以提高转换结果的质量
- 垂直方向
- 演化:当本体发生变化时,即同步更新语义桥
- 协同创建:对于某些本体成分可能存在多个不同的映射建议,此时一般通过多个用户协商,选择一致的映射方案
- 领域限制和背景知识:给出一些领域限制能避免生成不必要的映射;提供一些特定领域的背景知识;如同义词典能提高映射结果的质量
- 用户界面交互
- 水平方向
- ONION
- Wang Peng和Xu Baowen的方法
- S-Match
- Cupid
- 其他方法
- Chimaera
- BUSTER
- COMA
- ASCO
- AnchorPROMPT
- 技术综述
- 基于实例的本体映射
- 技术综述
- 本体概念间存在共享实例:通过对称差分相似度来评估两个概念之间的相似程度。
- 概念之间没有共享实例很多异构本体之间没有共享实例。在这种情况下,可以根据链接聚合等数据分析方法获得实例集之间的关系常用的链接聚合度量包括单链接、全连接、平均链接和Haussdorf距离
- 方法和工具
- GLUE:应用机器学习技术,用半自动的方法发现异构本体间的映射
- 主要思想
- 相似度定义:GLUE有自己特有的相似度定义,它基于概念的联合概率分布,利用概率分布度量并判断概念之间的相似度
- 计算相似度:采用机器学习训练一个匹配器,然后用该匹配器去判断B的实例
- 多策略学习:利用多个学习器进行学习,并通过一个元学习器综合各学习器的结果
- 利用领域约束:利用领域约束条件和通用启发式规则来提高映射结果的精度
- 处理复杂映射
- 具体介绍
- 相似度度量:计算四种情况的概率:P(A, B),P(^A, B),P(A, B),P(A, ^B)相似度度量公式包括:Jaccard和“最优化双亲”
- GLUE体系结构
- 分布估计:利用机器学习技术计算没对概率的联合概率分布
- 相似度估计:借助相似度函数,计算概率对之间的相似度
- 放松估计:利用相似度矩阵以及领域特定的约束和启发式知识,寻找满足领域约束和尝试知识的映射
- 主要思想
- 概念近似的方法
- FCA
- GLUE:应用机器学习技术,用半自动的方法发现异构本体间的映射
- 技术综述
- 基于实例的本体映射总结
- 基于术语和结构的映射
- 本体映射生成的过程
- 本体映射管理
- 管理本体的好处
- 方便处理多个本体的维护和演化问题
- 合理组织本体间的映射,方便查询、数据转移和推理等应用
- 将多个本体作为一个整体来使用,能为实际应用提供更强大的功能
- 本体管理的任务分为两方面
- 一个方面是设计本体库系统以增强本体管理,包括存储、搜索、编辑、一致性检查、检测、映射,以及不同形式间的转换等
- 另一方面则包括本体版本或演化,研究如何提供相应的方法学和技术,在不同的本体版本中识别、表示和定义变化操作
- 案例
- OntoManager
- 提供了一种方法学,指导本体工程师更新本体,使本体与用户需求保持一致
- 跟踪用户日志,分析最终用户和基于本体的系统间交互
- 关注本体的表示、存储和维护,并且只处理单个本体
- PROMPTDIFF
- 使用结构不同检测两个版本的不同
- 将演化问题分为三种情况
- 单个个体演化
- 多个相互依赖的本体演化
- 分布式本体演化
- Xu Baowen等从功能的角度来探讨多本体管理
- 管理多本体的目标:不仅仅是为了解决本体异构和最大限地地重用本体,而且要提供基于多本体的各种服务
- 多本体上的查询和检索,即通过有效管理本体间的简单和复杂映射,为本体间通信服务
- 本体间映射的管理是多本体中查询转换的保证
- 跨多本体的推理,即利用多本体间的映射支持跨多个本体的推理服务
- 抽取子本体,即从多本体抽取语义完全且功能独立的子本体,实现知识的重用
- 共享本体互操作,即描述多本体间概念和实例的转换规则
- 协调应用多个本体,进行多本体语义标注等应用
- 提出了五层体系结果的多本体管理框架
- 本体库层
- 本体表示层
- 桥本体层
- 多本体功能层
- 多本体应用层
- 管理多本体的目标:不仅仅是为了解决本体异构和最大限地地重用本体,而且要提供基于多本体的各种服务
- OntoManager
- 管理本体的好处
- 本体映射应用
实例层的融合与匹配
- 本体的分类
- 通用本体:用于描述人类通用知识、语言知识和常识知识的本体
- 领域本体:各个领域中的研究人员也建立了很多专业领域中的本体
- 企业应用本体:处于商业秘密的目的,这些企业本体通常并不公开
- 大规模知识图谱匹配问题的复杂度分析
- 空间复杂度挑战
- 时间复杂度挑战
- 匹配结果质量挑战
- 大规模知识图谱匹配方法分类
- 基于快速相似度计算的方法
- 基于规则的方法
- 基于分治的方法
- 步骤
- 分解大模式为多个片段
- 识别相似片段
- 对相似片段进行匹配计算
- 合并片段匹配结果即得到模式匹配结果
- 算法
- 基于属性规则的分块方法
- 基于索引的分块方法
- 基于聚类的分块方法
- 基于局部性的分块方法
- 步骤
- 基于学习的实例匹配方法
技术趋势
- 短文本及资源缺乏环境下的实体链接方法
- 传统的实体链接任务主要是针对长文档,长文档拥有在写的上下文信 息能辅助实体的歧义消解并完成链接。而由于日常生活中人们在社交网络 中常常会产生大量短文本数据,相比之下,短文本的实体链接存在口语化 严重、短文本上下文语境不丰富等巨大挑战,因而面向短文本的实体链接 方法研究将会成为未来的研究热点。另外目前绝大部分的实体链接模型依 赖于有监督模型,需要大量标签数据集训练来达到实用目的。因此短文本 及资源缺乏环境下,基于无监督/半监督和迁移学习的实体链接模型是解 决问题的关键。
- 融合先验知识的端到端深度学习实体链接方法
- 大规模本体的高效匹配方法
- 主要面临的挑战有:大规模本体匹配的快速 并行计算问题和人机协同匹配问题。针对这个问题主要的思路有:
- 研究基于分布式处理技术的大规模本体匹配分布式处理算法,如研究利用 MapReduce、GPU等技术的并行匹配算法,提高匹配效率;
- 研究利用现 有本体匹配结果实现潜在本体匹配的方法,同时利用启发式相似度计算方 法提高计算效率;
- 通过对实体匹配进行预剪枝,预先过滤不匹配的实体 对,避免本体之间一对一的相似度计算。
- 主要面临的挑战有:大规模本体匹配的快速 并行计算问题和人机协同匹配问题。针对这个问题主要的思路有: