知识图谱从0到-1的笔记——5.知识融合

开始知识图谱从0到-1,用的书是《知识图谱方法、实践与应用》,做些阅读笔记,如有错误内容,望各位指正。

知识融合

1. 知识图谱融合的产生

知识图谱中包含描述抽象知识的本体层描述具体事实的的实例层

  • 本体层:用于描述特定领域中的抽象概念、属性、公理
  • 实例层:用于描述具体实体对象、实体间的关系

虽然早期知识工程的理想是构建一个统一的知识库,但是由于:
1. 人类知识体系复杂
2. 不同人对某些知识有主观看法
3. 知识会随时间自然演化
4. 同一领域有不同组织构建自己的知识库
5. 交叉领域中的交叉知识往往是独立构建的

因此导致了知识图谱中本体和实例的异构问题,主要表现为:

1. 同一领域内往往存在着大量本体,且它们描述的内容在语义上往往有重叠或关联
2. 本体在表示语言和模型上具有差异
3. 同名的实例可能指代不同实体
4. 不同名的实例可能指代同一实体

知识图谱的应用时不同领域的系统需要进行交互、系统需要处理来自不同领域的知识

因此,知识图谱的应用需要解决本体异构、消除应用系统间的互操作障碍、实例层的异构问题。从而产生了知识融合,用于解决知识图谱异构问题,建立异构本体或异构实例之间的联系,使异构的知识图谱能够相互沟通,实现互操作。

2. 知识图谱中的异构类型

知识图谱中的异构形式主要划分为两个层次:

  1. 语言层不匹配:指的是用来描述知识的元语言是不匹配的,其中既包括描述知识语言的语法和所使用的语言原语上的不匹配,还包括定义类、关系和公理等知识成分机制上的匹配。
  2. 模型层不匹配:指的是由于本体建模方式不同所造成的不匹配,包括不同建模者对事物的概念化抽象不匹配、对相同概念或关系的划分方式不匹配,以及对本体成分解释的不匹配。

2.1 语言层异构

语言层异构:语法、逻辑、表达能力不匹配

  • 语法异构:采用不同描述语言,例如RDF、OWL、JSON、XML
  • 逻辑异构:逻辑表示不匹配,例如:disjoint、A NOT B AND B NOT A
  • 元语异构:元语的语义有差异,例如:Class在OWL DL和OWL FULL
  • 表达能力异构:不同语言表达能力差异,例如:OWL:THING,OWL:Nothing

2.2 模型层异构

模型层异构:概念化、解释不匹配

  • 概念化异构:“动物”划分为“哺乳动物”和“鸟”;“动物”划分为“食草东西”和“食肉东西”
  • 解释不匹配:同义术语(Car,Auto)、多义术语(Conductor[指挥家,半导体])、编码格式:FullName、FirstName+LastName

3.本体概念层的融合方法与技术

解决本体异构的通用方法是本体集成本体映射

  • 本体集成直接将多个本体合并为一个大本体
  • 本体映射寻找本体间的映射规则

在这里插入图片描述

3.1 本体集成

3.1.1 基于单本体的集成

该方法是直接将多个异构本体集成为一个统一的本体,该本体提供统一的语义规范和共享词汇。不同的系统都使用这个本体,这样便消除了由本体异构导致的互操作问题。

  • 缺点:集成后的本体可能过于庞大,不同系统间可能不方便使用,降低效率;本体内容的修改不便。
3.1.2 基于全局本体-局部本体的集成

为了克服基于单本体的集成方法,采用全局本体-局部本体来达到本体集成。

  1. 该方法通过抽取异构本体之间的共同知识,根据它建立一个全局本体。
  2. 全局本体描述了不同系统之间一致认可的知识。同时,各个系统可以拥有自己的本体,称为局部本体。
  3. 局部本体既可以在全局本体的基础上根据自己的需要进行扩充,也可以直接建立自己特有的本体,
  4. 但无论哪种方式,都需要建立局部本体与全局本体之间的映射

3.2 本体映射的分类

本体映射主要从映射的对象映射的功能以及映射的复杂程度进行分类

  • 映射的对象:明确映射应该建立在异构本体的哪些成分之间。
  • 映射的功能:明确应该建立具有何种功能的本体映射。
  • 映射的复杂程度:明确说明什么形式的映射是简单的,什么形式的映射是复杂的。
3.2.1 映射的对象角度

大多映射研究都是直接从组成本体的成分出发,即由于本体主要由概念、关系、实例和公理组成,本体间映射应建立在这些基本成分上。

  • 建立异构本体的概念之间的映射是最基本的映射,因为概念是本体中最基本的成分,没有概念,其他的主体成分无从谈起。所以概念间的映射是最基本的和必需的。
  • 对于本体中的关系来说,由于它可表示不同概念之间的关系或描述某个对象的赋值,对于很多应用来说,往往需要借助这些关系之间的映射进行信息交互,因此关系之间的映射也很重要。
3.2.2 映射的功能角度

确定在本体的何种成分之间建立映射并不足够,还需要进一步明确这样的映射具有什么功能。其中表示概念间的映射的功能包括:

  1. 等价(Equal)
  2. 同形异义(DIfferent)
  3. 上义(Is-a)
  4. 下义(Include)
  5. 重叠(overlap)
  6. 部分(part-of)
  7. 对立(Opposed)
  8. 连接(Connect)

表示关系间映射的功能包括:

  1. 等价(Equal)
  2. 包含(Submume)
  3. 逆(Inverse)
3.2.3 映射的复杂角度

本体间的映射有复杂与简单之分。

  • 简单映射:那些基本的、必要的、组成简单的和发现过程相对容易的映射称作简单映射
  • 复杂映射:那些不直观的、组成复杂并且发现过程相对困难的映射称为复杂映射

3.3 本体映射的方法

不同的本体映射的方法使用的技术不同,但过程基本是相似的。
在这里插入图片描述

  1. 导入待映射的本体:不一定统一本体语言,但映射成分需方便获取
  2. 发现映射:利用一定的算法,如计算概念间的相似度等,寻找异构本体间的联系,然后根据这些联系建立异构本体间的映射规则。
  3. 表示映射:将这些映射合理地表示起来,根据映射的类型,借助工具将发现的映射合理表示和组织

发现本体映射可分为四种:

  • 基于术语的方法:借助自然语言处理技术,比较映射对象之间的相似度,以发现异构本体间的联系
  • 基于结构的方法:分析异构本体之间结构上的相似,寻找可能的映射规则
  • 基于实例的方法:即借助本体中的实例,利用机器信息等技术寻找本体间的映射
  • 综合方法:即在一个映射发现系统中同时采用多种寻找本体映射的方法,弥补不同方法的不足和提高映射结果的质量
3.3.1 基于术语的本体映射

从本体的术语出发,比较与术语成分相关的名称、标签或注释,寻找异构本体间的相似性。其中又可以分为基于字符串的方法基于语言的方法

3.3.1.1 基于字符串的方法

主要技术如下:

  1. 规范化:对字符串进行规范化,包括大小写规范化、消除变音符、空白正规化、连接符正规化、消除无用词
  2. 相似度度量,常用的字符串度量方法:汉明距离、子串相似度、编辑距离和路径距离。
方法定义计算
汉明距离给定字符串s和t δ ( s , t ) = 1 − ( ∑ i = 1 m i n ( ∣ s ∣ , ∣ t ∣ ) s [ i ] ≠ t [ i ] ) + ∣ ∣ s ∣ − ∣ t ∣ ∣ m a x ( ∣ s ∣ , ∣ t ∣ ) \delta(s,t)=1-\frac{(\sum_{i=1}^{min(\mid s\mid,\mid t \mid)}s[i] \neq t[i])+ \mid \mid s \mid - \mid t \mid\mid}{max(\mid s \mid ,\mid t \mid)} δ(s,t)=1max(s,t)(i=1min(s,t)s[i]=t[i])+st
子串相似度任意字符串s和t,如果存在字符串p、q,且s=p+t+q或t=p+s+q δ ( s , t ) = 2 ∣ x ∣ ∣ s ∣ + ∣ t ∣ \delta(s,t) = \frac{2\mid x \mid}{\mid s \mid + \mid t \mid} δ(s,t)=s+t2x
编辑距离字符串操作集合op和代价函数w,对于任意一对字符串s和t,存在将s转换为t大的操作序列集合 δ ( s , t ) = m i n ∑ i = 1 n w o p i \delta(s,t) =min\sum_{i=1}^{n}w_{op_{i}} δ(s,t)=mini=1nwopi
路径距离给定字符串序列 < S i > i = 1 n , < S j ′ > j = 1 m <S_i>_{i=1}^{n},<S_j^{'}>_{j=1}^{m} <Si>i=1n,<Sj>j=1m δ ( < S i > i = 1 n , < S j ′ > j = 1 m ) = λ ∗ δ ′ ( s 1 , s 1 ′ ) + ( 1 − λ ) ∗ δ ( < S i > i = 2 n , < S j ′ > j = 2 m ) \delta(<S_i>_{i=1}^{n},<S_j^{'}>_{j=1}^{m}) = \lambda*\delta^{'}(s_1,s_1^{'})+(1-\lambda)*\delta(<S_i>_{i=2}^{n},<S_j^{'}>_{j=2}^{m}) δ(<Si>i=1n,<Sj>j=1m)=λδ(s1,s1)+(1λ)δ(<Si>i=2n,<Sj>j=2m)
3.3.1.2 基于语言的方法

该方法依靠自然语言处理技术寻找概念或关系之间的联系,分为内部方法和外部方法。

  • 内部方法:寻找术语间的映射时利用词语形态和语法分析来保证术语的规范化
  • 外部方法:利用词典等外部资源来寻找映射。基于词典的方法使用外部词典匹配语义相关的术语。
3.3.2 基于结构的本体映射

寻找映射的过程中,同时考虑本体的结构能够弥补只进行术语比较的不足,提高映射结果的精度。该方法分为内部结构和外部结构。

  • 内部结构:利用属性或关系的定义域、它们的基数、传递性或对称性来计算本体成分之间的相似度
  • 外部结构:如果两个概念相似,它们的邻居也可能相似的。一般通过一些常用来判断本体成分相似的准则,例如:直接超类或所有超类相似、兄弟相似、直接子类或所有子类相似、所有或大部分后继相似、所有或大部分的叶子成分相似,从根节点到当前节点的路径上的实体都相似。
3.3.3 基于术语、结构的方法与工具:
3.3.3.1 AnchorPROMPT

思想:在术语比较的基础上,进一步判断和发现可能的相似本体成分
在这里插入图片描述
初始输入的Anchor集合中包含(A,B)和(H,G)两组已配对术语,A与H之间存在一条长度为3的路径,B与G之间存在一条长度为3的路径,那么我们有理由认为这两条路径上对应的术语对(C,D)与(D,F)可能存在相似性。

  • 具体流程:
    1. 算法输入的初始Anchors集合可以是人工标注的,可以是使用其他方法匹配的结果,也可以是上一轮Anchor-PROMPT算法的输出。
    2. 首先选定两组已配对术语,(A1,B1)与(A2,B2)。找出A1-A2,B1-B2之间所有小于路径长度阈值L的路径。
    3. 对于长度相同为l的两条路径A1-O1-B1与A2-O2-B2,以既定策略增加O1与O2中对应位置上的术语的相似度。
    4. 计算所有对应术语对相似度的中位数M,相似度高于M的术语对被认为匹配
3.3.3.2 iPROMPT

iPROMPT从语言角度判断本体间概念或关系的相似。然后以这些初始的术语相似为基础,,执行合并算法完成本体合并的任务。

3.3.3.3 MAFRA

MAFRA主要给出一套本体映射方法学,用来表示映射,将映射划分为概念桥和属性桥两类,并利用映射实现异构本体间的数据转换。尽管MAFRA支持通过手工建立一些复杂的映射,但它缺乏自己特有的映射发现技术,因此MAFRA更多只是一个处理异构本体映射的框架。

3.3.3.4 ONION

原子概念间的等价关系–本体间的简单映射
半自动生成算法–本体互操作的映射规则–映射结果提供给专家–专家设定阈值或者直接选择接受
图形式–RDF–{SubClassOf;PartOf;AttributeOf;InstanceOf;VakueOf}
窗口算法“一个窗口包含本体的一个连通子图
映射发现算法:

  • 非迭代算法:利用集中语言匹配器来发现本体间关系,将几个匹配器发现的相似度综合,将结果提供给专家确认。
  • 迭代算法:寻找子图间结构上的同态以得到相似的概念,每一次迭代都利用上一次生成的映射结果
3.3.3.5 Wang Peng和Xu Baowen方法

本体概念相似度的度量
概念间的语义关系:概念名,概念属性和概念在上下文得到

  • 同义词集相似度:同义词集是语义相同或者相近词的分组。将概念的名称最为相似度首要考虑因素
  • 特征相似度:概念属性,概念附带的关系,属性和关系取值的限制,是从概念的内部组成比较他们的相似度
  • 上下文相似度:语义邻居结构的相似度
3.3.3.6 S-Match

输入–两个本体的图结构–输出–图节点的语义关系
语义关系:等价,泛化,特化,不匹配,相交
基于本体抽象层的概念继承树结构,不考虑本体的实例
输入两个带标签的本体树T1和T2:

  1. 对所有在T1和T2中的标签,计算标签的含义。
  2. 对所有T1和T2中的节点,计算节点上概念的含义
  3. 对所有T1和T2中的标签对,计算标签间的关系
  4. 对所有T1和T2中的节点对,计算节点上的概念间的关系
3.3.3.7 Cupid

模式匹配算法:综合使用语言和结构的匹配技术。
语言匹配:计算模式元素的语言相似度,基于词法正规化,分类,字符串比较技术和查词典等方法
结构匹配:计算结构相似度,度量元素出现的上下文
映射生成:计算带权重相似度和生成最后的映射,这些映射的权重相似度应该高于预先设定的阈值

3.3.4 基于实例的本体映射

该方法分为:共享实例的方法无共享实例的方法

  • 共享实例:
    1. 测试实例集合得交集
    2. 对称差分:对称差分值越大,概念间得差异越大
    3. 实例集合得概率解释
  • 无共享实例:
    1. 连接聚合:单连接,全连接,平均连接,Haussdorf距离(测试两个集合之间的最大距离)
    2. 机器学习:形式化概念分析,贝叶斯学习和神经网络
3.3.5 基于实例的方法与工具:
3.3.5.1 GLUE:

应用机器学习技术,用半自动的方法发现异构本体之间的映射。概念分类是本体间最重要的部分,寻找分类本体概念之间1:1映射。

  1. 相似度定义:基于概念的联合概率分布判断概念之间的相似度.
    四种联合概率分布P(A,B),P(A’,B),P(A,B’),P(A’,B’)
    Jaccard系数:A与B不相关时,该相似度取值为0,当A和B是等价概念时,相似度为1
    最特化双亲:如果B包含A,则B越特化,P(A|B)越大,MSP(A,B)值越大。
  2. 计算相似度:采用机器学习技术,利用A的实例训练一个匹配器,利用匹配器判断B的实例
  3. 多策略学习:利用多个学习器进行学习,并通过一个元学习器综合各学习器的结果
  4. 利用领域约束:
    - 放松标记:节点邻居对其标签的影响用公式量化。
    - 根据两本体的特征和领域知识寻找本体节点间的对应关系
  5. 处理复杂映射: 1:n, 概念间的复杂映射。
3.3.5.2 概念近似:

通过概念近似重写查询表达式中的概念,获得较高的查全率和查准率

3.3.6 基于综合的方法与工具:
3.3.6.1 QQM:

同时考虑映射结果的质量和发现映射的时间复杂度,只考虑异构本体间1:1等价映射,映射对象包括概念,关系和实例。

3.3.6.2 OLA

覆盖本体所有可能的特征(术语,结构,外延)
考虑本体的结构
明确所有的循环关系,寻找最佳映射

3.3.6.3 KRAFT

发现1:1的本体映射体系结构

3.3.6.4 OntoMap

一个知识表示的形式化,推理和WEB接口。

3.3.6.5 OBSERVER

解决分布式数据库的异构问题
使用组件本体和之间明确的映射关系解决 数据库间的异构

3.3.6.6 InfoSleuth

基于主体的系统,能够支持通过小本体组成复杂本体。

3.3.6.7 基于虚拟文档的本体匹配

利用本体中的语义信息,文本信息和结构信息进行本体匹配

4.实例层的融合方法与技术

实际应用中,对于实例层的匹配都会面临大数据处理问题,其中的时间复杂度(匹配元素对的相似度计算次数(n2), 每次相似度计算时间复杂度(t))、空间复杂度与匹配质量问题是难题。

4.1 基于快速相似度的实例匹配方法

  • 思想:降低相似度计算的时间复杂度,降低 O ( n 2 t ) O(n^2t) O(n2t)中的因素 t t t,即使用简单快速的匹配器与简单的映射线索,使得 t t t能够接近常数1。
  • 文本匹配器:映射线索只考虑标签和注释信息,避免构造复杂的映射线索
  • 结构匹配器:借助概念层次和元素邻居文本相似

4.2 基于规则的实例匹配方法

  • 思想:基于EM算法的半监督学习框架----自动寻找实例匹配规则,该框架以迭代的方式自动发现匹配规则,逐步提高匹配规则集的质量,再利用跟新后的规则集来寻找高质量的匹配对。

4.3 基于学习的实例匹配方法

  • 思想:利用知识图谱的网络结构信息和实例相关信息训练一个分类模型,实现实例匹配;由于实例的规模较大,在分类之前需要对实例分块,通常采用基于属性的规则来分块处理
  • 步骤
    1. 预处理/消解判定
    思想:基于作者和文献信息计算出签名频率,活跃年份等统计量,并根据消解判定规则分离需要进行命名消解的数据。
    方法:其名字的首字母和姓氏长度为4的子串组合为作者名的签名形式
    规则
    高频签名形式规则):对于签名频数超过阈值T1的两个作者名,标记为D1型适配;
    拼音规则):对于汉语,韩语等语言的两个作者名,且满足签名形式相同,标记为D2型适配;
    签名形式规则):对于两个满足适配必要条件的作者名,若其中一个名字的完全形式与签名形式相同,D3
    编辑距离规则):对于满足适配必要条件的两个作者名,且任一名字的完全v姓氏不为签名形式,且名字和姓氏的拼接串编辑距离大于或等于T2,D4
    中间名匹配规则):对于满足适配必要条件的两个作者名,若一个作者的中间名缩写串不为另外一个名字中间名缩写串的子串,反之亦然,则标记为不匹配;
    中间名缺失规则):对于满足适配必要条件的两个作者名,若一个作者名的中间缩写串为空,且另外一个作者名为签名形式,D5
    活跃年份规则):对于签名形式相同,且活跃年份相似度小于阈值T3的两个作者名,D6
    普通规则):对于签名形式相同,且不满足上述适配型的作者名字对,D7
  1. 基于人工确认的文献数据集利用LDA模型建立作者-主题分布特征
    使用LDA和Gibbs Sampling 方法对每个作者发表的文献进行主题建模,得到作者-主题分布、主题-词汇分布。
    通过LDA主题建模,将每个作者的文献信息映射为潜在主题分布所表示的主题向量;
    通过主题向量可以了解作者的研究领域信息,并对不同作者的领域相似度作比较;
    优点:
    LDA----词包(Bag-of-Word)----统计出词汇间的相关性----文献丰富的作者主题----推测----文献较少的作者的主题特征
    LDA----词汇----主题聚类----作者的文献信息----主题向量----避免使用词汇表向量造成的空间复杂度和稀疏问题
  2. 结合人工确认的作者-文献关系及步骤1,2中的统计量和主题特征建立合作者关系图,使用社群发现算法完成第一次指代消解
    合作者-适配网络:用于描述作者之间共同发表文献的合作关系及潜在的消解关系–领域特征和合作特征
    社群发现算法
    遍历每个顶点,并将该顶点临时修改为邻接顶点的社群编号,计算模块化度增量,使用非负增量的修改最为最终修改,直至模块收敛
    将社群编号相同的顶点合并为同一顶点,在新顶点组成的网络中,边的权重由社群间的权重之和计算而得;
  3. 在第一次指代消解的基础上,合并已消解的作者,重复3直至作者消解结果无变化,得到第二次消解结果。
    使用自学习的指代消解进一步处理第一次指代消解的结果
    给定一个作者----并集查找与之相同的其他作者----编号最小的作者名代表整个作者集----代表作者
    代表作者的合作者:所有已消解作者的合作者的并集;
    新合作者-适配作者:两个代表作者边的权重由各自消解集合中最大的主题相似度确定。
    新合作者-适配作者–社群发现算法–每个社群中适配的两个作者合并–自学习指代消解
  4. 利用文献信息中的作者名调整对应作者的名字信息,结合第二次指代消解结果生成以文献对为数据的训练数据集
    根据不同特征组合分离上述数据集,使用SVM训练分类模型。
    消除离群点,选择合适的参数以及交叉验证消弱噪声对泛化能力的影响
    采用局部离群因子(Local Outlier Factor)度量训练集中个数据的离群程度。
  5. 使用SVM分类模型在需要消解作者的文献集合生成文献档案并进行分类,完成分类结果的第三次消解
  6. 结合第二次和第三次指代结果,最终生成已消解的作者聚类输出。

参考

  1. https://github.com/npubird/KnowledgeGraphCourse
  2. https://www.cnblogs.com/hapyygril/p/11983228.html
  3. https://zhuanlan.zhihu.com/p/150864155?from_voters_page=true
  • 1
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值