知识图谱赵军学习笔记（三）--知识体系构建和知识融合

最新推荐文章于 2022-04-16 14:53:15 发布

imagination_gogo

最新推荐文章于 2022-04-16 14:53:15 发布

阅读量3.4k

点赞数 1

分类专栏： NLP 文章标签：知识图谱 nlp

本文链接：https://blog.csdn.net/qq_24495287/article/details/87453009

版权

NLP 专栏收录该内容

19 篇文章 8 订阅

订阅专栏

知识体系和知识融合

知识融合通过框架匹配和实例对齐，把分散的知识资源联合起来，可以极大的增加知识图谱的覆盖领域和共享程度。

知识体系构建

知识体系三个方面核心内容：

对概念的分类
概念属性的描述
概念之间相互关系
知识体系的基本形态：
词汇
概念
分类关系
非分类关系
公理

人工构建方法
人工构建知识体系的过程可以分为6个阶段：

确定领域及任务
知识图谱作为人工智能应用的基础设施，其构建过程不能不了解具体的应用任务，也不能抛开领域建立一个高大全的、无法被广泛使用的产品。
与具体的领域密切相关
限定了知识体系应该包含的知识范围，领域内还是可以构建出各种各样的知识体系。
想要构建更为合适的体系，需要回答：
- 我们为什么要使用这个知识体系
- 这种知识体系呢个构帮助回答哪些类型的问题
- 谁会使用并维护这个知识体系
体系复用
知识体系具有很强的抽象性和概括性。从零开始构建不仅成本高昂，而且质量难以保证。
- 领域词典
  专家编撰的领域内的词典，对构建限定领域的知识体系具有重要的参考意义。
- 语言学资源
  语言学资源可以帮助知识体系的构建
- 开源知识图谱
- 网络百科
罗列要素
根据领域，罗列期望在知识图谱中出现的要素列表，主要包括概念、属性以及关系。
确定分类体系
确定了相关要素后，需要将其中表示概念的要素组织成层级结构的分类体系。
- 自顶向下
  从最抽象的概念开始，逐层添加更为具体的概念
- 自底向上
  从具体的概念开始，逐层开始抽象
定义属性及关系
为每个类别定义属性及关系。
属性是描述概念的内在特征，
关系是刻画不同概念之间的关系。
定义约束
不同的属性和关系具有不同的定义域和值域。
数据报障数据的一致性，避免异常值的出现。

自动构建方法
- 基于非结构化数据的知识体系学习
  也叫基于文本的本体学习。首先利用自然语言处理工具对文本进行分词、句法分析、命名实体识别等预处理操作，然后利用模板匹配、统计学习的方法从文本抽取重要信息，主要包括领域概念、实例以及概念之间的关系。
  - 领域概念抽取
    从文本数据中抽取出构建知识体系所需的关键元素，包括实体类型名，属性名，关系名，步骤如下：
    - 抽取候选术语
      利用nlp抽取文本中的字符串，尽可能多的把真正的术语包括进来，对质量没有严格的要求，但是尽量保证抽取术语的高覆盖度。
    - 术语过滤
      领域术语与破铜词汇在语料上往往具有不同的统计特征，例如普通词汇在领域内外具有相似的分布，但是领域词汇有显著的区别。通过互信息（MI），词频逆文档概率（TF-IDF），术语相关频率（RTF）等过滤。
    - 术语合并
      把相同概念的术语合并，聚合到一起，转换的过程就是识别同义词的过程。
      1.基于词典
      词汇就是wordnet等
      2.基于统计的方法
      基于统计就是假设相同的词汇具有相似的上下文，在大规模语料上学习，并进行聚类，识别同义词。
  - 分类体系构建
    获取不同概念之间的继承关系，即上下文关系
    - 基于词典
      wordnet
    - 基于统计
      通过词的上下文进行表示，并基于术语得到层次聚类。不同层次类别内的构成了上下位关系
  - 概念属性及关系抽取
    与概念属性抽取一致
- 基于结构化数据的知识体系学习
  基于数据表的主键、外键和字段内容等信息实现上述目标
- 基于半结构化数据的知识体系学习
  有一定模式，但是不太严格，如XML、HTML等格式
典型知识体系

SUMO
Schema.org
freebase
protege常被应用于基于框架的知识表示模型，一般是先定义类，在定义类中的属性，最后定义类和属性的约束。

知识融合

竖直方向的融合
融合高层通用本体与底层领域本体或实例数据
水平方向的融合
融合相同层次的知识图谱
如BabelNet融合不同语言的已购知识图谱，实现跨语言的知识关联和共享。
知识融合通过对多个相关知识图谱的对齐、关联和合并，使其成为一个整体。按融合对象的不同分为框架匹配和实体对齐。
框架匹配
对概念、属性、关系等知识描述体系进行匹配和融合
实体对齐
对齐合并相同的实体完成知识融合
但是实例知识有时有冲突，需要对其检测和消解

框架匹配
解决异构性，本体对齐

元素级匹配
独立考虑元素是不是匹配，不考虑其他元素的匹配
- 字符串匹配：
  前缀距离，后缀距离，编辑距离和n元语法距离
  这种方法忽略了语言符号的多义性，一词多义和一义多词
- 词向量
  将词表示为低维语义向量空间的一个点，语义相似度用点之间的距离来衡量。与字符串相比，有更强的捕获词背后的真正语义的能力。
  可将其与其他编辑距离等结合，混合方法获得了很好的性能。
结构级匹配
不把各个元素作为孤立的资源，利用知识图谱的结构，在元素匹配中考虑其他元素的影响。
不同元素的匹配之间也会有影响
例如属性的定义域和值域匹配度高，属性匹配度也高。基本思想是:相似的概念具有相似的概念结构。
- 基于图的技术
  当做已经标记的图结构
  对于两个本体的节点，如果它们的邻接节点是相似的，它们也是相似的。发现最大公共子图的问题，计算量很大
- 基于分类体系的技术
  分类体系进行对齐
- 基于统计分析的技术
  对已有样本挖掘其中蕴含的规律
  分组，计算距离