行业知识图谱调查报告（二）：知识图谱构建及行业知识图谱构建举例

最新推荐文章于 2024-06-06 21:21:04 发布

南有芙蕖

最新推荐文章于 2024-06-06 21:21:04 发布

阅读量2.4k

点赞数 5

分类专栏： NLP 文章标签：自然语言处理知识图谱行业知识图谱 nlp 神经网络

本文链接：https://blog.csdn.net/weixin_42691585/article/details/115521069

版权

行业知识图谱调查报告（二）：知识图谱构建及行业知识图谱构建举例

二、知识图谱构建

根据覆盖范围的不同，知识图谱可以区分为应用相对广泛的通用知识图谱和专属于某个特定领域的行业知识图谱：通用知识图谱覆盖范围广，注重横向广度，强调融合更多的实体，通常采用自底向上的构建方式，从开放链接数据(“信息”)中抽取出置信度高的实体，再逐层构建实体与实体之间的联系;行业知识图谱指向一个特定的垂直行业，注重纵向深度，具有丰富的实体属性和数据模式，通常采用自顶向下的构建方式，先定义好本体与数据模式，再抽取实体加入到知识库。知识图谱的构建遵循知识抽取、知识融合、知识加工、知识应用的基本流程。从海量结构化和非结构化数据中进行实体、系、属性和事件的信息提取，通过本体和实体对齐、指代消解解决多种类型的数据冲突问题，完成知识融合。将知识存储到知识库中，最后进行进一步的知识推理和图谱应用。知识图谱的基本构建流程如图3所示。
在这里插入图片描述

图3 知识图谱的基本构建流程

2.1 知识表示与建模

2.1.1 知识表示模型

在这里插入图片描述

图4 基于离散符号的知识表示与基于连续向量的知识表示

知识表示将现实世界中的各类知识表达成计算机可存储和计算的结构。机器必须要掌握大量的知识，特别是常识知识才能实现真正类人的智能。知识表示技术的变化，大致可以分为三个阶段： 1）基于符号逻辑进行知识表示和推理，主要包括逻辑表示法（如一阶逻辑、描述逻辑）、产生式表示法和框架表示等。逻辑表示与人类的自然语言比较接近，是最早使用的一种知识表示方法； 2）随着语义网概念的提出，万维网内容的知识表示技术逐渐兴起，包括基于标签的半结构置标语言XML、基于万维网资源语义元数据描述框架RDF和基于描述逻辑的本体描述语言OWL等，使得将机器理解和处理的语义信息表示在万维网上成为可能，当前在工业界大规模应用的多维基于RDF三元组的表示方法； 3）随着自然语言处理领域词向量等嵌入（Embedding）技术手段的出现，采用连续向量方式来表示知识的研究（TransE翻译模型、SME、SLM、NTN、MLP，以及 NAM 神经网络模型等）正在逐渐取代与上述以符号逻辑为基础知识表示方法相融合，成为现阶段知识表示的研究热点。更为重要的是，知识图谱嵌入也通常作为一种类型的先验知识辅助输入到很多深度神经网络模型中，用来约束和监督神经网络的训练过程，如图4所示。

相比于传统人工智能，知识图谱时代基于向量的知识表示方法不仅能够以三元组为基础的较为简单实用的知识表示方法满足规模化扩展的要求，还能够作为大数据分析系统的重要数据基础，帮助这些数据更加易于与深度学习模型集成。

2.1.2 知识表示学习

知识表示是知识获取与应用的基础，因此知识表示学习问题，是贯穿知识库的构建与应用全过程的关键问题。人们通常以网络的形式组织知识库中的知识，网络中每个节点代表实体（人名、地名、机构名、概念等），而每条连边则代表实体间的关系。然而，基于网络形式的知识表示面临诸多挑战性难题，主要包括如下两个方面：

（1）计算效率问题。基于网络的知识表示形式中，每个实体均用不同的节点表示。当利用知识库计算实体间的语义或推理关系时，往往需要人们设计专门的图算法来实现，存在可移植性差的问题。更重要的，基于图的算法计算复杂度高，可扩展性差，当知识库规模达到一定规模时，就很难较好地满足实时计算的需求。
（2）数据稀疏问题。与其他类型的大规模数据类似，大规模知识库也遵守长尾分布，在长尾部分的实体和关系上，面临严重的数据稀疏问题。例如，对于长尾部分的罕见实体，由于只有极少的知识或路径涉及它们，对这些实体的语义或推理关系的计算往往准确率极低。

近年来，以深度学习为代表的表示学习技术异军突起，在语音识别、图像分析和自然语言处理领域获得广泛关注。表示学习旨在将研究对象的语义信息表示为稠密低维实值向量。在该低维向量空间中，两个对象距离越近，则说明其语义相似度越高。知识表示学习，则是面向知识库中的实体和关系进行表示学习。知识表示学习实现了对实体和关系的分布式表示，它具有以下主要优点：

（1）显著提升计算效率。知识库的三元组表示实际就是基于独热表示的。如前所分析的，在这种表示方式下，需要设计专门的图算法计算实体间的语义和推理关系，计算复杂度高，可扩展性差。而表示学习得到的分布式表示，则能够高效地实现语义相似度计算等操作，显著提升计算效率。
（2）有效缓解数据稀疏。由于表示学习将对象投影到统一的低维空间中，使每个对象均对应一个稠密向量，从而有效缓解数据稀疏问题，这主要体现在两个方面。一方面，每个对象的向量均为稠密有值的，因此可以度量任意对象之间的语义相似程度。另一方面，将大量对象投影到统一空间的过程，能够将高频对象的语义信息用于帮助低频对象的语义表示，提高低频对象的语义表示的精确性。
（3）实现异质信息融合。不同来源的异质信息需要融合为整体，才能得到有效应用。例如，人们构造了大量知识库，这些知识库的构建规范和信息来源均有不同，例如著名的世界知识库有 DBPedia、 YAGO、 Freebase 等。大量实体和关系在不同知识库中的名称不同。如何实现多知识库的有机融合，对知识库应用具有重要意义。通过设计合理的表示学习模型，将不同来源的对象投影到同一个语义空间中，就能够建立统一的表示空间，实现多知识库的信息融合。此外，当我们在信息检索或自然语言处理中应用知识库时，往往需要计算查询词、句子、文档和知识库实体之间的复杂语义关联。由于这些对象的异质性，在往常是棘手问题。而知识表示学习亦能为此提供统一表示空间，轻而易举实现异质对象之间的语义关联计算。

知识表示学习是近年来的研究热点，研究者提出了多种模型，学习知识库中的实体和关系的表示。这样主要介绍两种代表方法。

（1）复杂关系建模

近期， Bordes 等人受到词向量空间对于词汇语义与句法关系存在有趣的平移不变现象的启发，提出了 TransE 模型，这一模型将知识库中的关系看作实体间的某种平移向量，在大规模知识图谱上效果明显。不过由于 TransE 模型过于简单，导致其在处理知识库的复杂关系时捉襟见肘，为突破 TransE 模型在处理 1-N、 N-1、 N-N 复杂关系时的局限性，研究学者相继提出了让一个实体在不同关系下拥有不同表示、认为不同关系拥有不同语义空间的TransH 模型和 TransR 模型，以及针对这两种模型中矩阵参数过多问题再次改进优化的TransD 模型和 TranSparse 模型。此外，研究学者还提出了利用高斯分布来表示知识库中的实体和关系，可以在表示过程中考虑实体和关系本身语义上不确定性的 TransG 模型和 KG2E模型。在相关数据集合上的实验表明，这些方法均较 TransE 有显著的性能提升，验证了这些方法的有效性。

（2）关系路径建模

在知识图谱中，多步的关系路径也能够反映实体之间的语义关系。为了突破TransE 等模型孤立学习每个三元组的局限性，Lin等人提出考虑关系路径的表示学习方法，以 TransE作为扩展基础，提出 Path-based TransE（PTransE）模型。几乎同时，其他研究团队在知识表示学习中也成功考虑了关系路径的建模。PTransE 等研究的实验表明，考虑关系路径能够极大提升知识表示学习的区分性，提高在知识图谱补全等任务上的性能。关系路径建模工作较为初步，在关系路径的可靠性计算、语义组合操作等方面还有很多细致的考察工作需要完成。

综上，由于知识表示学习能够显著提升计算效率，有效缓解数据稀疏，实现异质信息融合，因此对于知识库的构建、推理和应用具有重要意义，值得广受关注、深入研究。

2.2 知识获取

2.2.1 实体识别与链接

实体是文本中承载信息的重要语言单位，一段文本的语义可以表述为其包含的实体及这些实体相互之间的关联和交互。实体识别也就成为了文本意义理解的基础。例如， “26 日下午，一架叙利亚空军 L-39 教练机在哈马省被 HTS 使用的肩携式防空导弹击落”中的信息可以通过其包含的时间实体“26 号下午”，机构实体“叙利亚空军”、 “HTS”，地点实体“哈马省”和武器实体“L-39 教练机”、 “肩携式防空导弹”有效描述。实体也是知识图谱的核心单元，一个知识图谱通常是一个以实体为节点的巨大知识网络，包括实体、实体属性以及实体之间的关系。例如，一个医学行业知识图谱的核心单元是医学领域的实体，如疾病、症状、药物、医院、医生等。