知识图谱：知识图谱概述（一）

~hello world~

已于 2024-08-26 11:13:49 修改

阅读量7.2k

点赞数 19

分类专栏：知识图谱文章标签：知识图谱人工智能

于 2024-07-22 17:33:26 首次发布

本文链接：https://blog.csdn.net/qq_50086023/article/details/140571983

版权

知识图谱专栏收录该内容

1 篇文章

订阅专栏

一、知识图谱简介

知识图谱，是结构化的语义知识库，主要用于描述现实世界中的实体及其相互关系，由节点和边组成。节点可以是实体，如汽车、街道等，或是抽象的概念，如AI、疾病等。边可以是实体的属性，如颜色、名字或是实体之间的关系，如朋友、配偶。如下图所示：

1.1 知识图谱的几个关键概念

本体（ontology）：领域术语集合，用于定义和描述特定领域的知识，包括该领域中的实体、属性、关系及其约束。本体提供了一个结构化框架，使得知识能够以一种一致且明确的方式进行表示和处理。

类型（ type）：具有相同特点或属性的实体集合的抽象，如足球球员、足球联赛、足球教练。

实体（Entities）：实体就是type的实例，如足球球员–梅西，足球联赛–西甲等。

类层次结构（Class Hierarchy）：定义概念之间的继承关系。例如，“鸟类”是“动物”的子类，“麻雀”是“鸟类”的子类。

关系（Relations）：实体与实体之间通过关系关联起来，如梅西是巴塞罗那的球员。

属性（Attributes）：实体自带信息是属性，如梅西出生日期 1987年6月24日，身高 1.7米等。

知识图谱（Knowledge graph）：图状具有关联性的知识集合。可以由三元组(实体——关系——实体)表示。

知识库（Knowledge Base）：一个知识数据库，包含了知识的本体和知识，可以看成是由图数据库存储的知识库。

1.2 知识图谱的分层架构

知识图谱由数据层（data layer）和模式层（schema layer）构成。

数据层：数据层是知识图谱的基础层，负责存储和管理知识图谱中的所有原始数据。这些数据以结构化的形式存在，知识以事实（fact）为单位存储在图数据库中，通常表示为三元组，包括“实体—关系—实体”和“实体—属性—属性值”等形式。

模式层：知识图谱的核心，是知识图谱的概念模型和逻辑基础。模式层通常包括本体、类层次结构、关系类型和数据模式等元素。通过定义本体、类层次结构、关系类型和属性，模式层构建了一个系统的、结构化的知识框架，确保了数据的一致性和完整性，并支持高级应用和语义推理。

1.3 知识图谱数据类型和存储方式

知识图谱的原始数据类型一般来说有三类：
结构化数据（Structed Data），如：关系数据库、链接数据

半结构化数据（Semi-Structured Data），如：XML、JSON、百科

非结构化数据（Unstructured Data），如：文本、图片、音频、视频

在这里插入图片描述

知识图谱的存储方式主要分为两种：
资源描述框架（RDF）：RDF是一种用于描述网络上资源及其关系的标准格式。RDF使用三元组来表示实体及其关系，比较常用的有 Jena ，Virtuoso等。RDF存储的优点在于其标准化和互操作性，可以方便地与其他语义数据进行集成。然而，对于非常复杂或大规模的数据集，查询性能可能会成为一个瓶颈。

图数据库（Graph Databases）：图数据库专门为处理图结构数据而设计，使用节点和边来表示实体及其关系，具有很高的查询性能和灵活性，常用的有 Neo4j，JanusGraph等，适用于大规模和关系复杂的数据场景，具有高效的查询性能和灵活性。

1.4知识图谱构建流程

知识图谱的构建方法主要有两种：自底向上（data layer）和自顶而下（data layer）。

自底向上是从数据开始构建知识图谱的。数据驱动，能充分利用现有数据资源；可以自动地从知识图谱中抽取概念、概念层次和概念之间的关系，实体和关系的识别可以更加细致和全面。其缺点是需要大量的预处理和数据清洗工作，以及难以保证图谱的全局一致性。
构建流程：数据收集 → 数据清洗 → 实体抽取 → 关系抽取 → 模式构建 → 图谱融合。

自顶而下是从设计模式和本体开始构建知识图谱的。
构建流程：需求分析 → 本体设计 → 数据对齐 → 实例填充 → 验证和优化。

本次学习主要是自底向上的构建技术。构建知识图谱是一个迭代更新的过程，根据知识获取的逻辑，每一轮迭代包含三个阶段：信息抽取、知识融合、知识加工

信息抽取：从各种类型的数据源中提取出实体、属性以及实体间的相互关系，在此基础上形成本体化的知识表达。

知识融合：在获得新知识之后，需要对其进行整合，以消除矛盾和歧义，比如某些实体可能有多种表达，某个特定称谓也许对应于多个不同的实体等。

知识加工：对于经过融合的新知识，需要经过质量评估之后（部分需要人工参与甄别），才能将合格的部分加入到知识库中，以确保知识库的质量。

在这里插入图片描述