《知识图谱——概念与技术》笔记：基础篇

最新推荐文章于 2022-09-04 17:58:36 发布

Mochayz

最新推荐文章于 2022-09-04 17:58:36 发布

阅读量839

点赞数

文章标签：知识图谱人工智能

本文链接：https://blog.csdn.net/Mochayz/article/details/126452420

版权

文章目录

1 知识图谱概述

1.1 知识图谱的基本概念

1.1.1 知识图谱的狭义概念

作为一种知识表示形式，知识图谱是一种大规模语义网络，包含实体（Entity）、概念（Concept）及其之间的各种语义关系。

语义网络是一种以图形化的形式通过点和边表达知识的方式。语义网络中的点可以是实体、概念和值（Value）。知识图谱中的边可以分为属性（Property）与关系（Relation）两类。语义网络中的边按照其两端节点的类型可以分为概念之间的子类（subclassOf）关系、实体与概念之间的实例（instanceOf）关系，以及实体之间的各种属性与关系。

1.1.2 知识图谱的广义概念

如今在更多实际场景下，知识图谱作为一种技术体系，指代大数据时代知识工程的一系列代表性技术的总和。

1.2 知识图谱的分类

1.2.1 知识图谱中的知识分类

事实知识（Factual Knowledge）
事实知识是关于某个特定实体的基本事实。
概念知识（Taxonomy Knowledge）
概念知识分为两类：一类是实体与概念之间的类属关系（isA 关系）；另一类是子概念与父概念之间的子类关系（subclassOf）。
词汇知识（Lexical Knowledge）
词汇知识主要包括实体与词汇之间的关系（比如，实体的命名、称谓、英文名等）以及词汇之间的关系（包括同义关系、反义关系、缩略词关系、上下位词关系等）。
常识知识（Commonsense Knowledge）
常识是人类通过身体与世界交互而积累的经验与知识，是人们在交流时无须言明就能理解的知识。

1.2.2 知识图谱的领域特性

随着近几年知识图谱技术的进步，其研究与落地日益从通用领域转向特定领域和特定行业，于是就有了领域或行业知识图谱（Domain-specific Knowledge Graph，DKG），其与通用知识图谱（General-purpose Knowledge Graph，GKG）之间既有显著区别也有十分密切的联系。

另一个趋势就是，越来越多的企业关注自身的知识图谱建设与应用，于是就有了企业知识图谱（Enterprise Knowledge Graph）。企业知识图谱是指横贯企业各核心流程的知识图谱。与 CKG 和 DKG 相比，企业知识图谱具有典型的「小、杂、专」的特点。

2 基础知识

2.1 知识表示

2.1.1 基本概念

知识表示是对现实世界的一种抽象表达。评价知识表示的两个重要因素是表达能力（Expressiveness）与计算效率（Efficiency）。知识的表示方式主要分为符号表示和数值表示。在实际应用中，根据不同的学科背景，人们发展了基于图论、逻辑学、概率论的各种知识表示。

2.1.2 知识图谱的图表示

基于图的表示
概念与图论中的一致，包括有向图/无向图、出度/入度、邻接矩阵、路径、可达性等。
基于三元组的表示
RDF（Resource Description Framework）是用于描述现实中资源的 W3C 标准，它是描述信息的一种通用方法，使信息可以被计算机应用程序读取并理解。现实中任何实体都可以表示成 RDF 模型中的资源，每个资源的一个属性及属性值，或者它与其他资源的一条关系，都可以表示成三元组。

一个三元组包括三个元素：主体（Subject）、谓词（Predicate）及客体（Object）。当某个三元组描述了某个资源的属性时，其三个元素也被称为主体、属性（Property）及属性值（Property Value）。比如，三元组 <亚里士多德，出生地，Chalcis> 表达了亚里士多德出生于 Chalcis 的事实。

DBpedia 的 RDF 数据集片段如下图所示。一个知识图谱可以视作三元组的集合，可以选择关系型数据库或者图数据库进行存储。相应的，可以使用 SQL 或者 SPARQL 作为三元组数据的查询语言。

2.1.3 知识图谱的数值表示

将知识图谱作为背景知识融合进深度学习模型的基本思路是，将知识图谱中的点与边表示成数值化的向量。知识图谱的表示学习旨在将知识图谱中的元素（包括实体、属性、概念等）表示为低维稠密实值向量。

学习实体和关系的向量化表示的关键是，合理定义知识图谱中关于事实（即三元组 $< h, r, t >$ ）的损失函数 $f_r(\boldsymbol{h},\boldsymbol{t})$ ，其中 $\boldsymbol{h}$ 和 $\boldsymbol{t}$ 是三元组的两个实体 $h$ 和 $t$ 的向量化表示。可通过最小化 $\sum_{(h,r,t) \in O} f_r(\boldsymbol{h},\boldsymbol{t})$ 来学习，其中 $O$ 表示知识图谱中所有事实的集合。不同的表示学习使用不同的原则和方法定义相应的损失函数。

基于距离的模型
SE 是其代表性模型，基本思想是当两个实体属于同一个三元组时，它们的向量表示在投影后的空间中也应该彼此靠近。因此，定义损失函数为向量投影后的距离：
$f_r(\boldsymbol{h},\boldsymbol{t})=\Vert \boldsymbol{W}_{r,1} \boldsymbol{h}-\boldsymbol{W}_{r,2}\boldsymbol{t} \Vert_{l_1}$
其中 $\boldsymbol{W}_{r,1}$ 和 $\boldsymbol{W}_{r,2}$ 分别为 $\boldsymbol{h}$ 和 $\boldsymbol{t}$ 的投影矩阵， $l_1$ 表示使用 1-范数。由于 SE 模型引入了两个不同的投影矩阵，导致很难捕获实体和关系之间的语义相关性。
基于翻译的模型
（1）TransE 模型
TransE 模型认为在知识库中，三元组 $< h, r, t >$ 可以看成头实体 $h$ 到尾实体 $t$ 利用关系 $r$ 所进行的翻译。也就是说，头实体的向量加上关系的向量，应该尽可能和尾实体的向量接近，即 $\boldsymbol{h}+\boldsymbol{r} \approx \boldsymbol{t}$ 。于是得到损失函数：
$f_r(\boldsymbol{h},\boldsymbol{t})=\Vert \boldsymbol{h}+\boldsymbol{r}-\boldsymbol{t} \Vert_{l_1 / l_2}$
在实际应用中，为了使正负例尽可能分开，TransE 模型使用了 Hinge Loss 目标函数（有时又称为 Max Margin）：
$L=\sum_{(h,r,t) \in S} \sum_{(h',r,t') \in S'} [\gamma+f_r(\boldsymbol{h},\boldsymbol{t})-f_r(\boldsymbol{h}',\boldsymbol{t}')]_+$