知识图谱综合

本文详细介绍了知识图谱的生命周期,包括知识获取、知识融合、知识存储、知识推理和知识应用。知识表示方面,重点讲解了RDF及其在知识表示学习中的应用。此外,还探讨了实体识别、实体消歧、关系抽取和知识融合的方法。知识图谱在智能搜索、自动问答、推荐和决策支持等领域发挥关键作用。
摘要由CSDN通过智能技术生成

前言

本文为读书笔记,整理自高等教育出版社出版,赵军主编的人工智能丛书《知识图谱》及部分公开网络资料。如有侵权,请立马告之。

1 介绍

1.1 基本概念

目前主流的知识图谱采用 资源描述框架 (RDF) 进行知识表示,以 RDF 三元组的形式存储现实世界中的实体以及实体之间的关系,表示为 G = ( E , R , S ) \mathcal{G}=(\mathcal{E},\mathcal{R},\mathcal{S}) G=(E,R,S),承载了实体集、关系集和三元组集 (头实体、尾实体和关系)。例如,Freebase 中,三元组 “/people/person/nationality (Jorge Amado, Brazil)”,表示 “Jorge Amado” 的国籍为 “Brazil”;其中,“Jorge Amado” 为头实体,“Brazil” 为尾实体,“/people/person/nationality” 为关系。实际应用中,尾实体除独立的实体外,也可以为头实体的属性,例如数字、日期、字符串等。

1.2 应用场景

知识图谱由谷歌于 2012 年在论文中首次提出,初衷是优化搜索结果和广告推荐。如今,除 推荐系统智能问答 外,也广泛应用于 挖掘实体的潜在联系。例如在自然语言推理任务中,我们希望知识图谱能帮助完成诸如 “A 的出生地在某地,同时他来自于中国;那么仅仅通过 B 的出生地也在某地,我们可以推断出 B 来自中国” 等一系列任务。

1.3 公共领域

目前已知且公开的大规模知识图谱包括 Freebase、Wikidata、DBpedia、YAGO、NELL 以及 Knowledge Vault 等,加之传统的知识库,有以下所示:

  • Cyc:通用的常识知识库,目的是将上百万条知识编码为机器可处理的形式,并在此基础上实现知识推理等智能信息处理任务;目前包含 50 万实体,3 万个关系以及 500 万事实;
  • WordNet:普林斯顿大学公布的英文电子词典和本体,采用人工标注的方法,将英文单词按照单词的词义组成一个大的概念网络;词语被聚类成同义词集 (Synset),每个同义词集表示一个基本的词汇语义概念,词集之间的语法关系包括同义关系、反义关系、上位关系、下位关系、整体关系、部分关系、蕴含关系、因果关系、近似关系等;包含 155,287 个单词,117,659 个同义词集;
  • Hownet:即知网,由董振东教授主持开发的一个语言认知知识库/常识知识库,以概念为中心,基于义原描述了概念与概念之间以及概念所具有的属性之间的关系,每一个概念可以由多种语言的词汇进行描述 (主要是中文和英语);包含 800 多个义原,11,000 个词语;
  • ConceptNet:开放的、多语言的知识图谱,最早起源于 MIT Media Lab 的一个众包项目 Open Mind Common Sense,致力于帮助计算机理解人们日常使用的单词的意义;
  • YAGO:由德国马克斯·普朗克研究院主持研究的大型语义知识库;基于 WordNet 的知识体系,将 Wikipedia 中的类别与 WordNet 中的同义词集进行关联,同时将 Wikipedia 中的条目挂载到 WordNet 的体系下,既自动扩充了知识库,又对海量的知识进行了组织和整理;拥有一百万个实体以及超过五百万条关系事实数据;
  • BabelNet:多语言词汇级的语义网络和本体;主要特点是将 Wikipedia 链接到最常用的英语类义词典 WordNet 上,这一点类似于 YAGO,但 BabelNet 加入了多语言支持;覆盖了 284 种语言,包括全部的欧洲语言、大多数亚洲语言等;
  • DBpedia:从 Wikipedia 中的结构化数据 (Infobox) 中抽取知识;实体包含人物、地点、作品、机构、物种和疾病;支持 127 种语言,描述了 1,731 万个实体,总共包含 95 亿事实三元组;
  • Freebase:基于 Wikipedia、使用群体智能方法建立的包含 5,813 万实体、32 亿个实体关系三元组的结构化知识资源,是公开可获取的规模最大的知识图谱之一;是第一个尝试利用协同智慧构建完全结构化知识图谱的系统,不过可惜的是,目前已停止更新;
  • KnowItAllTextRunnerReVerb:自动从网络数据中抽取信息进而构建知识库,是实现语义搜索的重要支撑技术;区别于传统的文本信息抽取系统,这里要抽取的关系不再是预定义的,抽取的范围是开放域文本;
  • NELL:卡内基梅隆大学基于 “Read the Web” 项目开发的一套永不停歇的语言系统 (Never-Ending Language Learning);本身是一套语言学习系统,每天不间断地执行两项任务:阅读和学习;阅读是从 Web 文本中获取知识,并添加到内部知识库,学习任务是使用机器学习算法获取新知识,巩固和扩展对知识的理解;
  • Kowledge Vault:Google 于 2014 年创建的一个大规模知识图谱;相较于 Google 之前基于 Freebase 的知识图谱版本,Knowledge Vault 不再采用众包的方式进行图谱构建,而是试图通过算法自动搜集网上信息,通过机器学习方法对已有的结构化数据 (例如 YAGO、Freebase、网页中的表格数据等) 进行集成和融合,将其变为可用知识;目前,Knowledge Vault 已经收集了 16 亿个事实,其中 2.71 亿具有高度置信度,准确率在 90% 左右。

除了以上通用领域知识图谱以外,存在众多特定领域的垂直领域知识图谱,包括影视领域的 IMDB、音乐领域的 MusicBrainZ、医疗卫生领域的 SIDER 等。

针对知识图谱构建过程中的不同困难,学术界著有一定量的论文提供解决方案,近年来在发表数量上也呈现加速上升的趋势。由知乎用户育心总结的,2005 年至 2019 年 80 篇知识图谱领域经典论文集,呈现如下分布:
在这里插入图片描述

1.4 生命周期

知识图谱的生命周期,第一个阶段为 知识获取;从非结构化文本中获取知识主要包含以下基本任务:

  • 实体识别 (entity recognition):命名实体 (named entity) 通常包含三大类 (实体类、时间类和数字类)、七小类 (人名、地名、机构名、时间、日期、货币和百分比);在知识图谱领域,实体识别不仅仅局限于命名实体,也包括其他类别的实体,特别是领域实体,例如股票名、汽车品牌、餐馆名等;与实体识别相关的任务是 实体抽取 (entity extraction),其区别在于实体抽取的目标是在给定语料的情况下,构建一个实体列表,并不需要在每个句子中确定实体的边界,例如,构建一个歌曲名列表;
  • 实体消歧 (entity disambiguation):目的在于消除实体的歧义,解决一词多义的问题,例如将打网球的李娜与歌手李娜、跳水运动员李娜等区分开来;从技术路线上划分,实体消歧任务可以分为 实体链接 (entity linking) 和 实体聚类 (entity clustering) 两种类型;实体链接是将给定文本中的某一个实体指称项链接到已有知识图谱中的某个实体上,因为在知识图谱中,每个实体具有唯一的编号,链接的结果就是消除了文本指称项的歧义;实体聚类的假设是已有知识图谱中并没有已经确定的实体,在给定一个语料库的前提下,通过聚类的方法消除语料中所有同一实体指称项的歧义,具有相同所指的实体指称项应该被聚为同一类别;
  • 关系抽取 (relation extraction):关系抽取的目标在于获取两个实体之间的语义关系;语义关系可以是 一元关系 (unary relation) (例如实体的类型),也可以是 二元关系 (binary relation) (例如实体的属性),或是更高阶的关系;根据抽取对象的不同,已有关系抽取任务可分为:关系分类、属性抽取、关系实例抽取;关系分类用于判别两个实体间的关系;属性抽取在于给定一个实体及一个预定义关系,抽取另一个实体;关系实例抽取则同时包含判断实体间关系及把满足该关系的实体抽取出来;
  • 事件抽取 (event extraction):事件抽取任务的目标是从描述事件信息的文本中抽取出用户感兴趣的事件信息并以结构化的形式呈现出来;与关系抽取的不同在于,一个事件通常包含多个关系三元组,涉及更多的实体和关系,因而更为困难;但事件抽取才更符合人们的正常认知规律,因此突破三元组的认知限制,以事件为主体构建知识图谱不可或缺。

第二个阶段,知识融合 (knowledge fusion) 则是对不同来源、不同语言或不同结构的知识进行融合,从而对现有知识图谱进行补充、更新和去重。

第三个阶段,知识存储 (knowledge storage) 方面, 涉及到数据库索引的效率,六重索引取代三元组称为更受欢迎的 RDF 格式存储方式;此外,另一种流行的存储基于图数据库的形式,例如开源图数据库 Neo4j,优点是具有完善的图查询语言,支持大多数的图挖掘算法,缺点是数据更新慢,大节点的处理开销大;目前来看,图数据库的方法比 RDF 数据库更为广泛;关于子图筛选、子图同构判定等技术是目前图数据库的研究热点。

第四个阶段,知识推理 (knowledge reasoning) 指导我们如何在数据稀疏的情况下,完成隐含知识的挖掘;目前主流的方法分为两种:1) 基于传统逻辑规则进行推理,其研究热点在于如何自动学习推理规则,以及如何解决推理过程中的规则冲突问题,2) 基于表示学习的推理,即采用学习的方式,将传统推理过程转化为基于分布式表示的语义向量相似度计算任务,这类方法优点是容错率高、可学习,缺点也显而易见,即不可解释,缺乏语义约束。 除了对已有的知识图谱进行补全外,知识推理也可直接应用于相关任务,例如自动问答系统。

第五个阶段,知识应用 (knowledge application) 在四个方向上使得知识图谱得以发挥重要价值,分别为 智能搜索自动问答推荐决策支持;智能搜索和自动问答应用图信息检索及知识推理,将适配的结果返回给用户,如谷歌搜索的即时结果;推荐方面,利用知识图谱中实体 (商品) 的关系向用户推荐相关产品,如百度搜索右侧的相关推荐;决策支持上,通过将知识图谱可视化提供给决策者,便于其进行知识管理与决策思考,如天眼查的股权结构图。

2 知识表示

知识应用的难点在于知识推理,而知识推理的难点在于 知识表示 (knowledge representation)。

2.1 经典知识表示体系

经典的知识表示方法包括逻辑 (Logic)、语义网络 (Semantic Network)、框架 (Framework)、脚本 (Script) 以及 语义网 (Semantic Web):

简介 示例 优点 缺点
逻辑 包含命题逻辑、一阶逻辑以及高阶逻辑;命题逻辑通过与( ∧ \land )、或( ∨ \lor )、非( ¬ \lnot ¬)、蕴含( ⇒ \Rightarrow )、当且仅当( ⇔ \Leftrightarrow )等逻辑符将多个子命题组合成复合命题实现知识推理;一阶逻辑引入全称量词( ∀ ) \forall) )以及存在量词( ∃ \exists ),得以量化实体和概念;更高阶的,二阶逻辑可以量化集合,三阶逻辑可以量化集合的集合,以此类推 Z = Z = Z= 如果鲸目中的一类北部有背鳍,那么它是海豚科; X 1 = X_1 = X1= 鲸鱼有背鳍; X 2 = X_2 = X2= 这种鲸鱼属于海豚科; Z = ( X 1 ⇒ X 2 Z = (X_1 \Rightarrow X_2 Z=(X1X2) 利用简单统一的方式描述知识,让知识表示和知识推理分离,使得推理方法可以不依赖于具体领域 难以表示过程性知识和不确定性知识;当知识中的属性、谓词和命题数量增大时,推理过程因为符号的组合爆炸问题,计算复杂度呈指数级增长趋势
语义网络 构建通过语义关系连接的有向图知识网络,将知识表示为相互连接的点和边的模式,节点表示实体、事件、值等,边表示对象之间的语义关系;语义网络中最基本的语义单元称为语义基元,用三元组形式表示,如<节点1,关系,节点2>;关系包括实例关系、分类关系、成员关系、包含关系、位置关系等 珊瑚是一种动物,记为 < E 1 , R , E 2 > <E_1,R,E_2> <E1,R,E2> E 1 = E_1 = E1= 珊瑚; E 2 = E_2 = E2
  • 0
    点赞
  • 12
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值