知识图谱|学习笔记|《知识图谱概念与技术》肖仰华——第1章 知识图谱概述

知识图谱 专栏收录该内容
2 篇文章 0 订阅

知识图谱概述

1.1 知识图谱的基本概念

狭义: 特指一类知识表示,本质上是大规模语义网络

广义:大数据时代知识工程一系列技术的总称,在一定程度程度上指代大数据知识工程这一新兴学科。

1.1.1 知识图谱的狭义概念

  1. 知识图谱作为语义网络的内涵

    作为一种知识表示形式,知识图谱是一种大规模语义网络,包括实体(Entity)、概念(Concept)及其之间的各种语义关系。

    知识图谱本质是语义网络:

    语义网络是一种以图形化的(Graphic)形式通过点和边表示知识的方式,其基本组成元素是点和边。

    点可以是实体(又称对象、实例)、概念(又称类别、类)和值(Value)。

    边可以分为属性(Property)和关系(Relation)两类。当实体的某个属性值也是一个实体时,这个属性实质上就是关系。

    语义网络中的边按照其两端节点的类型可以分为概念之间的子类(subclassof)关系、实体与概念之间的实例(instanceOf)关系,以及实体之间的各种属性与关系。

  2. 知识图谱与传统语义网络的区别

    根本区别:知识图谱规模大

    (1)规模巨大。知识图谱点、边数量巨大原因在于需要覆盖实体,是大知识的代表。
    (2)语义丰富。两方面:富含各类语义关系;语义关系建模多样。
    (3)质量精良。大数据多源特性使得我们可以通过多个来源验证简单事实;众包平台有助于实现大规模知识验证。
    (4)结构友好。知识图谱通常可以表示为三元组,通过图结构和RDF(Resource Description Framework)进行表示。

    知识图谱构建与应用的独特挑战:

    (1)高质量模式缺失。放宽要求,允许模式(Schema)定义不完善甚至缺失,对数据语义理解以及数据质量控制提出挑战。
    (2)封闭世界假设(Closed World Assumption)不再成立。CWA假定数据库/知识库中不存在的事实为不成立的事实。
    (3)大规模自动化知识获取成为前提。

  3. 知识图谱与本体的区别

    本体源于哲学的本体论,侧重对存在进行规定和刻画。本体刻画人们认知一个领域的基本框架,而知识图谱富含的是实例以及关系实例。模式定义实际上在完成本体定义的任务。

1.1.2 知识图谱的广义概念

知识图谱是大数据时代知识工程(Big Data Knowledge Engineering, BigKE)的代表性进展。知识工程的核心内容是建设专家系统,旨在让机器能够利用专家知识以及推理能力解决实际问题。知识表示是发展知识工程最关键的问题之一,知识表示的一个重要方式是知识图谱,侧重用关联方式表达实体与概念之间的语义关系。

1.2 知识图谱的历史沿革

以知识图谱为代表的大数据知识工程的产生有历史必然性。

1.2.1 知识图谱溯源

  1. 传统知识工程

    知识工程属于符号主义。符号主义认为知识是智能的基础。传统人工智能专家认为人工智能的核心问题是知识表示、推理和应用。成功解决的问题普遍具有规则明确、应用封闭的特点,根本局限在于严重依赖人的干预(领域专家、知识工程师、用户反馈)。

  2. 传统知识工程的局限性

    传统知识工程难以适用开放性应用,实际应用不是绝对封闭,则容易超出预先设定的知识库边界。机器理解常识的水平有限。

    (1)隐形知识与过程知识等难以表达。
    (2)知识表达的主观性与不一致性。专家认知有差异、冲突是常态。人类认知存在模糊性,如物体归类。
    (3)知识难以完备。
    (4)知识更新困难。

1.2.2 大数据知识工程

  1. 互联网与大数据应用催生了知识图谱

    应用特点:规模巨大(如搜索引擎);精度要求相对不高;知识推理简单

  2. 大数据时代给知识图谱的发展带来了新机遇

    (1)数据、算力和模型的飞速发展使得大规模自动化知识获取成为可能。
    (2)众包技术使得知识的规模化验证成为可能。
    (3)高质量的用户生成内容(UGC)提供了高质量知识库来源。包括百科、社区、论坛、问答平台。

1.3 知识图谱的研究意义

1.3.1 知识图谱的认知智能的基石

认知智能是指让机器具备人类认知世界的能力。机器认知智能的两个核心能力是“理解”、“解释”。理解是指从数据到知识图谱中的知识要素(包括实体、概念和关系)的映射。解释是将知识图谱中的知识与问题或者数据相关联。

(1)知识图谱使能机器语言认知。

实现机器对自然语言的理解所需要的背景知识的条件如下,知识图谱满足所有条件:

  • 规模必须足够巨大才能理解不同的实体和概念
  • 语义关系必须足够丰富才能理解不同的关系
  • 结构必须足够友好才能为机器所处理
  • 质量必须足够精良才能让机器对现实世界产生正确的理解

(2)知识图谱赋能可解释人工智能:可解释性的缺失问题。

人类倾向于利用概念、属性、关系这些认知的基本元素去解释现象和事实,可以通过知识图谱表达。

(3)知识图谱有助于增强机器学习的能力。

让机器学习模型利用大量累积的符号知识,降低机器学习模型对大样本的依赖,提高学习的经济性,提高对先验知识的利用率。
在这里插入图片描述

1.3.2 知识引导成为解决问题的重要方式之一

实际应用越来越要求将数据驱动和知识引导相结合,以突破基于统计学习的纯数据驱动的效果瓶颈。

1.4 知识图谱的应用价值

1.4.1 数据分析

大数据的精准分析(舆情分析、互联网商业洞察、军事情报分析、商业情报分析)和精细分析(个性化制造、搜集评价与反馈)需要知识图谱。

1.4.2 智慧搜索

  1. 精准的搜索意图理解
    精准分类、语义理解、个性化推荐
  2. 搜索对象复杂化、多元化
    文本、图片、代码、声音、视频、文案、素材
  3. 搜索粒度多元化
    篇章级、段落级、语句级、词汇级
  4. 跨媒体协同搜索
    不同媒体数据联合完成搜索、多模态搜索

1.4.3 智能推荐

  1. 场景化推荐。建立场景图谱,实现基于场景图谱的精准推荐。
  2. 冷启动下的推荐。利用来自知识图谱的外部知识,特别是关于用户与物品的知识,增强用户与物品的描述,提升匹配精度,是让系统尽快度过冷启动阶段的重要思路。
  3. 跨领域推荐。
  4. 知识型内容的推荐。

1.4.4 自然人机交互

对话式交互、问答式交互。

1.4.5 决策支持

建立包含各种语义关联的知识图谱,挖掘实体之间的深层关系,成为决策分析的重要辅助手段。

1.5 知识图谱的分类

1.5.1 知识图谱中的知识分类

  1. 事实知识。是关于某个特定实体的基本事实,最常见的知识类型。
  2. 概念知识。分为两类,一类是实体与概念之间的类属关系(isA关系),一类是子概念与父概念之间的子类关系(subclassOf)。
  3. 词汇知识。主要包括实体与词汇之间的关系以及词汇之间的关系,已取得较好应用效果。
  4. 常识知识。常识是人类通过身体与世界交互而积累的经验与知识,使人们不言自明的知识。常识知识的获取是构建知识图谱的一大难点。

1.5.2 知识图谱的领域特性

通用到领域/行业

DKG与GKG之间区别体现在知识表示、知识获取、知识应用三个层面:

  1. 在知识表示层面的区别可以从广度、深度、粒度这三个维度来考察。
  2. 在知识获取层面,DKG对质量要求更高。
  3. 在知识应用层面,DKG的推理链条相对较长,应用相对复杂。

联系:

  1. 领域知识是通过隐喻或者类比从通用知识发展而来。
  2. GKG与DKG相互支撑。GKG给DKG提供高质量种子事实和领域模式。DKG反哺GKG。

1.5.3 典型知识图谱

在这里插入图片描述
常见知识图谱

知识图谱领域特点构建方式、规模语言类型
Cycorp公司的Cyc通用通过人工方法将上百万条人类常识编码成机器可用的形式,用于智能推断人工,700万条断言,63万个概念,3.8万条关系英语常识图谱
普林斯顿大学的WordNet通用以同义词集合作为一个基本单元人工,15万个词,11万组同义词集合,20万条关系英语词汇图谱
麻省理工学院的ConceptNet通用多语言常识知识库自动,800万个实体,2100万条关系多语言常识图谱
Meta Web公司的Freebase通用众包编辑半自动,4400万个概念,24亿个事实英语百科图谱
Geonames.org的Geonames领域多语言地理位置信息半自动,2500万个实体多语言地理图谱
DBpedia通用百科图谱多语言自动构建半自动,2800万个实体多语言百科图谱
YAGO通用人工校验,时空维度,多语言自动,1000万个实体,1.2亿条关系多语言百科图谱
华盛顿大学的OpenIE通用开放性关系抽取,Never-ending自动,50亿条关系英语文本图谱
BabelNet通用271种语言,自动融合自动,1400万个实体多语言词汇图谱
WikiData通用众包编辑半自动,540万个实体多语言百科图谱
Google知识图谱通用规模最大自动,未知多语言综合知识图谱
微软亚洲研究院的Probase通用概念规模最大自动,270万个概念英语概念图谱
搜狗知立方通用侧重于娱乐领域自动,未知汉语百科图谱
百度知心通用支持百度搜索自动,未知汉语百科图谱
复旦大学的CN-DBpedia通用实时更新,完整的数据/服务接口自动,1600万个实体,2.2亿条关系汉语百科图谱
  • 1
    点赞
  • 0
    评论
  • 0
    收藏
  • 一键三连
    一键三连
  • 扫一扫,分享海报

©️2021 CSDN 皮肤主题: 数字20 设计师:CSDN官方博客 返回首页
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、C币套餐、付费专栏及课程。

余额充值