一起啃书系列——知识图谱概念与技术肖仰华——基础知识阶段1

前言

你好! 本笔记主要用于个人复习使用。即将要进入到研究生学习阶段,我打算开始复习一下之前所学习过的知识,以便于以后更好的进入到CV/NLP的学习中去,如果你也恰好在学习相关知识,可以阅读这篇文章,了解一下知识图谱相关的概念与技术的知识,如有不到位之处,请多包涵。

友情提示,本文档更像是一个阅读笔记,一定要配合书籍一同阅读。

在这里插入图片描述
本书自底向上进行,先讲述知识图谱的基础知识,在从知识图谱的构建和管理上对知识图谱进行使用,在将其应用到其他领域。
在这里插入图片描述

第一章、知识图谱概述

1.1知识图谱的基本概念

理解知识图谱的概念需要掌握两个要点:①知识图谱是语义网络②知识图谱是大规模的,这是和传统语义网络的根本区别。
语义网络是一种以图形化的(Graphic)形式通过点和边表达知识的方式。[^1]
语义网络中的点可以是实体、概念和值(Value)。
知识图谱中的边可以分为属性(Property)和关系(Relation),用于描述实体的某方面的特性。
知识图谱和传统语义网络的区别:
①规模巨大
②语义丰富
③质量精良
④结构友好
知识图谱的缺点:
①高质量模式的缺失
②封闭世界假设不再成立
③大规模自动化知识获取成为前提
知识图谱与本体的区别:
类似于框架和实例的关系。
知识图谱的广义概念:
知识图谱作为一种技术体系,指代大数据时代知识工程的一系列代表性技术的总和。

1.2知识图谱的历史沿革

知识图谱源自于20世纪70年代的专家系统和知识工程。直到2012年Google退出了面向互联网搜索的大规模知识图谱,才宣告知识图谱的诞生。
本节论证一个观点:以知识图谱为代表的大数据知识工程的产生具有历史必然性。
1.知识图谱溯源
(1)传统知识工程
知识工程来源于符号主义,早期的研究十分注重机器拥有人类知识,让机器具备知识表示、推理和应用能力。
传统知识工程所解决的问题普遍具有规则明确、应用封闭的特点,通过有限的规则进行推理。其严重依赖于人的干预。
(2)传统知识工程的局限性
以人为基础的知识表达、获取与应用方式极大地限制了知识库的规模与质量,造成了知识表示与获取方面的诸多困难。
①隐式知识与过程知识等难以表达(很多知识从根本上讲是很难进行表征的)
②知识表达的主观性与不一致性。
③知识难以完备。
④知识更新困难
2.大数据知识工程
(1)互联网与大数据应用催生了知识图谱
互联网应用的特点:
①规模巨大
②精度要求相对不高
③知识推理简单
(2)大数据时代给知识图谱的发展带来了新机遇
①数据、算力和模型的飞速发展使得大规模自动化知识获取成为可能。
②众包技术使得知识的规模化验证成为可能
③高质量的用户生成内容提供了高质量知识库来源(User Generated Content,UGC)。

1.3知识图谱的研究意义

知识图谱的研究价值集中地体现在它是实现认知智能的基础。
1.知识图谱是认识智能的基石
(1)知识图谱使能机器语言认知
(2)知识图谱能可解释人工智能
(3)知识有助于增强机器学习的能力
2.知识引导成为解决问题的重要方式之一

1.4知识图谱的应用价值

1.数据分析
2.智慧搜索
3.智能推荐
4.自然人机交互
5.决策支持

1.5知识图谱的分类

1.5.1知识图谱中的知识分类

1.事实知识(Factual Knowledge)
2.概念知识(Taxonomy Knowledge)
3.词汇知识(Lexical Knowledge)
4.常识知识(Commonsense Knowledge)

1.5.2知识图谱的领域特征

随着近几年的知识图谱技术的发展,其研究逐渐由通用领域知识图谱(General-purpose Knowledge Graph,GKG),转向了特定领域的知识图谱(Domain-specific Knowledge,DKG)。
DKG与GKG的区别是明显的,主要体现在
(1)在知识表示层的区别可以从广度、深度和粒度这几个维度进行考察。
(2)在知识获取层面,DKG对质量往往有着极为苛刻的要求。
(3)在知识应用层面,DKG的推理链条相对较长,应用相对复杂。
GKG和DKG的关系是十分密切的,主要体现在
(1)领域知识是通过隐喻或者类比从通用知识发展而来的。
(2)GKG与DKG相互支撑。

1.5.3典型知识图谱

知识图谱可以从四个维度进行分类:
①专用/通用②构建方式
③知识类型④语言类别

第二章、基础知识

2.1概述

与知识图谱密切相关的计算机子学科有知识表示、数据库、机器学习、自然语言处理等。

2.2知识表示

1.基本概念
知识必须经过合理的表示才能被计算机处理。知识表示是对现实世界的一种抽象表达。评价指数表示能力的两个重要因素是表达能力(Expressiveness)和计算效率(Efficiency)。
2.知识图谱的图表示
①基于图的表示
②基于三元组的表示
3.知识图谱的数值表示
①基于距离的模型
②基于翻译的模型
4.其他相关知识表示
①谓词逻辑(Predicate Logic)
②产生式规则(Production Rule)
③框架(Frame)
④树型知识表示
⑤概率图模型(Probalistic Graphical Model)
⑥马尔可夫链(Markov Chain,MC)
⑦马尔可夫逻辑网

2.3机器学习

机器学习(Machine Learning,ML)是一种从观测数据(样本)中寻找规律,并利用学习到的规律(模型)对未知或无法观测的数据进行预测的方法。
1.机器学习分类
①监督学习
②无监督学习
③弱监督学习
2.深度学习概述
传统机器学习具有一定的局限性
①样本特征主要依靠专家经验或特征转换的方法来获得。依赖于专家的经验的特征提取方法通常费时费力,也难以捕捉很多隐式特征。
②传统机器学习智能使用较为简单的函数形式来表达模型,而模型的表达能力对机器学习的效果来说至关重要,简单的模型难以表达复杂的函数映射。
**深度学习(Deep Learning,DL)**的出现在一定程度上弥补、突破了浅层学习的上述局限性。深度学习是指基于深度神经网络的一类机器学习模型。深度神经网络在传统浅层神经网络的基础上引入了更多的中间层,因而是具有较深层次的神经网络模型。
3.卷积神经网络
(后续展开)
4.循环神经网络
(后续展开)
5.注意力机制
(后续展开)

2.4自然语言处理

1.基本概念
NLP可以在词法分析(Lexical Analysis)、语法分析(Syntactic Analysis)、语义分析(Semantic Analysis)以及语用分析(Pragmatic Analysis)等层面展开。NLP常见任务有:断句、分词、词性标注、词形还原、识别停用词、依存句法分析、命名实体识别、共指消解、语义角色标注等等。
2.文本的向量化表示
单词对应的向量通常被称为词向量(Word Embedding)。传统的词向量表示是以独热(one-hot)和词袋为代表的离散表示。近年来主流的词向量表形式是以分布式表示为代表的连续表示,连续表示是将文本表示为连续空间上的一点。
(1)离散表示:独热、词袋模型;
(2)连续表示:Word2Vec、BERT;

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值