第一章 概述
1.1 知识图谱与语义概述
人的知识偏重关连,web的页面是文本链接,但是对于页面中的document不能处理。要从文本链接到知识链接。知识图谱是2012年谷歌提出,并发布了基于知识图谱的搜索引擎产品,到现在已经有七八年的发展。
KG的应用领域:
- KG辅助搜索、辅助问答。
- 机器人及智能IoT设备都挂接一个知识库,对智能有所提升
- 辅助决策,美国的Palantir在公共安全领域,Kensho在金融领域都使用到了KG
- 辅助常识推理
KG的本质:不像深度学习,而是一个比较复杂的系统
- Web的角度:建立数据之间的语义连接,并支持语义搜索。不像传统的搜索引擎,每一个节点是一篇文档,而语义是指真正的理解知识。
- NLP的角度:从文本中抽取语义及结构化数据
- KR的角度:用计算机符号来表示及处理知识
- AI的角度:怎样用知识库来辅助理解人的语言
- DB的角度:怎样用数据库来存储知识
Knowledge Graph的发展历程:
一般来说深度学习代表一种人工智能的技术,知识图谱代表的另一种,当然两者是有很多联系的,但是两者表示AI的区别的什么?也就是聪明的AI与有学识的AI。深度学习基于大数据,注重感知、学习与判断。而知识图谱是可以是大数据,也可以是小数据,注重思考、语言理解及推理。
1.2 典型的知识库项目
各种常用的知识库:有常识知识库也有专业知识库
cyc:一个比较早的常识知识库
WordNet:一开始是用于词义消歧
ConceptNet:常识知识库,用三元组形式构建知识的。
WikiData
DBPedia
###Yago
BabelNet
NELL
微软 Concept Graph
zhishi.me 中文百科知识库
cnSchema
1.3 知识图谱相关技术
包括知识抽取、知识表示、知识问答、语义搜索、知识链接、知识推理等。
知识的表示
RDF:Triple-based Assertion model,三元组
RDF Graph:Directed Labeled Graph,以三元组为基础组成的有向标记图。
RDFS:Simple Vocabulary and Schema
Schema可以理解为数据库中的表设计或字段设计
知识图谱的分布式表示:KG embedding
常用的方法有张量分解、神经网络、距离模型
知识抽取
知识抽取的主要方法:
第二章 知识表示与知识建模
2.1 早期知识表示
语义网络
2.2 基于语义网的知识表示框架
语义网就是把连接所有的对象
w3c推荐的语义网的标准栈,其中对于知识图谱最重要的是RDF和SPARQL,知识表示与搜索
RDF
什么是RDF?可以理解为知识表示的一种方法
在RDF中知识总是以三元组的形式出现,RDF是一个三元组模型即每一份知识可以被分解为如下的形式:(subject,predicate, object),即主谓宾。
RDF本身也是一个图模型,主宾是两个节点,谓语是一条边。
RDF是一种数据模型,XML,N-Triple是不同的表达形式。
带有标注的RDF
在原有的RDF上加入时间、空间、信任等标注信息来表达更多的信息。
RDFS
RDF schema定义的词有一定的语义,data层是schema层的实例化。schema层可以对数据进行检测,及概念之间的上下位关系。RDFS中定义的词是固定的:domain是对关系的主语的约束。schema是也是知识图谱的一部分。
RDFS推理的例子:
SPARQL
在知识图谱中搜索的查询语言,类似于关系型数据库的SQL查询语句。
第三章 知识抽取与挖掘一
3.1 知识抽取任务定义及相关比赛
知识抽取技术
- 实体抽取
- 关系抽取
- 事件抽取
什么是知识抽取?20世纪70年代后期出现在NLP领域,自动化的从文本中抽发现和抽取相关信息,从多个文本碎片中合并信息,通常应用在特定领域,将非结构化数据转化为结构化数据,包括Schema、Relations、Knowledge base、RDF triples。
相关的子任务:
事件抽取的例子:从一段文本中抽取一个事件,包括时间地点等。事件抽取是一个多元关系的抽取。
ACE
Automatic Content Extraction,主要包括五大任务:
- 实体检测与识别
- 数值检测与识别
- 时间表达检测与识别
- 关系检测与识别
- 事件检测与识别
KBP(Knowledge Base Population)
包括四个任务与一个整合任务:
- 实体发现与链接
- 槽填充
- 事件抽取
- 信念与情感
实体抽取与链接
抽取文本中的原子信息索元素:比如人名、组织名、地理位置、时间/日期、金额值等。可以由机器学习的序列标注来解决。
使用的方法有:
- HMM
- CRF
- LSTM + CRF
- Bi-LSTM + CRF
实体链接是从一段或一句话中识别实体并把实体与给定的知识库中的某些实体进行链接。
一个更具体的例子:
在文本中识别出来了万达集团这个实体,通过对文本中的实体进行消歧,与KG中已有的实体进行链接。
关系抽取
关系抽取是信息抽取(Information Extraction)的任务之一,抽取文本中两个或多个实体之间的语义关系。
例如:王健林谈到儿子王思聪:我更希望他稳重一些。=> 父子(王健林,王思聪)
关系抽取的方法:
事件抽取
从自然语言中抽取用户感兴趣的事件信息,并以结构化的形式呈现出来,例如事件发生的时间、地点、发生的原因、参与者等。
相关术语:
- 事件描述(Event Mention):描述事件的词组或句子;
- 事件触发(Event Trigger):表明事件出现的主要词汇;
- 事件元素(Event Argument):事件的重要信息;
- 元素角色(Argument Role):元素在句子中的语义;