以下使用胡盼盼《自然语言处理从实践到入门》的章节大纲
1.知识图谱的基本概念
是一种用图来表示知识的结构化方式
1.1 从语义网络到知识图谱
1960s提出语义网络(Semantic Network)
1998年提出语义网(Semantic Web)
2006年提出链接数据(Linked Data)
2012年谷歌提出知识图谱(Knowledge Graph KG)
1.2 知识的结构化,存储及查询
RDF:资源描述框架(Resource Description Framework),用以描述互联网上的资源及相互之间的关系。
使用关系型数据库进行存储
在RDF上的查询语言便是SPARQL(Protocol and RDF Query Language)
1.3 几个开源的知识图谱
截止2019年3月,根据开放互联数据(Linked Open Data)的官方统计,共有1239个知识图谱加入此联盟。
DBpedia:英文图谱
CN-DBpedia:中文知识百科图谱,由知识工厂研发并维护
Yago:为多语言知识图谱
Wikidata:维基百科
ConceptNet:多语言常识知识库
Zhishi.me:对三大中文知识网站进行抽取
大词林:基于上下位关系的中文知识库,哈工大研发
注意:开放互联数据(Linked Open Data)里面可以找到很多知识图谱
2.知识图谱的关键构建技术
知识图谱的关键技术主要有:信息抽取,知识融合,知识推理等
2.1知识融合--本体匹配
本体匹配的流程:数据预处理-->数据分组-->相似度计算
在实践中,利用现有的工具可以简便匹配工作,比较常见的有Falcon-AO、Limes、AS-MOV、AgreementMaker、Anchor-Flood、SAMBO等实体匹配系统。
2.2 知识融合--实体链接
我们知道自然语言表达存在两大特性:1.多样性;2.歧义性
为了解决上面两个问题使用实体链接(Entity Linking),实体链接的关键技术有如下三大方面:
1.引用表构建
2.实体知识构建
3.链接推理算法
2.3 知识推理
推理根据推断途径可大致分为以下三个方面:
归纳推理(induction):从特殊到一般
演绎推理(deduction):从一般到特殊
默认推理:又称缺省推理,指在知识不完全的情况下,通过假设某些条件已经具备而进行的推理。
面向知识图谱的推理既融合传统的推理方法,又基于机器学习的方法发展出独有的推理方法,可分为以下几种:
1.基于规则的推理
2.基于分布式表达的推理
3.基于神经网络的推理
4.混合推理:顾名思义,就是结合多种方法进行推理,优势互补。
3.知识图谱的应用
3.1 知识图谱--反欺诈
3.2 个性化推荐
将知识图谱与推荐系统的融合是目前一大具有前景的研究热点,其难点在于如何有效地融合知识图谱中的特征。
那么如何将知识图谱引入推荐系统中呢?目前大致可以分为一下两类工作:
1.基于特征的结合方式:
2.基于路径的结合方式:将其当做一个异构信息网络(Heterogeneous Information Network,HIN)
3.3 知识库问答(knowledge base question answering,KB-QA)
知识库问答是指针对自然语言问题进行语义理解,进而利用知识库(就是知识图谱)进行查询、推理得出的结构化答案,最后将其转化为自然语言的回答形式。
基于知识库的问答具备以下几个层面的特点:
1.训练数据:在一般的问答系统中,需要大量的问答数据进行训练。而基于知识的问答,在语义理解部分会涉及训练数据,之后主要靠的是查询和推理,并不需要数据。
2.数据形式:输入输出皆为结构化形式,但输入又得将其转化为自然语言。
3.背景知识:在一般问答系统中,回答局限于对问句本身的语义理解。而基于知识库的回答借助图谱中强大的背景知识,能够深层次地理解并回答问题。
4.评价方式
5.问题的理解和表示:
6.查询与推理:
目前,很多研究工作将KB-QA与深度学习结合进行模型学习,在语义的深层次解析、语言的生成等阶段都有了一些进展,比如应用RNN,CNN各自的特点分层次地提取有用的信息,搭建端对端的知识库问答模型,通过变分推断完成多跳推理等。