王鑫:知识图谱数据管理——基础与前沿
王鑫老师报告的内容是围绕知识图谱的数据存储与管理展开的,首先介绍了语义网的概念。
语义网中的概念标准化通常是用W3C标准完成的,语义网中的每一个概念都是一个uri,每一条数据都是Linked Data。
介绍一个网站:http://lod-cloud.net/能够生成知识图谱云图。
关于知识图谱的数据管理路线图:
- 知识图谱的数据模型包括RDF图模型和属性图模型;
- 知识图谱的查询语言,有关RDF图模型的查询语言为SPARQL
- 知识图谱的存储管理
- 知识图谱的查询操作
知识图谱中的数据模型可以分为三个部分:
- 逻辑组织结构(structure)
- 操作(operation)
- 约束(constraint)
G=(V,E) 涉及到图论(基础理论)
在知识图谱中,使用URI作为实体信息的唯一标识资源符:看重其唯一性
RDF图模型和属性图模型的比较:
RDF图模型:顶点和边的交集,即V和E的交集非空——3-uninform-hypergraph
RDF Shapes 约束语言(SHACL)
RDF图的查询语言:
知识推理可以分为两个方面:
- 基于描述逻辑的语义推理(这里有一项工作是将逻辑推理运用到表示学习研究中)
- 关联预测
刘知远:知识指导的预训练语言模型
Distributed Representation:
==>Web,Document,Sentence,Word
==>Unified Semantic Space
==>Semantic Analysis,Syntactic Analysis,Lexical Analysis
关于语义网、文档、句子或词的分布式表示,就是将这些内容映射到一个向量空间,得到自然语言的词性词义或句法表示。
关于词的分布式表示可以参考一篇综述:
Advances in Natural Language Processing.Science 2015
在第一部分,刘知远老师介绍了什么是义原(Lexical sememes):人类最小的语义单元
在这个部分,老师介绍了一个中国的语义知识库:知网(HowNet),hownet包括了约2000个sememes,并且根据这些义原标注了约10万个词。
根据这些义原标注的词,得到了词向量(ACL 2017)
并且根据义原计算了他们的语义相似度:SC
义原系统已经开源,相关论文的发表也已经如上。义原是一个由人手工定义的语义概念,与神经网络训练得到的词向量不同,他主要有两大优点:
- 对中文的语言理解,词的表示更加准确
- 对语义的信息捕捉更细致。
第二部分,刘老师介绍了知识图谱的知识获取(knowledge acquisition, KA)。
TransE是一种基于平移的模型,将实体与关系映射到同一个向量空间,并且使得h+r==t,以此达到预测的目的。
在关系抽取部分,Relation Extraction包含了三个子任务:
- NER
- Entity Linking=>将上一步获得的命名实体进行消岐,对齐到知识图谱中的具体概念。
- Relation Classification
在知识获取领域,还存在以下的挑战:
- 有限的训练数据集
- 常尾数据:只有少部分的关系是具有大量分布的
- 自然语言事实超过了句子的边界,可能要文档级别的事件或关系抽取
- 复杂的知识结构(多源异构的数据,例如事件抽取的复杂结构)
- 在领域专有知识图谱中新的关系不断增加
于是老师提出了一种基于知识图谱的知识关系抽取,面向的是小样本数据,使得知识图谱与关系抽取具有相辅相成的作用:
关于未来的研究方向,刘老师也提出了几个方面的建议,主要分为三个部分:
- 知识约束:能够不断优化语言模型,提高预训练语言模型对词性、词义或句法表示的准确性
- 知识支撑:将知识图谱中的关联语义网络能够用于支撑或指导深度学习在文章中对知识的抽取,而抽取得到的知识又能用于知识图谱的补全与知识的不断更新。
- 知识增强:对有限的训练数据,也可以用知识增强(GAN等,源自图像领域)的方法,扩充训练样本,增加噪声数据,在小样本学习领域取得突破。
我的小结:
- 首先对知识图谱的数据管理有了新的认识,我目前使用的数据模型是RDF图模型,采用的查询语言是SPARQL,但受到王鑫老师的启发,未来还会更加深入的了解属性图模型
- 知道了对于本体语义相似度的计算SC
- 有关知识图谱的推理可以广义的理解为两个部分:一个是有关逻辑的推理,另一个是基于隐含知识的关联预测,需要利用表示学习方法。但实际上两种推理研究可以结合起来进行,利用逻辑推理增强关联预测的准确性
- 认识了义原的概念,有关中文知识图谱的研究目前较少,但中文语言语义博大精深,可研究的领域范围十分广泛
- 知识图谱能够指导深度学习用于文本的关系抽取,而关系抽取获得的知识亦能用于知识图谱的补全和更新。二者其实是相辅相成的。