5.1 简介
定义:知识图谱提供了关于某个主题的结构化的详细信息。(维基百科)
知识图谱以图形式组织知识,每个节点对应一个实体,每条边对应一条关系,知识图谱的基本单位是事实(头实体、关系、尾实体)。
发展历程:
特征:
- 知识图谱以图结构形式组织
- 关系性、灵活性、可学习性强
- 数据的含义和图一起编码
- 更接近自然语言、可读性强
应用:
- 问答系统
- 搜索引擎
- 推荐系统
5.2 知识表示学习(基础模型)
5.2.1 表示学习
机器学习 = 表示 + 目标 + 优化
表示学习即通过相关算法学习到对象的分布式表示(嵌入),将对象抽象为稠密、实值和低维的向量的过程。例如embedding等。
知识图谱符号三元组RDF不能高效地衡量实体之间的语义相似性,面向知识图谱的表示学习能够将知识图谱编码到低维向量空间,能够通过用高频对象表示低频对象,缓解稀疏性问题,缓解长尾分布问题,进一步能够通过实现跨域和跨对象的知识迁移。
5.2.2 基于语义匹配
如何衡量一个三元组的可信度?
语义模型:RESCAL
语义模型:DistMult
语义模型:HolE
5.2.3 基于平移距离
如何衡量一个三元组的可信度?启发于word2vec:对每个三元组,关系将头实体平移到尾实体。
平移模型:TransE
学习目标:h + r = t
学习出h、r、t的表示后,可以通过任意去预测另外一者,TransE简单,只需要学习出hrt的向量表示,参数少但效果很好。
5.3 前沿发展和关键挑战
5.3.1 处理复杂关系
现实生活中,头实体和尾实体的对应不只是1对1的,如下图所示:
传统的方法会使Obama和Trump的相似度变高,影响模型效果。
5.3.1.1 投影
投影的思想是构建与给定关系的实体表示,即不同关系下,实体表示不同。
5.3.1.2 嵌入空间
5.3.1.3 编码模型
思想:引入其他DL方法进行编码。
5.3.2 融合外部信息
知识图谱蕴含着网络结构以外的许多信息。
5.3.2.1 文本信息
思想:通过实体描述、实体文本建立对应的表示。
5.3.2.2 结构信息
每个实体有多个层级类别结构,层级类别提升了在长尾上的实体表现。
利用属性信息学习实体表示:
5.3.2.3 图像信息
5.3.3 知识推理
实体之间可能通过多个路径连接,有着复杂的推理路径。
5.3.3.1 基于路径的方法
Path-Ranking算法:用随机游走派生出多条路径,用监督训练为路径排序,可解释性强,但存在关系的排列组合,产生组合爆炸,故不能规模化。
5.3.3.2 基于逻辑规则的方法
思想:将路径嵌入到模型中
5.4 总结
- 知识表示学习是构建和应用图谱的重要方法
- 知识表示学习仍在快速发展,有很多开放问题
- 大规模知识图谱的在线、快速学习
- 大规模知识图谱十分稀疏,现有模型不能很好地表示不常用的实体和关系
- 学习对知识表示重要的三元组
- 关键是如何从人类的泛化和抽象能力中学习知识
- 深度学习 &知识图谱会为自然语言处理带来变革,指导语言理解、语言生成等