本文主要是论文推荐+模型比较
一、少样本知识图谱补全概述和相关内容
1、知识图谱概述
1.1知识图谱定义
知识图谱(knowledge graph,KG)用结构化的形式描述客观世界中概念、实体及其关系,它将互联网的信息表达成更接近人类认知世界的形式,提供了一种更好地组织、管理和理解互联网海量信息的能力。
知识图谱以三元组的形式(头实体,关系,尾实体)存储知识和事件,以网络的形式作为展示,在网络中每个节点代表实体,节点之间相互连接的边代表关系。
知识图谱 G 表示为三元组 {(h,r,t)}⊆ E × R × E 的集合,其中 E 和 R 是实体集合和关系集合。每个三元组都由一个关系 r ∈ R 和两个实体 h,t ∈ E 组成,它们之间可以表示为头实体 h 到尾实体 t 有一条有向边r连接。
目前一些大规模知识图谱 NELL(never-ending language learner)、Wikidate、YAGO(yet another great ontology)等被广泛应用于各种自然语言处理任务中,例如语义搜索、智能问答、推荐系统等。
1.1.2知识图谱嵌入
知识图谱嵌入(knowledge graph embedding,KGE)旨在将实体和关系嵌入到潜在的低维数字表示中。
在过去几年,KGE 方法被证明在知识图谱补全任务上是有效的,并且许多 KGE 方法已经应用于知识图谱补全任务,其中包括TransE(translating embedding)、ComplEx(complex embeddings)和 ConvE(convolutional 2D knowledge graph embeddings)等方法。
但是目前的这些方法都假设知识图谱包含足够的实体和关系数据,然而在KG中少样本关系数据是广泛存在的 ,例如Wikidate中大约有10%的关系只有不超过10个三元组实例。此外,在实际应用的过程中,社交媒体或推荐系统产生的KG,会随着时间的流动进行动态更新,更新后的新关系通常只有少量的三元组实例。这种情况会导致大部分知识图谱补全方法的效果下降,因为这些方法都要求拥有足够的训练实例,所以在只拥有少数三元组实例的情况下,如何完成知识图谱补全任务是重要且具有挑战性的。
2、知识图谱补全概述
2.1知识图谱补全目的
尽管知识图谱中有着大量的实体、关系、三元组,但是现有的大部分知识图谱都是不完整的,具体体现在一些实体之间缺少对应的关系,一些头实体和关系间缺少对应的尾实体。
知识图谱补全任务(knowledge graph completion,KGC)旨在学习知识图谱中现有的实体关系三元组,进而推断出知识图谱缺失的实体或关系。
同时知识图谱中的大部分关系都是少于10个相关事实的长尾关系,引出了少样本知识图谱补全的研究。
2.2知识图谱补全任务分类
1、在已知两个实体 (h,?,t) 的情况下,预测其中的关系r ;
2、在已知头部实体和关系 (h,r,?) 的情况下,预测尾部实体 t 。
目前研究者更专注于后一种研究。
2.3少样本知识图谱补全面临的困难
1、少样本/零样本知识图谱补全程度不高
2、无法很好利用知识图谱中的结构信息
3、邻域信息的使用和去噪:忽略三元组周围的高阶邻域信息(多跳邻域信息);在集合实体邻域信息时,有些实体并没有很多邻居信息,但是伴随编码范围的扩大,会引入很多无关的信息甚至是噪音信息
4、动态时序知识图谱补全任务相关研究较少
2.4少样本知识图谱补全的一些相关内容
1、背景知识图谱G':当前知识图谱G的一个子集,其中包含和任务关系r相关的三元组
2、实体的一跳邻居集合Ne:一般在FKGC任务中 Ne也被称为实体e的邻域,它是由背景知识图谱G′产生,其中包含所有与实体e相连接的关系r和尾实体t
3、少样本关系的邻域:针对少样本关系 r 而言,它自身的邻域可以被定义为 {h,t,Nh,Nt} ,其中 h、t 是头实体和尾实体,它们和关系 r 可以构成一个三元组(h,r,t) ;Nh、Nt 是头实体和尾实体的一跳邻居集合。
二、少样本知识图谱补全方法简要介绍
1、基于度量学习的方法
度量学习的方法一般是从一组待训练的任务中学习到可概括的距离公式和相应的匹配函数,进而推广到新出现的任务中,此类方法大多采用深度孪生网络中所提出的通用匹配框架 Matching Nets。
在 KGC 中,很多 KGC 模型在训练过程中都需要大量的数据作为支撑,如果在FKGC任务中使用,就会面对性能受限制或者没有足够数据支持的问题。
1.1Gmatching
参考文献:Xiong W, Yu M, Chang S, et al. One-shot relational learning for knowledge graphs[J]. arXiv preprint arXiv:1808.09040, 2018.
Xiong等人在2018年提出(第一次定义少样本知识图谱补全概念)
Gmatching 模型的核心是利用实体嵌入信息和局部图结构来构建匹配度量函数。模型思想是针对当前任务的关系 r ,计算查询实体对与参考实体对的相似度,排序得到正确尾实体 ttrue 的排名。
邻居编码器:利用实体的一跳邻居增强每个实体的表示的信息量;传入(关系,邻居实体);手动限定最大邻居数;
匹配处理器:将从邻居编码器中取得的任意两个实体对的向量表示,然后在两个实体对之间执行多步匹配,并输出标量作为相似度分数。
1.2FSRL
参考文献:Zhang C, Yao H, Huang C, et al. Few-shot knowledge graph completion[C]//Proceedings of the AAAI conference on artificial intelligence. 2020, 34(03): 3041-3048.
Zhang等人在2020年提出FSRL(few- shot relation learning)