KG error/conflict detection

1.What is Normal, What is Strange, and What is Missing in a Knowledge Graph(rule-based)

KGist通过查找可以解释为规则的模式(右)来总结(summarizes)KG(左)。例如,书是由出生在某个国家的作者写的这条规则,在本例中有三分之二的情况下成立(弗兰肯斯坦缺少作者),它正确地描述了一般的书。然而,相反的模式却不存在:列夫·托尔斯泰写书,艾米莉·狄金森写诗。规则的总结描述了KG的正常特征,同时揭示了奇怪和缺失的东西,例如弗兰肯斯坦周围的错误和缺失的边缘。

KGIST通过归纳总结统一表征在KGs中什么是正常的、什么是奇怪的、什么是缺失的。

关于处理知识图谱错误和缺失信息的标准方法是“知识图谱细化”,这涉及针对每种类型的错误或缺失信息定制技术,但这有很多限制,首先是针对每种错误类型和缺失类型定制技术所涉及的开发时间和成本,第二是不可能针对未知类型的错误定制方法,我们不可能为未知的错误类型开发一种方法,第三是如果我们想在知识上运行一套不同的定制技术,图有可能是非常密集的(知识图谱非常大,新的事实添加到KG中时,图谱会变得更大,使这个问题变得更糟糕)。

我们换一个角度来看待问题,我们想知道这些不同类型的奇怪和缺失的共同特征是什么,它们都是异常事实的实例,与正常事实形成对比。

在本文工作中,我们不会将这些问题视为不同的问题,而是将他们视为一个问题(即,发现异常),将问题转化为归纳总结,“总结”允许我们识别什么是正常的,然后所有不正常的都是异常,我们不太关心为什么它是异常的,尽管我们能够推理,因为它是我们所有“丢失”和“错误”信息的共同特征。

我们的模型简称为KGist, 它指出如果给定知识图谱G,我们希望找到该图G的简明摘要,并且我们希望摘要包含归纳,软规则。这些规则将作为我们对什么是正常的描述或总结,这将允许我们识别什么是异常的(规则的例外)。我们通过对问题的转换将不同的细化任务统一为一个任务,使用富有表现力的图形结构规则,使用简洁的基于最小描述长度(MDL) 的方法。

模型结构

知识图谱被视为带标记的有向图,图谱的边就是三元组(由主语、关系、宾语)组成,我们可以在数学上将它表示为邻接张量,其中张量的每个切片对应特定的关系类型,除此之外我们还有一个二元标签矩阵,它指定每个实体的标签。

首先,该论文引入一个新的规则图论公式,将规则递归定义为有根的、有向、有标记的图。

如图10左边的规则适用于书籍,它特别断言关于它们的两件事,它断言它们具有虚构的家庭角色,并且它们是由出生在某些国家的作者写的。断言关于特定节点的事情时,它会在该节点周围引发一个子图,例如图10右边所示,书规则描述的内容适用于《战争与和平》,它断言一本书应该有一些虚拟的家庭角色,它拥有五个角色,它还断言书应该由一位作者写成,列夫托尔斯泰,作者出生于俄罗斯。所以针对一个节点,会导出一个子图,通过遵循规则隐含的引导遍历来实现的,所有这些遍历的集合被称为规则正确断言。

断言的总集合是正确的断言加上规则的例外情况:

                     

根据最小描述距离,如果我们得到一些称之为G的数据,我们想找到一个描述该数据的模型M,我们希望最小化描述。描述长度分为两部分,第一是我们需要描述的模型M的位数,第二个是给定模型M描述的位数数据,我们需要多少位来描述数据,这具有一个关键优势,因为我们正在尝试最小化它,从而形成一个更小的模型,可以更容易地使用我们的模型来改进大型知识图谱。这涉及四个步骤,第一步是定义模型是什么/定义模型空间,第二步是推导或定义描述的长度以及第三步模型下数据的描述长度,第四步是从模型空间中选择一个模型,即最小化描述长度的模型。

             

因此我们现在可以重新表述我们的问题,给定知识图谱的最小描述链接原则,我们希望找到简洁的归纳规则集M,使描述长度最小化,如果这里的M是我们的规则集,那么这些规则用于描述什么是正常的,然后描述链接的那部分昂贵的部分将揭示什么是异常的。

第一步再次是定义模型是什么,我们将非常简单的将其定义为一组规则,每个规则都有正确的断言,这些正确的断言首先用于描述图的结构,再次是引导遍历,所以其导出的子图的边缘已经由规则描述,它还描述了一些语义,因为它揭示了诱导子图中的标签。

第二步是推导描述长度,我们得到的信息有独立信息(图中结点数、边数)、图谱摘要模型(一组规则)以及规则的例外,我们使用它们来完善标签矩阵和张量矩阵。

我们通过对独立信息中的规则与例外,来填充标签矩阵和张量矩阵。

                 

下一步是驱动找到这样一个模型的方法,模型是一组规则,所以我们可以想象所有可能规则的集合或者代替候选规则和任何子集候选规则是一个有效模型,问题是这些规则呈指数增长,因此为了避免枚举或搜索的指数空间,我们将从简单的候选规则开始,简单的意思是它们只断言一件事并将它们组合成更复杂和更具表现力的东西。

所以第一步是生成这些候选规则,我们将通过迭代图来做到这一点,每次遇到边时,我们解释它的规则,例如如果我们遇到一个演奏音乐的人,那么我们将生成描述该示意图结构的规则,因此我们也有可能生成作者写的书、城市制造的车和山脉属于地方。

例如,边缘(《战争与和平》,作者是列夫·托尔斯泰)可以用“书是作者写的”和“作者写书”这样的规则来解释。分别为д1 = ({Book}, {writtenBy,→,({Author},∅)})和д2 = ({Author}, {writtenBy,←,({Book},∅)})。为了避免候选规则爆发,允许规则拥有节点标签的任意子集,我们在这里只生成每个节点具有单个标签的原子规则,并在下一步考虑更多的标签组合。

下一步是对模型中考虑的规则进行排名,并将通过测量它们压缩图的程度来实现,当我们计算出这个压缩值,我们将根据它们实现的压缩量对它们进行排名,并考虑按照这个顺序来建模。描述长度通过添加规则而获得减少那么我们将保留,如果描述长度增加了,那么我们会把它扔掉。

所以此时我们找到一些简单规则,我们想让这些规则更具表现力,所以我们将介绍两个细化步骤,第一个是合并细化,如果我们有作者写的书和出版商出版的书,那么我们可以将它们合并为一个规则。第二个规则是嵌套,如果我们有“山脉位于地方”的规则,和“轨迹包含地方”的规则时(第二条规则不是很准确,因为有很多地方它们不包含在轨迹中),我们可以通过嵌套使其更准确,嵌套后它只适用于山区、自然地区这些更有可能具备轨迹特征的地方。

在对候选规则C进行排序后,KGist初始化M =∅,并按照排序顺序考虑每个g∈C,以便包含在M中。对于每个规则g,它计算L(G, M∪{g}),即如果将д添加到当前模型中,则MDL目标。如果这小于没有规则的MDL成本L(G, M)(例如,规则g正确地解释了G的新部分),那么KGist将在M中添加g。如果g有一个相反的版本(例如,“书是由作者写的”和“作者写书”),KGist会同时考虑这两个版本,并选择给出较低MDL成本的那个。

Rn首先在每个兼容的дin和дr t之间计算匹配的内部节点和根节点的正确断言起点的Jaccard相似性(即,它量化了节点的“适合度”)。例如,如果一个规则断言“书有作者”(gin),而另一个规则断言“作者有出生地”(grt),那么将在书的作者集合和有出生地的作者集合上计算Jaccard相似性。然后,细化考虑按Jaccard相似度降序嵌套规则,导致规则дr t被包含到规则дin中,后者成为其祖先。

我们现在讨论如何利用由KGist挖掘的模型M(即规则摘要)来识别KG中奇怪或异常的内容,无论它是错误的还是缺失的——这是KG研究中的两个关键任务。异常检测旨在识别与规范不同的对象。在我们的案例中,学习摘要简明地描述了KG的正常情况。

直觉上,违反规则的节点和无法解释的边很可能是异常的。接下来,我们通过在信息理论术语中定义实体(节点)和关系(边)的异常分数,使这种直觉更具原则性。

最后进行异常检测,首先是违反很多规则的节点很可能是异常的,我们可以通过将结点花费的比特数相加来捕获这一点。

另外对于边来说,它的异常由两部分组成,第一是模型未解释的边可能是异常的,第二具有异常端点更多的边可能是异常的。

我们将二者相加,可以保证异常边不会获得相同的分数。

实验结果

结论

    本文提出了一种统一的、信息论的KG表征方法KGist,解决了我们提出的用MDL进行归纳总结的问题。KGist用一组可解释的归纳规则描述了KG中的正常情况,我们以一种新的图论方式定义了这些规则。规则例外,以及概要未能描述的KG部分揭示了KG中奇怪和缺失的内容。KGist以一种原则性的、统一的方式检测各种异常类型和不完整信息,同时随着KG中的边数几乎线性缩放——这一特性使其能够应用于大型的、现实世界的KG 。

2.Knowledge Graph Error Detection with Hierarchical Path Structure

现有的KG错误检测方法利用实体和关系的嵌入,或直接利用实体之间的路径来测试三元组的合理性,而忽略了实体之间路径中包含的有价值的层次信息。实际上,一对实体之间的路径符合层次结构。

具体来说,两个实体之间可能有多条路径,每条路径由几个关系组成。层次结构能够提供宝贵的信息,并且有利于以细粒度的方式利用路径信息。为此,本文提出了一种新的基于分层路径结构的KG错误检测模型(以下简称HEAR)。特别是,对于给定的三元组,HEAR首先使用路径中包含的关系学习路径表示,然后集成所有路径表示,最后预测三元组的合理性。最后,我们针对各种最先进的基线广泛验证了HEAR的优越性。
KG的建设或富集通常采用自动化方法,这不可避免地带来了大量的噪声。噪声可能会降低下游应用程序的性能。因此,检测KG中的错误是一个必要的问题。在文献中,现有的KG误差检测方法利用实体和关系的嵌入,或直接利用实体之间的路径信息检测噪声,而忽略了路径信息的层次结构。实际上,给定实体对之间的路径符合层次结构,如图1的前两个块所示。特别是,两个实体之间可能存在许多路径,并且每个路径由几个关系组成。这项工作背后的动机受到先前研究的启发[6,21,28,29],这些研究表明,数据固有的层次结构提供了细粒度的学习过程,有利于在机器学习任务中获得更好的性能。为此,我们的目标是利用分层路径结构来检测KG中的错误。

本文提出了一种新的基于层次路径结构的KG错误检测模型(以下简称HEAR)。具体来说,HEAR利用两级层次结构来检测KG中的噪声。特别是,对于给定的一对实体,HEAR首先学习包含其中关系的每个路径的表示。这个过程利用每个路径中的信息,也就是本地级信息。然后,HEAR将所有路径表示整合成一个统一的向量,该向量对给定实体对之间的所有路径信息进行编码。这个过程利用实体对之间的所有路径信息,也就是全局级信息。最后,HEAR用统一的表示来预测(h,𝑟,𝑡)三元组的可信性,该表示编码了h和𝑡之间的层次路径结构。

主要贡献:

•我们发现了一对实体之间的路径信息的两级层次结构。

•我们提出了HEAR,它能够利用分层路径结构进行KG错误检测。

•我们在基准数据集上验证了HEAR与最先进竞争方法的有效性。

相关工作

传统方法基于规则检测KG误差[1,16]。然而,这些方法是不可推广的,因为不同的kg可能有不同的规则,涉及领域知识。除了这些方法之外,现有的KG误差检测方法大致分为两类。

(1)基于嵌入的方法[4,11,22,25,27]。这些方法首先将实体和关系投影到低维向量中,然后基于嵌入预测三元组的合理性。TransE是这一类中应用最广泛的方法,它假设(h,𝑟,𝑡)成立时h+r≈t。DistMult[25]和ComplEx[20]将(h,𝑟,𝑡)三元组的分数分解为若干张量。分数越高,这三件事越有可能是真的。

(2)基于路径的方法[8,11,23]。这些方法利用KG中的路径信息来判断一个三元组是否为真。PTransE[11]将TransE中的翻译假设扩展到路径级别。在PTransE的基础上,CKRL[23]为每个三元组计算一个置信分数,同时使用局部三元组置信度和全局路径置信度。

KGTtm[8]综合了嵌入信息和路径信息来预测三重可信性。此外,一些作品[12,13]利用外部信息进行KG错误检测。由于所提出的方法只使用了KG信息,因此我们不侧重于与这些方法进行比较。基本上,我们的方法属于第二类。与现有方法不同的是,该方法将实体对之间的路径视为一个层次结构,并利用该结构中有价值的路径信息进行错误检测。

提出的HEAR模型利用分层路径结构进行KG误差检测。该模型如图1所示。具体地说,为了预测一个给定三元组(h,𝑟,𝑡)的合理性,提出的HEAR模型遵循三个步骤。

(1)路径检索。在这一步中,HEAR检索到h和𝑡之间的路径。具体来说,实体对之间的路径可以使用广度优先搜索(BFS)、深度优先搜索(DFS)或其他启发式方法获得。在本文中,我们没有关注实体对之间的路径搜索,因此我们在实验中直接使用了DFS。

(2)层次路径表示。在这一步中,所提出的模型计算一个统一的路径表示来编码在h和𝑡之间所有的路径。具体来说,HEAR首先获得每个路径的表示及其包含的关系。然后,HEAR进一步得到了h和𝑡之间所有路径的统一表示。通过这种方式,路径信息被分层利用,统一的表示能够编码所有在h和𝑡之间的路径信息。

(3)关系评价。在这一步中,将统一的路径表示和𝑟的嵌入连接在一起,并馈送到一个两层感知器网络中。感知器网络的输出是一个范围从0到1的置信度分数。分数越高,这个三元组越有可能是真的。下面,我们将介绍HEAR的细节。

层次路径表示

 Local level information:为了利用分层路径结构,HEAR首先利用本地级信息,即每个单独路径中的信息。具体来说,我们首先遵循TransE[4]来获得实体和关系的嵌入。

TransE假设对于(h,𝑟,𝑡)三元组,h + r和t应该是接近的。我们用下面的方程来测量h + r和t之间的距离,

在获得关系表示后,我们进一步计算每条路径的表示,将其中包含的对应关系相加,

Global level information.

通过利用局部级信息,我们获得了每条路径的表示。由于头部h和尾部𝑡之间可能存在多条路径,因此我们进一步利用全局信息,即,在h和𝑡之间的所有路径。由于不同的路径对于表示正反对之间的路径信息具有不同的重要性,我们根据以下三点确定每条路径的重要性

(1)平均距离(AD)我们沿路径计算了三元组的平均距离

其中,AD(h,𝑝i,𝑡)表示𝑖-th路径的平均距离。我们采用平均距离作为确定路径重要性的重要特征。直觉是,平均距离值小的路径是高质量的路径,也就是说,这些路径不太可能包含假三元组。因此,这些路径往往更为重要。

(2)路径距离(PD)。根据TransE和Eq.(2)的平移假设,当存在一条从h到𝑡的高质量路径时,我们得到h + p i≈t。定义𝑝的路径距离为

   

路径距离值越小的路径质量越高,在表示正反对之间的整体路径信息时应该发挥更重要的作用。

(3)路径约束资源分配(RA)。我们遵循路径约束资源分配算法[10],该算法能够衡量给定实体对的路径重要性。具体来说,该算法假设有一定数量的资源与头部实体相关联,并且会沿着路径流动,最后一部分资源会到达尾部实体𝑡。

对于实体𝑒∈E𝑗,资源𝑅𝑝i(𝑒)的计算公式如下:

E𝑗−1(·,𝑒)为𝑒的直接前身,E𝑗(𝑒',·)为𝑒'的直接后继。|·|是集合的基数。我们将初始资源设置为h as𝑅𝑝i (h) = 1。𝑅𝑝i(𝑡)表示资源沿路径𝑝i流向尾部𝑡。我们采用𝑅𝑝𝑖(𝑡)作为路径约束资源分配值,也就是说,𝑅𝐴(ℎ,𝑝𝑖,𝑡)=𝑅𝑝𝑖(𝑡)。数值越高表示越重要。

我们用以上三个因素来确定路径的重要性。具体来说,我们将上述三个值连接成一个长度为3的向量,然后将该向量馈送到一个两层感知器网络,得到查询向量qi,如下所示:

接下来,我们使用点积注意力来得到统一的路径向量,

关系评估

最后,为了预测三元组的合理性,HEAR将统一路径向量P和关系嵌入r连接起来,进入两层感知器网络,输出置信分数范围为0到1。

我们采用置信度感知的边际损失来优化模型参数,

实验

    我们根据置信度得分对所有测试三元组进行排序,并使用排序度量对上述方法进行评价。采用Precision@𝐾和Recall@𝐾作为度量标准。具体来说,前者表示置信度得分最高𝐾最低的三元组中发现的假三元组的百分比,而后者表示已识别的假三元组占总错误三元组的百分比。

(1)所提出的HEAR模型在所有指标上均优于所有基线,证明了所提出方法的有效性和优越性。(2)我们发现HEAR算法的性能优于其他基于路径的方法CKRL和KGTtm,这表明我们更好地利用了路径信息。(3) HEAR算法优于HEAR-one算法,且差值较大,说明利用分层路径结构对更精确的KG误差检测是有价值的

结论

在本文中,我们提出了一种新的基于路径的KG误差检测模型。HEAR将实体对之间的路径视为层次结构,并利用该结构检测KG中的异常。具体来说,HEAR首先根据路径中包含的关系学习每个单独路径的表示,然后通过整合实体对之间的所有路径表示来学习统一的路径向量。最后,HEAR用统一的路径表示预测每个三元组的置信度得分。对三个基准数据集的评估表明了HEAR的有效性。

3.Triple Trustworthiness Measurement for Knowledge Graph

(基于路径)

背景

两个“不可避免” 知识图谱在构建中不可避免的引入噪声和冲突 基于知识图谱的任务假设知识图谱中的知识是完全正确的,不可避免的会带来潜在的偏差

两个“挑战” 对于KG中的一条知识,特别是来自专业领域的知识,没有经过实践检验或没有严格的数学证明,很难清楚地确定是否正确。 知识图谱中的实体之间存在着错综复杂的关系,不同实体之间可以发生相同的关系,多个关系可以同时关联到同一个实体 。

本文想要建立一个知识图谱三元组可信度度量模型 , 量化知识图谱的语义正确性和所表达事实的真实程度。模型是一个神经网络结构 它综合三元组中的内部语义信息和KG的全局推理信息, 实现实体级、关系级、KG全局级三个层次上的可信性度量和融合。

对于KG中的一项知识,特别是来自专业领域的知识,如果没有经过实践检验或没有严格的数学证明,就很难清楚地确定它是否正确。因此,我们引入了KG三元组可信度的概念,它表示三元组所表达的知识是真实的确定程度。它的值被设置在区间[0,1]内。该值越接近0,该三元组出错的可能性就越大。在此基础上,我们可以发现现有知识库中可能存在的错误,提高知识库的知识质量。

本工作的主要贡献包括:

(1)我们提出了一种综合利用三元组语义信息的知识图谱三元组可信度测量方法,并提出了一种基于知识图谱的三元组可信度测量方法 。我们可以在实体级、关系级和知识图谱全局级实现三个层次的度量和置信度值的集成。

(2)我们在真实世界的大型KG Freebase创建的基准数据上实证验证了三元组可信度的有效性。实验结果表明,错误或噪声实例被赋予较低的置信度值,同时对真三元组具有较高的可信度。

(3) KGTtm计算的可信度可用于知识图谱的构建或改进。

基于交叉神经网络结构提出了知识图谱的三重可信度测量(KGTtm)模型,如图1所示。纵向上可分为两个层次。upper是一个由多个可信度估计单元(Estimator)组成的池。这些估计器的输出形成较低能级聚变装置(fusion)的输入。Fusioner是一个多层感知器,用于为每个三元组生成最终的可信度值。横向上看,对于给定的三元组“h;r;t”,我们从三个递进的层次来考虑三元组的可信度,并相应回答三个层次问题。

1)实体对“h;t”之间是否存在可能的关系?

2)实体对“h;t”之间是否存在某种关系r ?

3)从全局角度看,KG中的其他相关三元组是否可以推断出该三元组是可信的?

为了回答这些问题,我们设计了三种估计器,如下所述。

[实体层面]实体对之间可能存在关系吗?

本文根据资源分配的思想,提出了一种算法ResourceRank。

算法思想:如果实体对(h,t)之间的关联更强,更多的资源会在图中从头部h通过所有关联路径传递到尾部t。 聚合到t的资源数量巧妙地表示了从h到t的关联强度。

算法主要包括三个步骤: ①构建以头部实体h为中心的有向图。 ②迭代图中资源的流向直到收敛并计算出尾部实体t的资源保留值。 ③综合其他特征并输出(h, ?,t)的可能性。

基于PageRank算法模拟资源流动直至分布稳定。尾部实体上的资源值为R(t|h)计算如下:

我们构造一个特征向量V。经过激活函数后,向量被转化为一个概率值RR(h,t),表示头实体h和尾实体t之间可能存在一种或多种关系的可能性:

[关系层面]关系r是否会发生实体对(h,t)之间?

上述估计器只能测量实体对之间发生不确定关系的可能性,而不能测量是哪种关系。

受词嵌入空间中的平移不变性现象的启发,将KG中的关系视为实体之间的某种平移; 即关系向量r作为头实体嵌入h和尾实体嵌入t之间的转换操作。

比如:一个值得信赖的三元组(h,r,t),应该满足h + r ≈ t。(TransE)

算法主要包括2个步骤: ①利用表示学习技术实现实体或关系的低维分布式表示。②使用修改后的sigmoid函数将E(h,r,t)转换为实体对(h,t)构成关系r的概率。

δr是一个与关系r相关的阈值 λ是一个用于平滑的超参数,可以随着模型训练动态调整。

[KG全局层面]KG中的相关三元组能否推断三元组是值得信赖的?

受“社会身份”理论的启发,做一个比喻:将KG视为一个社会群体,其中每个三元组都是一个个体。其他个体对目标个体(目标三元组)的认同程度反映了目标个体是否能恰当地融入社会(KG)。

我们设计了一个可达路径推理算法来满足它。从头实体到尾实体之间存在大量的多步路径,这些路径表明了三元组之间的语义相关性和复杂的推理模式。

例如,如图4所示,实体对“本拉登”和“沙特阿拉伯”之间存在多条可达路径。根据路径“本·拉登->Riyadh->沙特阿拉伯”,我们只能推断出事实三重(本拉登,国籍,沙特阿拉伯)。此外,我们假设在KG中有一个伪三元组(本拉登,宗教,基督教)。相关路径将非常少且不合逻辑,我们应该怀疑这个元组的可信度。相比之下,我们可以找到正确的三元组(本拉登,宗教,伊斯兰教),因为它得到了很好的确认,这取决于多个可到达的路径。为了利用可达路径来推断三元组可信度,我们需要解决两个关键挑战.

可达路径选择:在大规模的KG中,与三元组相关联的可达路径的数量可能是巨大的。对所有路径进行权衡是非常消耗资源的。同时,并不是所有的路径都是有意义和可靠的。

可达路径表示:选择路径后,需要将每条路径映射为低维向量,以便后续计算。我们考虑路径中整个三元组,不仅包括关系,还包括头、尾实体,每个三元组的三个元素的嵌入被连接成一个单元。

我们使用RNNs来学习路径中包含的语义信息。RNN层通过考虑从s1到st的前向信息对st进行编码。 我们使用输出向量ht的值来表示每条路 径的语义信息,缝合输出的ht将topk条路径中的h拼接在一 起形成一个向量 。

融合三个估计器得到最终的三元组置信度

将前面三部分的输出拼接成每个三元组s=(h,r,t)的特征向量f(s)。

向量f(s)将输入到融合器中,并通过多个隐藏层进行转换。输出层是一个二元分类器,将y=1的标签分配给真元组,将y=0的标签分配给假元组。

实验

噪声/错误从哪来?

考虑到现实世界中大多数错误来自相似实体之间的误解的经验。

将正三元组中的一个实体或关系被三元组集合中的另一个实体或关系随机替换,确保替换后生成的负三元组不在三元组集合中。

 

 

虽然是很多年前的文章了,但是用作三元组的质检还是一个很好的思路,考虑了三个方面的置信度检测,并且整个部分是非耦合的,可解释性也比较好。

GitHub地址:

https://github.com/TJUNLP/TTMF

4.Does William Shakespeare REALLY Write Hamlet? Knowledge RepresentationLearning with Confidence

背景

知识图(Knowledge graph, KGs)可以提供实体之间的基本关系信息,在各种知识驱动应用中得到了广泛的应用。由于人类的整体知识是无数的,并且仍然是爆炸性的增长和频繁的变化,知识的构建和更新不可避免地涉及到人工监督较少的自动机制,这通常会给知识库带来大量的噪声和冲突,而传统的知识表示学习方法大多假设现有知识库中所有的三事实都具有相同的意义,不存在任何噪声。为了解决这一问题,我们提出了一种新的信心感知知识表示学习框架(CKRL),该框架可以在学习知识表示的同时检测到知识表示中可能存在的噪声。具体来说,我们将三元组置信度引入到传统的基于翻译的知识表示学习方法中。为了使三元组置信度更具灵活性和通用性,我们只利用了KGs的内部结构信息,并提出了考虑局部和全局结构信息的三种三元组置信度。在实验中,我们对我们的模型在知识图噪声检测、知识图补全和三重分类方面进行了评价。实验结果表明,我们的置信度感知模型在所有任务上都取得了显著且一致的改进,这证实了基于结构信息的CKRL建模置信度在KG噪声检测和知识表示学习方面的能力。

Q:可信的知识图谱构建方法去哪找?

①、传统的知识图谱构建方法通常需要大量的人工监督或专家标注,费时费力。

②、自动化机制和众包在知识构建中所占比重较大,而这些方法由于人工监督的有限性,可能存在噪音和冲突。

③、大多数传统的KRL方法都假设现有的知识图谱是绝对正确的。

Q:本文想做什么事情?

①、我们试图检测现有知识图谱中可能的噪声和冲突,同时构建无噪声的知识表示。

②、综合考虑局部三元组和全局路径信息,通过全局一致性和多步路径推理,提出了三种三元组置信度表示。

③、为了使我们的三元组置信度更具有普适性和实用性 ,我们在模型中只考虑KG构建后的内部结构信息。

Q:最后做成啥样了?

我们在知识图谱噪声检测知识图谱补全三元组分类3个任务上评估了我们的模型。实验结果表明,模型在所有任务上都取得了最好的性能。(2017年)

RELATION WORK

Q:别人是如何对三元组进行质检的?

噪声的存在似乎是不可避免的,并且会强烈影响知识的获取,因此噪声检测在知识构建和知识应用中必不可少。

①、大多数知识图谱噪声检测发生在构建知识图谱的过程中。

②、YAGO2 在人类监督下从维基百科中提取知识。

③、Wikidata还依赖于一个众包的人类决策软件。

④、DBpedia通过全球范围内的众包创建到维基百科信息框的映射。

这些大规模KGs中的噪声检测通常涉及巨大的人力努力,这是极其劳动密集型和耗时的。

Q:本文的方法相比别人的方法?

①、本文提出的三元组置信度既可以在知识图谱构建过程中计算,也可以在构建后从多个方面来计算,支持信息包括包括KG结构等内部信息和文本证据等外部信息。

②、我们尝试检测噪声并学习更好的三元组置信度的知识表示,更 多地关注那些高置信度的三元组。

Q:概况一下三元组置信度怎么计算?

三元组置信度 = 局部置信度 + 全局路径置信度 = 局部置信度 + 先验路径置信度 + 自适应路径置信度。

置信度感知的KRL框架

基于翻译的框架下,设计感知置信度的KRL函数:

①、与TransE相同,相异度得分越低,表明其对应的三元组能更好地符合翻译假设。

②、与传统方法不同的是,我们还引入三元组置信作为能量函数的第二部分。较高的三元组置信度意味着该三倍中的关系知识更可信。

目标函数

我们采用基于差值的评分函数,并将负采样也作为训练目标。该目标函数试图使正三元组的评分高于负三元组的评分。

 对于成对训练,由于知识图谱中没有显式的负三元组, 我们对负三元组进行采样,这些负三元组遵循以下规则:

 一句话概况:正三元组中的一个实体或关系被三元组集合中的另一 个实体或关系随机替换,确保替换后生成的负三元组不在三元组集合中。

三元组局部置信度

 假设一个三元组越符合翻译规则,就越应该考虑这个三元组。首先直接使用相同的成对函数计算三元组质量,三元组质量得分越高,通常表明三元组质量越好。

在训练过程中存在实体和关系的嵌入优化,局部置信度(LT)应该根据三元组质量动态的变化。

局部三元组置信将以几何速率下降,而随着常数的添加而增加。这是因为我们强烈要求对违反翻译规则的行为进行惩罚,因为那些三元组更有可能是噪声。

全局路径置信度

仅仅关注三元组内部将无法利用知识图谱中丰富的全局结构信息。关系路径可以为三元组提供丰富的全局信息作为支持证据。

关系路径可靠性

当一条关系路径承载更多的首尾实体信息流时,它应该被认为更重要。假设存在某些与头实体h相关的资源,这些资源将通过所有的关系路径流经整个知识图谱。给定实体对(h, t),最终通过某条路径p流向尾部实体t的资源量将被认为是p的关系路径可靠性。

先验路径置信度

利用关系和路径的共现性来表示它们的不相似性。

我们假设,在路径中出现的关系越多,它们就越有可能代表相似的语义。

P(r, Pi)表示r和p共同出现的先验概率。

P(Pi)表示p的先验概率。

由于我们只考虑了路径和关系的先验概率,因此在训练过程中,先验路径置信度是固定的。

表明先验路径置信度(h,r,t)取决于S(h,t)中所有路径的关系路径相似性及其对应的关系路径可靠性。

自适应路径置信度

为解决KGs中先验路径置信度在训练过程中保持静态且受噪 声和冲突约束的问题,提出了一种自适应路径置信度。

根据学习到的嵌入信息灵活地学习关系路径质量。

由于我们假设关系嵌入与路径嵌入相似,因此Q值更低意味着一个置信度高的关系-路径对。

 

总的三元组置信度

EXPERIMENTS

 

 

5.Contrastive Knowledge Graph Error Detection

背景

知识图(KG)错误引入不可忽略的噪声,严重影响与KG相关的下游任务。检测kg中的错误是具有挑战性的,因为错误的模式是未知的和多样化的,而基础真值标签是罕见的甚至不可用的。传统的解决方案是构建逻辑规则来验证三元组,但由于不同的KGs具有不同的规则和涉及的领域知识,因此无法推广。最近的研究主要集中在基于KG嵌入损失设计定制检测器或排序三元组。

然而,它们都依赖于负样本进行训练,负样本是通过随机替换现有三元组的头或尾实体生成的。这样的负抽样策略是不够的原型实际KG误差,例如,(bruce lee, place_of_birth, China),其中这三个元素通常是相关的,尽管不匹配。我们希望为KG错误检测定制一种更有效的无监督学习机制。为此,我们提出了一种新的框架——对比知识图错误检测(CAGED)。将对比学习引入到KG学习中,为KG建模提供了一种新的方法。CAGED没有遵循传统的设置,即将实体视为节点,将关系视为语义边,而是通过将每个关系三元组视为节点,将KG扩展到不同的超视图中。经过与KG嵌入和对比学习损失的联合训练,CAGED基于两个学习信号,即三元组跨多视图表示的一致性和三元组内部的自一致性,来评估每个三元组的可信度。在三个真实世界的KG上进行的大量实验表明,CAGED在KG误差检测方面优于最先进的方法。

相关工作存在的问题:
基于规则的方法通用性差
通过随机替换的方法构建的负样本质量较低
创新点:
知识图谱建模方式
引入对比学习进行置信度评估
集成跨视图的三元组表示一致性和三元组表示内部一致性
问题定义:
如何构建两个不同的三元组视图
如何为错误检测任务构建合适的错误感知图形编码器
贡献:
集成了对比学习和知识图谱嵌入模型
提出一种适用于三元组级别的用于错误检测的数据增强方法
提出一种门控注意力机制阻止错误信息传播

实验

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值