16.(2022.6.8)FuzzyQE:知识图上基于模糊逻辑的逻辑查询回答

Fuzzy Logic Based Logical Query Answering on Knowledge Graphs

Abstract

在大规模不完整知识图(KG)上回答复杂的一阶逻辑(FOL)查询是一项重要但具有挑战性的任务。最近的进展是在同一个空间中嵌入逻辑查询和KG实体,并通过密集相似性搜索进行查询回答。然而,以往研究中设计的大多数逻辑算子都不满足经典逻辑的公理体系,限制了它们的性能。此外,这些逻辑运算符是参数化的,因此需要许多复杂的FOL查询作为训练数据,而在大多数现实世界的知识图谱中,这些数据通常很难收集甚至无法访问。因此,我们提出了FuzzyQE,这是一种基于模糊逻辑的逻辑查询嵌入框架,用于回答KG上的FOL查询。FuzzyQE遵循模糊逻辑,以一种有规则且无学习的方式定义逻辑运算符,其中只有实体和关系嵌入需要学习。FuzzyQE可以进一步受益于用于训练的带标签的复杂逻辑查询。在两个基准数据集上进行的大量实验表明,与最先进的方法相比,FuzzyQE在回答FOL查询方面提供了明显更好的性能。此外,仅使用KG链接预测训练的FuzzyQE可以达到与使用额外复杂查询数据训练的FuzzyQE相当的性能。

1.Introduction

知识图谱提供关于现实世界实体和关系的结构化表示。KG的一项基本任务是回答涉及逻辑推理的复杂查询,例如,使用存在量词 (∃)、合取 (∧)、析取 (∨) 和取反 (¬) 回答一阶逻辑 (FOL) 查询.例如,问题“谁演唱了约翰·列侬或保罗·麦卡特尼创作但从未获得格莱美奖的歌曲?”可以表示为图 1 中所示的 FOL 查询。

由于 KG 的大小和不完整,该任务具有挑战性。FOL查询回答已作为数据库社区中的图查询优化问题进行研究。这些方法遍历 KG 以检索每个子查询的答案,然后合并结果。尽管被广泛研究,但这些方法并不能很好地解决上述挑战。时间复杂度随着查询复杂度呈指数增长,并受中间结果大小的影响。这使得它们难以扩展到现代 KGs,其中实体通常数以百万计。例如,Wikdata是最具影响力的 KG 之一,当子查询(例如,出生在德国的人)中的实体数量超过某个阈值时,他们的查询引擎会失败。此外,现实世界中的 KGs 通常是不完整的,这导致无法通过搜索 KGs 直接回答许多查询。最近的一项研究表明,只有 0.5% 的足球运动员在维基数据具有高度完整的概况,而超过 40% 仅包含基本信息。

[外链图片转存失败,源站可能有防盗链机制,建议将图片保存下来直接上传(img-zea4rklm-1682343630121)(img/1.png)]

图1: FOL 查询及其依赖图,用于查询“谁演唱了约翰·列侬或保罗·麦卡特尼创作但从未获得格莱美奖的歌曲?”。

为了解决时间复杂性和 KG 完整性的挑战,最近的一系列研究将逻辑查询和实体嵌入到同一个向量空间中。 其思想是使用依赖图(图 1)表示查询,并通过迭代计算从锚实体到目标节点的嵌入来嵌入复杂的逻辑查询以自下而上的方式。连续且有意义的实体嵌入使这些方法能够处理缺失的边缘。此外,这些模型显着降低了推理的时间和空间复杂性,因为它们减少了对查询的密集相似性匹配的查询回答和实体嵌入,并可以使用最大内积搜索 (MIPS) 等方法加快速度。

尽管如此,这些方法仍然存在一些局限性:首先,这些模型中的逻辑运算符通常是临时定义的,并且许多不满足基本逻辑法则(例如,结合法则 $(\psi_1 ∧\psi_2)∧\psi_3 ≡ \psi_1 ∧(\psi_2 ∧\psi_3 )
$。 对于逻辑公式 ψ 1 , ψ 2 , ψ 3 \psi_1, \psi_2, \psi_3 ψ1,ψ2,ψ3),这限制了它们的推理精度。其次,现有方法的逻辑运算符基于深层架构,需要许多包含此类逻辑运算的训练查询来学习参数。由于收集大量具有准确答案的合理复杂查询的挑战,这极大地限制了模型的应用范围。

我们的目标是创建一个满足逻辑规律并提供无学习逻辑运算符的逻辑查询嵌入框架。我们特此介绍FuzzyQE,一种基于模糊逻辑的嵌入框架,用于回答知识图谱上的逻辑查询。我们借用模糊逻辑的思想,使用模糊合取、析取和否定,以更有原则和免学习的方式实现逻辑运算符。与现有方法相比,我们的方法具有以下优势:(i) FuzzyQE 使用完全满足逻辑运算公理的可微分逻辑运算符,并可以在向量空间中保留逻辑运算属性。这种优势通过对两个基准数据集的广泛实验进行了验证,这表明 FuzzyQE 与FOL查询中的最先进方法相比提供了明显更好的性能。 (ii) 我们的逻辑运算不需要学习任何特定于运算符的参数。我们进行实验表明,即使我们的模型只接受链接预测训练,它也比使用额外复杂查询数据训练的最先进的逻辑查询嵌入模型获得更好的结果。这代表了现实世界应用程序中的巨大优势,因为复杂的 FOL 训练查询通常很难收集。

此外,当有复杂的训练查询可用时,FuzzyQE 的性能可以进一步增强。除了提出这种新颖有效的框架外,我们还提出了逻辑查询嵌入模型应具备的一些基本属性,并分析了现有模型是否可以满足这些条件。该分析为未来基于嵌入的逻辑查询应答模型的研究提供了理论指导。

2.Related Work

将知识图 (KG) 中的实体嵌入到连续嵌入中已得到广泛研究,它可以回答单跳关系查询通过链接预测。但是,这些模型无法处理具有多跳或复杂逻辑推理的查询。Hamilton 等人因此提出了图形查询嵌入 (GQE) 框架通过以关系投影和合取 (∧) 作为运算符的依赖图对合取查询进行编码。Ren、Hu 和 Leskovec通过使用框嵌入来表示实体集来扩展 GQE,他们在其中定义析取 (∨)运算符以支持存在正一阶(EPFO)查询。孙等同时建议将集合表示为可以支持合取和析取运算符的计数最小草图。最近,Ren 和 Leskovec通过将查询和实体集建模为 beta 分布,进一步包括了否定运算符 (¬)。 Friedman 和 Van den Broeck将 FOL 查询回答扩展到概率数据库。这些查询嵌入模型已经显示出有希望的结果,可以在时间和空间方面有效地对不完整的知识图谱进行多跳逻辑推理;然而,我们发现这些模型不满足布尔逻辑或模糊逻辑的公理,这限制了它们的推理准确性。为了解决这个问题,我们的方法借鉴了模糊逻辑,并使用模糊合取、析取和取反运算来定义向量空间中的逻辑运算符。

除了上述逻辑查询嵌入模型,最近的一项工作 CQD 提出训练一个基于嵌入的 KG 补全模型(例如 ComplEx)以在推理过程中估算缺失的边并使用 t-范数和 t-conorms 合并实体排名。使用波束搜索进行推理,CQD 展示了从 KG 边缘泛化到任意 EPFO 查询的强大能力。然而,CQD 存在严重的可扩展性问题,因为它涉及为每个原子查询对每个实体进行评分。这在现实世界的应用程序中是不可取的,因为现实世界 KG 中的实体数量通常以数百万计。此外,其推理精度因此受到 KG 链接预测性能的限制。相比之下,我们的模型具有高度可扩展性,并且当额外的复杂查询可用于训练时,其性能可以进一步增强。

3.Preliminaries

知识图 (KG) 由一组三元组 ⟨ e s , r , e o ⟩ ⟨e_s, r, e_o⟩ es,r,eo 组成,其中 e s , e o ∈ E e_s, e_o \in \mathcal{E} es,eoE(实体集)分别表示主体和客体实体, r ∈ R r \in \mathcal{R} rR(关系集)表示 e s e_s es e o e_o eo的关系。在不失一般性的情况下,知识图谱可以表示为一阶逻辑 (FOL) 知识库,其中每个三元组 ⟨ e s , r , e o ⟩ ⟨e_s, r, e_o⟩ es,r,eo 表示原子公式 r ( e s , e o ) r(e_s, e_o) r(es,eo),其中 r ∈ R r \in \mathcal{R} rR 表示二元谓词, e s , e o ∈ E e_s, e_o \in \mathcal{E} es,eoE 作为它的参数。

我们的目标是回答用存在量词 (∃)、合取 (∧)、析取 (∨) 和否定 (¬) 表示的 FOL 查询。 FOL 查询 q q q的析取范式 (DNF) 定义如下:

q [ V ? ] ≜ V ? : ∃ V 1 , . . . , V k ( v 11 ∧ . . . ∧ v 1 N 1 ) ∨ . . . ∨ ( v M 1 ∧ . . . ∧ v M N M ) q[V_?] ≜ V_? : ∃V_1, ..., V_k(v_{11}∧...∧v{1N_1} )∨...∨(vM_1∧...∧v_{MN_M} ) q[V?]V?:V1,...,Vk(v11...v1N1)...(vM1...vMNM)

其中 V ? V_? V?为查询的目标变量, V 1 , . . . , V K V_1, ..., V_K V1,...,VK表示有界的变量节点。每个 v m n ( m = 1 , . . . , M , n = 1 , . . . , N m ) v_{mn} (m=1, ..., M, n=1, ..., N_m) vmn(m=1,...,M,n=1,...,Nm) 代表一个算子,即一个逻辑原子或逻辑原子的否定。

3.1-3.2

3.3. Fuzzy Logic

模糊逻辑与布尔逻辑的不同之处在于将每个逻辑公式与 [0, 1] 中的真值相关联。模糊逻辑系统通常保留布尔逻辑的公理,保证在真值为0或1时所有的逻辑运算行为都与布尔逻辑一致。当真值在 (0, 1) 中时,不同的模糊逻辑系统会加入不同的公理来定义逻辑运算行为。 一个t-范数: ⊤ : [ 0 , 1 ] × [ 0 , 1 ] → [ 0 , 1 ] ⊤ : [0, 1] \times [0, 1] \rightarrow [0, 1] :[0,1]×[0,1][0,1] 表示模糊逻辑中的广义合取。 t-范数的突出示例包括 Godel t-范数 ⊤ m i n { x , y } = m i n ( x , y ) ⊤_{min}\{x, y\}=min(x, y) min{x,y}=min(x,y)、乘积 t-范数 ⊤ p r o d { x , y } = x y ⊤_{prod}\{x, y\} = xy prod{x,y}=xy 和 Łukasiewicz t-范数 ⊤ Ł u k a s i e w i c z ( x , y ) = m a x { 0 , x + y − 1 } ⊤_{Łukasiewicz}(x , y) = max\{0, x + y − 1\} Łukasiewicz(x,y)=max{0,x+y1}, 对于 x , y ∈ [ 0 , 1 ] x, y \in [0, 1] x,y[0,1]。任何其他连续的t-范数都可以描述为这三个基本范数的序数和。类似地,t-conorm与t-范数对偶,用于模糊逻辑中的析取——给定 t-conorm ⊤ ⊤ ,根据德摩根定律,t-conorm 定义为 ⊥ ( x , y ) = 1 − ⊤ ( 1 − x , 1 − y ) ⊥(x, y) = 1−⊤(1−x, 1−y) (x,y)=1(1x,1y),对于 x , y ∈ [ 0 , 1 ] x, y \in[0, 1] x,y[0,1],否定 n ( x ) = 1 − x n(x) = 1−x n(x)=1x。这种技术启发了许多后来的作品。例如,CQ使用 t-范数和 t-conorms 对 KG 上的查询回答实体进行排名。

4.Methodology

在本节中,我们提出了我们的模型 FuzzQE,这是一个在存在缺失边的情况下回答 FOL 查询的框架。 FuzzQE 将查询嵌入为模糊向量。逻辑运算符通过嵌入空间中的模糊合取、模糊析取和模糊否定来实现。

4.1 模糊空间中的查询和实体

预测实体是否可以回答查询意味着预测实体属于该查询的答案集的概率。在我们的工作中,我们将查询和实体嵌入到模糊空间 [ 0 , 1 ] d [0, 1]^d [0,1]d 中,它是 R d \mathbb{R^d} Rd 的一个子空间。

查询嵌入 考虑一个查询 q q q和它的模糊答案集 S q S_q Sq,它的嵌入 S q \mathbf{S}_q Sq被定义为一个模糊向量 S q ∈ [ 0 , 1 ] d \mathbf{S}_q \in [0, 1]^d Sq[0,1]d。直观地说,让 Ω \Omega Ω表示所有元素的全集,让 { U i } i = 1 d \{U_i\}^d_{i=1} {Ui}i=1d表示对 Ω \Omega Ω的划分,即 Ω = ∪ i = 1 d U i \Omega=\cup^d_{i=1}U_i Ω=i=1dUi U i ∩ U j = ∅ ( i ≠ j ) U_i \cap U_j=∅(i \neq j) UiUj=(i=j) S q \mathbf{S}_q Sq的每个维度 i i i表示对应的子集 U i U_i Ui是否是答案集 S q S_q Sq的一部分的概率,即 S q ( i ) = P r ( U i ⊆ S q ) \mathbf{S}_q(i) = Pr(Ui ⊆ Sq) Sq(i)=Pr(UiSq)

实体嵌入 对于实体​ e e e,我们考虑其来自相同模糊空间的嵌入 p e \mathbf{p}_e pe,即 p e ∈ [ 0 , 1 ] d \mathbf{p}_e \in [0, 1]^d pe[0,1]d。为了对其不确定性建模,我们将其建模为属于每个子集 U i U_i Ui的分类分布,即 p e = P r ( e ∈ U i ) \mathbf{p}_e=Pr(e \in U_i) pe=Pr(eUi) ∑ i = 1 d p e ( i ) = 1 \sum^d_{i=1}\mathbf{p}_e(i)=1 i=1dpe(i)=1

得分函数 ϕ ( q , e ) \phi(q, e) ϕ(q,e)定义为 e e e属于模糊集 S q S_q Sq的期望概率:
ϕ ( q , e ) = R e   P e [ e ∈ S q ] = ∑ i = 1 d P r ( e ∈ U i ) P r ( U i ⊆ S q ) = S q ( i ) p e ( i ) \begin{aligned} \phi(q, e)&=\mathbb{R}_{e~\mathbf{P}_e}[e \in S_q] \\ &= \sum^d_{i=1}Pr(e \in U_i)Pr(U_i \subseteq S_q) \\ &= \mathbf{S}_q(i)\mathbf{p}_e(i) \end{aligned} ϕ(q,e)=Re Pe[eSq]=i=1dPr(eUi)Pr(UiSq)=Sq(i)pe(i)
注意对于FuzzQE中的查询嵌入,全1向量 1 \mathbf{1} 1表示全集(即 Ω \Omega Ω),全零向量 0 \mathbf{0} 0表示空集∅。

上述的嵌入和评分提供了以下好处:(i)实体和关系的表示被赋予了概率解释.(ii)嵌入向量的每个维度都在 [ 0 , 1 ] [0, 1] [0,1]之间,满足域和模糊逻辑的范围要求,并允许模型执行逐元素的模糊合取/析取/取反。鉴于L1归一化可能对实体嵌入施加稀疏性,我们还探索采用L2归一化来改进嵌入学习,即 ∑ i = 1 d p e 2 ( i ) = 1 \sum^d _{i=1} \mathbf{p}^2_e (i) = 1 i=1dpe2(i)=1

4.2 原子查询的关系投影

q = C o m p o s e ( J o h n   L e n n o n , V ? ) q = Compose(John~Lennon, V_?) q=Compose(John Lennon,V?)这样的原子查询充当复杂查询的构建块。为了嵌入原子查询,我们将每个关系 r ∈ R r \in \mathcal{R} rR与投影算子 P r \mathcal{P}_r Pr相关联,它由具有权重矩阵 W r ∈ R d × d \mathbf{W}_r \in \mathbb{R}^{d×d} WrRd×d 和偏置向量 b r ∈ R d \mathbf{b}_r \in \mathbb{R}^d brRd的神经网络建模,并把锚实体嵌入 p e \mathbf{p}_e pe查询转换为查询嵌入:
S q = P r ( p e ) = g ( L N ( W r p e + b r ) ) \mathbf{S}_q = \mathcal{P}_r(\mathbf{p}_e) = g(LN(\mathbf{W}_r \mathbf{p}_e + \mathbf{b}_r)) Sq=Pr(pe)=g(LN(Wrpe+br))

其中LN是层归一化操作, g : R d → [ 0 , 1 ] d g:\mathbb{R}^d \rightarrow [0,1]^d g:Rd[0,1]d是一个约束 S q ∈ [ 0 , 1 ] d \mathbf{S}_q \in [0,1]^d Sq[0,1]d的映射函数。特别地,我们为 g g g考虑了两种不同的选择:(1)逻辑斯蒂函数: g ( x ) = 1 1 + e − ( x ) g(x)=\frac{1}{1+e^{-(x)}} g(x)=1+e(x)1, (2)有界变换函数: g ( x ) = m i n ( m a x ( 0 , x ) , 1 ) g(x)=min(max(0, x),1) g(x)=min(max(0,x),1)。我们将在实验部分进行比较。

我们遵循(Schlichtkrull et al. 2018)并采用基础分解来定义 W r \mathbf{W}_r Wr b r \mathbf{b}_r br
W r = ∑ j = 1 K α r j M j ;     b r α r j v j \mathbf{W}_r=\sum^K_{j=1}\alpha_{rj}\mathbf{M}_j;~~~\mathbf{b}_r\alpha_{rj}\mathbf{v}_j Wr=j=1KαrjMj;   brαrjvj

即, W r \mathbf{W}_r Wr作为K个基变换 M j ∈ R d × d \mathbf{M}_j \in \mathbb{R}^{d×d} MjRd×d 的线性组合,其系数 α r j \alpha_{rj} αrj取决于 r r r。类似地, b r \mathbf{b}_r br是K个基向量 v j ∈ R d \mathbf{v}_j \in \mathbb{R}^d vjRd 与系数 α r j \alpha_{rj} αrj的线性组合。这种形式防止了参数数量随关系数量的快速增长,并减轻了对稀有关系的溢出。它可以被视为不同关系类型之间有效权重共享的一种形式。从一组投影到另一组的原子查询可以类似地嵌入。

原则上,任何具有足够表达力的神经网络或基于转换的 KG 嵌入模型都可以用作我们框架中的关系投影算子。

4.3 基于模糊逻辑的逻辑运算符

模糊逻辑在数学上等同于模糊集理论,模糊合取等价于模糊交集,模糊析取等价于模糊并集,模糊否定等价于模糊补集。因此可以使用模糊逻辑来定义对模糊向量的操作。正如第3.3节所讨论的,三个最著名的基于t-范数的逻辑系统是乘积逻辑、哥德尔逻辑和Łukasiewicz逻辑。参考乘积逻辑,FuzzQE计算 q 1 ∧ q 2 , q 1 ∨ q 2 q_1 \wedge q_2, q_1 \vee q_2 q1q2,q1q2和¬ q q q的嵌入如下:
q 1 ∧ q 2 : C ( S q 1 , S q 2 ) = S q 1 ⊙ S q 2 q 1 ∨ q 2 : C ( S q 1 , S q 2 ) = S q 1 + S q 2 − S q 1 ⊙ S q 2 ¬ q : N ( S q ) = 1 − S q \begin{aligned} q_1 \wedge q_2: \mathcal{C}(\mathbf{S}_{q_1}, \mathbf{S}_{q_2}) &= \mathbf{S}_{q_1} \odot \mathbf{S}_{q_2} \\ q_1 \vee q_2: \mathcal{C}(\mathbf{S}_{q_1}, \mathbf{S}_{q_2}) &= \mathbf{S}_{q_1} + \mathbf{S}_{q_2} - \mathbf{S}_{q_1} \odot \mathbf{S}_{q_2} \\ ¬q: \mathcal{N}(\mathbf{S}_{q}) &= 1 - \mathbf{S}_{q} \end{aligned} q1q2:C(Sq1,Sq2)q1q2:C(Sq1,Sq2)¬q:N(Sq)=Sq1Sq2=Sq1+Sq2Sq1Sq2=1Sq

其中 ⊙ \odot 表示逐元素乘法(模糊连接), 1 \mathbf{1} 1是全1向量, C D , N \mathcal{C}\mathcal{D},\mathcal{N} CD,N分别表示基于嵌入的逻辑运算符。

或者,可以基于哥德尔逻辑来设计合取和析取运算符,如下所示:
q 1 ∧ q 2 : C ( S q 1 , S q 2 ) = m i n ( S q 1 , S q 2 ) q 1 ∨ q 2 : C ( S q 1 , S q 2 ) = m a x ( S q 1 , S q 2 ) \begin{aligned} q_1 \wedge q_2: \mathcal{C}(\mathbf{S}_{q_1}, \mathbf{S}_{q_2}) &= min(\mathbf{S}_{q_1},\mathbf{S}_{q_2}) \\ q_1 \vee q_2: \mathcal{C}(\mathbf{S}_{q_1}, \mathbf{S}_{q_2}) &= max(\mathbf{S}_{q_1},\mathbf{S}_{q_2}) \\ \end{aligned} q1q2:C(Sq1,Sq2)q1q2:C(Sq1,Sq2)=min(Sq1,Sq2)=max(Sq1,Sq2)

其中 min和max分别表示元素最小值和最大值 操作。我们在这里省略了Łukasiewicz逻辑,因为它的输出域主要集中在 { 0 , 1 } \{0, 1\} {0,1}中,这会导致查询嵌入学习问题。关于这三个逻辑系统的更多讨论可以在附录F中找到。

4.4 模型学习和推理

给定查询 q q q,我们优化以下目标:
L = − l o g σ ( 1 Z q ϕ ( q , e ) − γ ) − 1 k ∑ i = 1 k l o g σ ( γ − 1 Z q ϕ ( q , e ′ ) ) L=-log \sigma(\frac{1}{Z_q}\phi(q,e)-\gamma)-\frac{1}{k}\sum^k_{i=1}log\sigma(\gamma-\frac{1}{Z_q}\phi(q,e')) L=logσ(Zq1ϕ(q,e)γ)k1i=1klogσ(γZq1ϕ(q,e))
其中 e ∈ S q e \in S_q eSq是查询的答案, e ′ ∉ S q e′\notin S_q e/Sq表示随机负样本, γ \gamma γ表示边距。 Z q Z_q Zq是一个基于L2范数的缩放因子,引入它是为了在训练期间平衡查询之间的边距敏感性。在损失函数中,我们使用k个随机负样本并优化平均。我们寻求最大化 e ∈ S q e \in S_q eSq ϕ ( q , e ) \phi(q, e) ϕ(q,e)和最小化 e ′ ∈ S q e' \in S_q eSq ϕ ( q , e ′ ) \phi(q, e') ϕ(q,e)。对于模型推理,给定查询 q q q,FuzzQE将其嵌入为 S q \mathbf{S}_q Sq并按 ϕ ( q , ⋅ ) \phi(q, ·) ϕ(q,⋅)对所有实体进行排序。

4.5 理论分析

对于 FuzzQE,我们在附录A中给出了以下命题和证明。

命题1. 我们的合取运算符 C \mathbf{C} C是可交换的、结合的,并且满足合取消除。

命题2. 我们的析取算子 D \mathbf{D} D是可交换的、结合的,并且满足析取放大。

命题3. 我们的否定算子 N \mathbf{N} N是对合的并且满足非矛盾。

5.Experiments

在本节中,我们评估 FuzzQE 对不完整 KG 回答复杂 FOL 查询的能力。

5.1 评估设置

数据集. 我们在提供的两个基准数据集上评估我们的模型,这两个基准数据集分别包含FB15k-237上的14种类型的逻辑查询。数据集中的14种查询结构如图3所示。请注意,BetaE提供的这些数据集是Query2Box提供的数据集的改进和扩展版本。与早期版本相比,Ren和Leskovec的新数据集包含5种涉及否定的新查询类型。重新生成原始9个查询类型的验证/测试集,以确保每个查询的答案数量不会过多,这使得该任务更具挑战性。在新的数据集中,10个查询结构被用于训练和评估:1p, 2p, 3p, 2i, 3i, 2in, 3in, inp, pni, pin。4个查询结构(ip, pi, 2u, up)不用于训练,而只包含在评估中,以评估模型在回答使用模型在训练中从未见过的逻辑结构的查询的泛化能力。我们排除了FB15k,因为该数据集存在重大测试泄漏。有关数据集的统计数据汇总在附录D中。

评估方案. 我们遵循(Ren and Leskovec 2020)中的评估方案。为了评估模型在不完整KGs上的泛化能力,数据集被屏蔽,以便每个验证/测试查询答案对至少包含一个缺失边。对于测试查询的每个答案,我们使用平均倒数秩(MRR)作为主要的评估度量。我们使用过滤设置,并在计算MRR之前从排名中过滤掉其他正确答案。

评估方案我们遵循(Ren and Leskovec 2020)中的评估方案。为了评估模型在不完整KGs上的泛化能力,数据集被屏蔽,以便每个验证/测试查询答案对至少包含一个缺失边。对于测试查询的每个答案,我们使用平均倒数秩(MRR)作为主要的评估度量。我们使用过滤设置(Bordes et al . 2013),并在计算MRR之前从排名中过滤掉其他正确答案。

Baselines和模型配置. 我们考虑了三个逻辑查询嵌入基线来回答KGs上的复杂逻辑查询:GQE , Query2Box和BetaE。我们还比较了最近最先进的查询优化模型CQD。对于GQE, Query2Box和BetaE,我们使用(Ren和Leskovec 2020)提供的实现。对于BetaE和CQD,我们与通常提供更好性能的模型变体BetaEDNF和CQDBEAM进行比较。CQD在训练过程中不能处理复杂的逻辑查询,因此使用KG边进行训练。据我们所知,BetaE是唯一可用的基线,可以处理否定。因此,对于GQE、Query2Box和CQD,我们只在EPFO查询(有∃、∧、∨且无否定的查询)上与它们比较。

对于FuzzQE,我们使用在验证集上提供最佳平均MRR的逻辑系统报告结果。我们使用AdamW作为优化器。在等待15k步的情况下,训练基于验证集的平均MRR以提前结束。我们用不同的随机种子重复每个实验三次,并报告平均结果。附录E给出了超参数和更多的实验细节。

5.2 主要结果:使用FOL查询进行训练

我们首先测试了当复杂的逻辑查询可用于训练时,FuzzQE对任意FOL查询进行建模的能力。结果如表3所示。

与查询嵌入的比较. 如表3所示,FuzzQE始终优于所有逻辑查询嵌入基线。对于EPFO查询,FuzzQE将最佳基线BetaE (Ren and Leskovec 2020)的平均MRR在FB15k-237上提高了3.3%(约15%的相对改进),在NELL995上提高了4.7%(约19%的相对改进)。对于带有否定的查询,FuzzQE明显优于唯一可用的基线BetaE。对于包含否定的查询,FuzzQE在FB15k-237上的MRR平均提高了3.0%(相对54%),在NELL995上提高了2.1%(相对36%)。我们假设这种显著的增强来自于我们的否定算子满足公理的原则性设计,而BetaE未能满足非矛盾性。

CQD. 接下来,我们将FuzzQE与最近关于EPFO查询的baseline进行比较。平均而言,FuzzQE对FB15k-237和NELL995的MRR分别有2.5%和0.9%的绝对改善。

值得注意的是,在NELL995上,FuzzQE在大多数复杂的查询结构上优于CQD,即使它的1p查询应答性能略差。我们假设NELL995上的1p查询应答性能差异来自于不同的关系投影/链接预测模型对稀疏知识图编码能力的差异。

学习逻辑查询嵌入的一个主要动机是它的高推理效率。我们在回答查询的时间方面与CQD进行比较。在NVIDIA®GP102 TITAN Xp (12GB)上,CQD回答FB15k-237上的FOL查询的平均时间为13.9ms,而FuzzQE仅需0.3ms。在NELL995上,实体数量是FB15k-237的4倍,CQD的平均时间为68.1ms,而FuzzQE只需要0.4ms。CQD比FuzzQE花费的时间长170倍。

原因是CQD需要对每个子查询的所有实体进行评分,以获得光束搜索的前k个候选对象。

5.3仅用链接预测训练

本实验测试了模型在仅用链接预测任务训练时泛化到任意复杂逻辑查询的能力。为了评估它,我们只使用KG边(即1p查询)训练FuzzQE和其他逻辑查询嵌入模型。对于基线模型GQE、Query2Box和BetaE,我们根据(Ren, Hu, and Leskovec 2020)中讨论的Q2B-A VG-1P模型的实验设置对它们进行调整。具体来说,我们将本次实验的所有子查询权重设置为1.0。

如表4所示,FuzzQE能够推广到新查询结构的复杂逻辑查询,即使它是在链接预测上进行训练的,并且提供比基线模型更好的性能。与最佳基线相比,FuzzQE在FB15k-237上将EPFO查询的平均MRR提高了3.6%(相对20%),在NELL995上提高了5.4%(相对26%)。对于带有否定的查询,我们的模型在数据集上的性能大大优于唯一可用的基线BetaE。此外,与使用复杂FOL查询训练的模型(见表3)相比,仅使用链接预测训练的FuzzQE在平均MRR方面优于使用额外复杂逻辑查询训练的BetaE模型(见表3),这一点毫无价值。这说明了FuzzQE中逻辑运算符的优越性,它是按原则和无学习的方式设计的。同时,FuzzQE仍然可以利用额外的复杂查询作为训练样本来增强实体嵌入。

6.结论

我们提出了一种新的逻辑查询嵌入框架FuzzQE来回答KGs上的复杂逻辑查询,我们的模型FuzzQE借用了模糊逻辑中的运算,并以一种有原则的、无需学习的方式实现了逻辑运算符。大量的实验表明,FuzzQE在回答KGs上的逻辑查询方面具有很好的能力,结果令人鼓舞,并建议进行各种扩展,包括将逻辑规则引入嵌入学习,以及研究谓词模糊逻辑系统和其他更深层次转换架构的潜在用途。未来的研究还可以使用定义的逻辑运算符来整合逻辑规则,以增强KGs上的推理能力。此外,我们有兴趣共同学习逻辑查询、自然语言问题、实体标签的嵌入,以增强KGs上的问答能力。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值