论文整理：Probabilistic Logic Neural Networks for Reasoning

最新推荐文章于 2024-06-14 09:51:45 发布

hopkinhopkin

最新推荐文章于 2024-06-14 09:51:45 发布

阅读量2k

点赞数 4

分类专栏：算法笔记文章标签：知识图谱逻辑推理

本文链接：https://blog.csdn.net/weixin_43253562/article/details/109339769

版权

算法笔记专栏收录该内容

3 篇文章 0 订阅

订阅专栏

论文整理：Probabilistic Logic Neural Networks for Reasoning

这篇论文是将马尔可夫逻辑网络用到知识图谱补全任务。
马尔可夫逻辑网络传送门

摘要

基于原则逻辑规则的方法是马尔可夫逻辑网络(MLN)，它能够利用一阶逻辑的领域知识，同时处理不确定性。然而，由于复杂的图结构，多层神经网络的推理通常非常困难。与多层神经网络不同，知识图嵌入方法(如TransE、DistMult)学习有效的实体和关系嵌入进行推理，更加有效和高效。然而，他们无法利用领域知识。

本文提出了概率逻辑神经网络，它结合了两种方法的优点。pLogicNet通过使用具有一阶逻辑的马尔可夫逻辑网络来定义所有可能三元组的联合分布，该网络可以通过变分EM算法来有效地优化。在E-步骤中，使用知识图嵌入模型来推断缺失的三元组，而在M-步骤中，基于观察到的和预测的三元组来更新逻辑规则的权重。在多个知识图上的实验证明了pLogicNet在多个竞争基线上的有效性。

问题定义

知识图谱中是事实的集合，一个三元组表示为 $(h, r, t)$ ，通常，给定一个知识图谱 $(E, R, O)$ ， $R$ 是关系集合， $E$ 是实体集合， $O$ 是观察到的事实集合，目标是用已知的三元组去推理缺失的三元组。这个问题可以用概率的方法去重新表述：每一个三元组 $(h, r, t)$ 都关联着一个二元指示变量 $v_{(h,r,t)}$ ， $v_{(h,r,t)}=1$ 证明 $(h, r, t)$ 是true，否则， $v_{(h,r,t)}=0$ ，给定一些真的事实 $v_O = \{v_{(h,r,t)} = 1\}_{(h,r,t)∈O}$ ，我们的目标是去预测隐藏的三元组的标签是什么： $v_H = \{v_{(h,r,t)}\}_{(h,r,t)∈H}$ 。

我们致力于去学习观察到的和隐藏的三元组的联合分布 $p(v_O, v_H)$ 。

马尔可夫逻辑网络（MLN）

在MLN中，马尔可夫网络被设计来定义观察到的和隐藏的三元组的联合分布，其中势函数由一阶逻辑定义。逻辑包括：

组合规则（composition rules）：一个关系 $r_k$ 是 $r_i$ 和 $r_j$ 的组合，意味着对于任何三个实体 $x$ ， $y$ ， $z$ ，如果 $\forall x,y,z\in E，v_{( x,r_i,y)} \wedge v_{(x,r_i,y)} \Rightarrow v_{(x,r_k,z)}$
反向规则（Inverse Rules）： $\forall x,y\in E，v_{(x,r_i,y)} \Rightarrow v_{(y,r_j,x)}$
对称规则（Symmetric Rules）: $\forall x,y \in E，v_{(x,r,y)} \Rightarrow v_{(y,r,x)}$
子关系规则（Subrelation Rules）: $\forall x,y \in E，v_{(x,r_i,y)} \Rightarrow v_{(x,r_j,y)}$

对于每个逻辑规则l，我们可以通过用知识图中的真实实体实例化逻辑规则中的实体占位符来获得一组可能的基础 $G_l$ 。例如，对于子关系规则 $\forall x,y∈E，v_{(x,Born in,y)} \Rightarrow v_{(x,Live in,y)}$ ，这个规则的基础 $G_l$ 可以是 $v_{(Einstein,Born in,German)} \Rightarrow v_{(Einstein,Live in,German)}$ 和 $v_{(Newton,Born in,UK)} \Rightarrow v_{(Newton,Live in,UK)}$ ，我们可以看到前为真，后为假。为了去控制逻辑规则的不确定性，马尔可夫逻辑网络为每个规则 $l$ 引入一个权重 $w_l$ ，然后所有三元组的联合分布定义如下:

$p(v_O , v_H)=\frac{1}{Z} exp(\sum_{l\in L}w_l \sum_{g \in G_l}1\{ g is true\})= \frac{1}{Z} exp(\sum_{l \in L}w_l n_l (v_O, v_H ))$ ，

其中， $n_l$ 是基于 $v_O$ 和 $v_H$ 值的逻辑规则 $l$ 的真值groundings（基础数）。有了这样的公式，预测缺失的三联体本质上就变成了推断后验分布 $p(v_H|v_O)$ 。由于复杂的图结构，精确推理通常是不可行的，因此通常使用近似推理。

知识图谱嵌入

与基于逻辑规则的方法不同，知识图嵌入方法通过观察到的事实 $v_O$ 来学习实体和关系的嵌入，然后通过学习到的实体和关系嵌入来预测缺失的事实。通常来说，每个实体 $e \in E$ 和关系 $r \in R$ 都与一个嵌入的 $x_e$ 和 $x_r$ 相关联。那么所有三元组的联合分布被定义为:

$p(v_O, v_H) = \prod_{(h,r,t) \in O \bigcup H} Ber(v_{(h,r,t)}| f(x_h , x_r, x_t))$

其中，Ber是标准的伯努利分布， $f(x_h,x_r,x_t)$ 计算了真值三元组 $（ h, r, t)$ 的概率， $f ()$ 函数是在实体和关系嵌入上的得分函数。例如TranE， $f$ 为 $\sigma （\gamma - ||x_h+x_r-x_t ||）$ ,其中 $\sigma$ 是激活函数、 $\gamma$ 是混合bias。

然后最大化 $log p(v_O=1,v_H=0)$ 。整个优化过程使用随机梯度下降。

在这里插入图片描述

黄色圆圈是观察（ $v_O$ ）到的三元组，灰色圆圈是隐藏（ $v_H$ ）的三元组，他们由一套逻辑规则(每个规则有一个红色权重)连接起来。

对于中心三元组，KGE模型通过嵌入预测其指标，而逻辑规则考虑三元组的马尔可夫毯(所有连接的三元组)。在E-step中，我们使用逻辑规则来预测中心指标，并将其作为KGE模型的额外训练数据。在M-step中，我们用KGE模型标注所有隐藏的指标，然后更新规则的权重。

模型

变分EM（Variational EM）

给定一组一阶逻辑规则 $L=\{l_i\}_{i=1}^{|L|}$ ，我们用一个马尔可夫逻辑网络去建模联合分布：

$p_w(v_O , v_H)=\frac{1}{Z} exp(\sum_{l \in L}w_l n_l (v_O, v_H ))$

其中， $w_l$ 是规则l的权重。这个模型可以用最大化观察到的指示器变量log似然函数来训练： $log p_w(v_O)$ 。但是，直接优化是有困难的，因此转化为下面的公式：

$\log p_w(v_O) \geq L(q_{\theta},p_{w}) = E_{q_{\theta}}(v_H)[\log p_{w}(v_O,v_H)- \log q_{\theta}(v_H)]$

其中，隐含变量 $v_H$ 的变化分布为 $q_{\theta}(v_H)$ ，当 $q_{\theta}(v_H)$ 和真实的后验分布 $p_{w}(v_H|v_O)$ 相等的时候，上述等式成立。上述下界可以用EM算法来有效地优化，在E-step中，称为推理过程，我们固定 $p_{w}$ 并更新 $q_{\theta}$ ，去最小化 $q_{\theta}(v_H)$ 和 $p_{w}(v_H|v_O)$ 之间的KL散度。在M-step中，称为学习过程，我们固定 $q_{\theta}$ 并更新 $p_{w}$ ，去最大化所有三元组的log最大似然函数： $E_{q_{\theta}(v_H)}[\log p_{w}(v_O,v_H)]$ 。

E-step: Inference Procedure

在推理中，我们的目的是推断隐藏变量的后验分布： $p_{w}(v_H|v_O)$ ，我们使用mean-field变分分布 $q_{\theta}(v_H)$ 来近似真实的后验分布，其中，每一个 $v_{(h,r,t)}$ 独立的由 $\in H$ 推断得到。为了进一步改进推理，我们使用摊销推理（amortized inference），并且用一个KGE模型来参数化 $q_{\theta}(v_{(h,r,t)})$ ，形式上， $q_{\theta}(v_H)$ 的公式如下：

$q_{\theta}(v_H) = \prod_{(h,r,t) \in H}q_{\theta} (v_{(h,r,t)}) = \prod_{(h,r,t) \in H} Ber(v_{(h,r,t)} | f(x_h,x_r,x_t))$

通过最小化变分分布 $q_{\theta}(v_H)$ 和真的后验分布 $p_w(v_H|v_O)$ ，最佳 $q_{\theta}(v_H)$ 由定点条件给出：

$\log q_{\theta}(v_{(h,r,t)})=E_{q_{\theta}(v_{MB(h,r,t)})}[\log p_w(v_{(h,r,t)})|v_{MB(h,r,t)}] + const \quad for \quad all \quad (h,r,t) \in H$

其中 $M B (h, r, t)$ 是 $（ h, r, t)$ 的马尔科夫毯。对于上面的公式，我们的目标是找到一个分布 $q_{\theta}$ 满足条件，但是，公式的涉及 $q_{\theta}(v_{MB(h,r,t)})$ 的期望，为了简化条件，我们采用样本 $\hat{v}_{MB_{(h,r,t)}} = \{\hat{v}_{(h^\prime,r^\prime,t^\prime)}\}_{(h^\prime,r^\prime,t^\prime) \in MB(h,r,t)}$ 来估计期望。特别的，如果对每一个 $(h^\prime,r^\prime,t^\prime) \in MB(h,r,t)$ ，如果它是obversed， $\hat{v}_{MB_{(h,r,t)}}=1$ ，否则， $\hat{v}_{MB_{(h,r,t)}}～q_{\theta}(v_{(h^\prime,r^\prime,t^\prime)})$ ，以这种方式，优化条件可以简单概述为 $q_{\theta}(v_{(h,r,t)}) ≈ p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})$ 。

直观上，对于每个隐含的三元组 $(h, r, t)$ ，KGC模型通过实体和关系的嵌入（即 $q_{\theta} (v_{(h,r,t)})$ 来预测 $v_{(h,r,t)}$ ,而逻辑规则利用与 $(h, r, t)$ 相连的三元组 $p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})$ 进行预测。如果任何与 $(h, r, t)$ 相连的三元组 $(h^\prime,r^\prime,t^\prime)$ 没有观察到，则用样本 $\hat{v}_{(h^\prime,r^\prime,t^\prime)} ～q_{\theta}(v_{(h^\prime,r^\prime,t^\prime)})$ 来填充。然后，简化的最优条件告诉我们，对于最优的知识图谱嵌入模型，每一个 $(h, r, t)$ 的 $v_{（h,r,t)}$ 分布，应和逻辑规则达成一致，即 $q_{\theta}(v_{(h,r,t)}) ≈ p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})$

为了去优化 $q_{\theta}$ ，我们通过当前的 $q_{\theta}$ 去计算 $p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})$ ，接着，我们将值作为目标，更新 $q_{\theta}$ 去最小化 $q_{\theta}(v_{(h,r,t)}) 和 p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})$ 的KL散度，有以下目标：

$O_{\theta,U} = \sum_{(h,r,t) \in H} E_{p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})}[\log q_{\theta}(v_{(h,r,t)})]$

为了去优化这个目标，首先对每个隐藏的三元组 $(h, r, t)$ 计算 $p_w(v_{(h,r,t)}|\hat{v}_{MB(h,r,t)})$ ，如果 $p_w(v_{(h,r,t)}=1|\hat{v}_{MB(h,r,t)}) ≥ a$ ，其中 $a$ 是超参数，我们便将 $(h, r, t)$ 作为一个正例，训练知识图谱嵌入模型，去最大化对数似然函数 $\log q_{\theta}(v_{(h,r,t)}=1)$ ，否则三元组将被视为反例，这样，由逻辑规则捕获的知识可以有效地提取到知识图谱嵌入模型中。

我们也可以用 $O$ 中观察到的三元组作为实证来增强知识图嵌入模型。因此，我们还优化了以下目标函数:

$O_{\theta,L}=\sum_{(h,r,t) \in O} \log q_{\theta}(v_{(h,r,t)}=1)$

因此，我们得到了 $q_{\theta}$ 的总体目标函数 $O_\theta=O_{\theta,U}, + O_{\theta,L}$ 。

M-step: Learning Procedure

在学习过程中，我们固定 $q_\theta$ ，通过最大化对数似然估计函数来更新逻辑规则的权重，即 $E_{q_{\theta}}(v_H)[\log p_{w}(v_O,v_H)]$ 。但是直接优化是非常困难的，因为我们需要去处理分段函数 $Z$ ，因此我们使用伪极大似然函数来代替优化：

$\ ( h , r , t ) ) ] = E q θ ( v H ) [ ∑ h , r , t log ⁡ p w ( v ( h , r , t ) ) ∣ v M B ( h , r , t ) ] l_{PL} \triangleq E_{q_\theta(v_H)}[\sum_{h,r,t} \log p_{w}(v_{(h,r,t)}|v_{O \cup H \backslash (h,r,t)})] = E_{q_{\theta}(v_{H})}[\sum_{h,r,t} \log p_w(v_{(h,r,t)})|v_{MB(h,r,t)}]$

其中第二个等式是在MLN方程中的独立性导出的，我们通过梯度下降算法优化 $w$ ，对每个期望的条件分布 $E_{q_{\theta}(v_{H})}[\sum_{h,r,t} \log p_w(v_{(h,r,t)})|v_{MB(h,r,t)}]$ ，假设 $v_{(h,r,t)}$ 通过一组规则与 $v_{MB(h,r,t)}$ 连接，对一个这样的规则 $l$ ，相对于 $w_l$ 的导数计算如下：

$\bigtriangledown_{w_l}E_{q_{\theta}(v_{H})}[\sum_{h,r,t} \log p_w(v_{(h,r,t)})|v_{MB(h,r,t)}] \simeq y_{(h,r,t)}-p_{w}(v_{(h,r,t)}=1| \hat{v}_{MB(h,r,t)})$

其中，如果 $(h, r, t)$ 是显式三元组，那么 $y_{(h,r,t)}=1$ ；如果 $(h, r, t)$ 是隐式三元组，那么 $y_{(h,r,t)}= q_\theta (v_{(h,r,t)}=1| \hat{v}_{MB(h,r,t)})$ ， $\hat{v}_{MB(h,r,t)}=\{ \hat{v}_{(h^\prime,r^\prime,t^\prime)}\}_{(h^\prime,r^\prime,t^\prime) \in MB(h,r,t)}$ 是 $q_\theta$ 的一个例子。如果对每一个 $(h^\prime,r^\prime,t^\prime) \in MB(h,r,t)$ ，如果它是obversed， $\hat{v}_{(h^\prime,r^\prime,t^\prime)}=1$ ，否则， $\hat{v}_{(h^\prime,r^\prime,t^\prime)}～q_{\theta}(v_{(h^\prime,r^\prime,t^\prime)})$ 。

直观来说，对每个观察到的三元组 $\in O$ ,我们寻求最大化 $p_{w}(v_{(h,r,t)}=1| \hat{v}_{MB(h,r,t)})$ ，对每一个隐式三元组 $\in H$ ，我们把 $q_\theta (v_{(h,r,t)}=1$ 作为 $p_{w}(v_{(h,r,t)}=1| \hat{v}_{MB(h,r,t)})$ 目标。

实验结果

hopkinhopkin

关注

4
点赞
踩
10

收藏

觉得还不错? 一键收藏
1
评论
论文整理：Probabilistic Logic Neural Networks for Reasoning

论文整理：Probabilistic Logic Neural Networks for Reasoning这篇论文是将逻辑网络用到知识图谱补全任务。摘要基于原则逻辑规则的方法是***马尔可夫逻辑网络(MLN)***，它能够利用一阶逻辑的领域知识，同时处理不确定性。然而，由于复杂的图结构，多层神经网络的推理通常非常困难。与多层神经网络不同，知识图嵌入方法(如TransE、DistMult)学习有效的实体和关系嵌入进行推理，更加有效和高效。然而，他们无法利用领域知识。本文提出了概率逻辑神经网络，它结合
复制链接

扫一扫