CIKM 2021:《Differentially Private Federated Knowledge Graphs Embedding》

无敌过桥米线

已于 2023-06-26 09:40:37 修改

阅读量259

点赞数

分类专栏：联邦学习论文解读文章标签：知识图谱 embedding 人工智能

于 2023-06-25 20:13:04 首次发布

本文链接：https://blog.csdn.net/fake_face/article/details/131307506

版权

联邦学习同时被 2 个专栏收录

3 篇文章 0 订阅

订阅专栏

论文解读

2 篇文章 0 订阅

订阅专栏

CIKM 2021:《Differentially Private Federated Knowledge Graphs Embedding》

导引
简述
案例
FKGE框架
- PPAT网络
伪代码
实验
FKGE特点
代码（github）
参考

导引

知识图谱(Knowlege Graph)在医疗、金融等领域都取得了广泛的应用。我们将知识图谱定义为 $g=\{\varepsilon,R, T\}$ ，这里 $\varepsilon=\{ e_i\}_{i=1}^n$ 是由 $n$ 个实体(entity)组成的集合, $R=\{r_i \}_{i=1}^m$ 是由 $m$ 个关系(relation)组成的集合。元组集合 $T=\{(h,r,t)\in\varepsilon \times R \times \varepsilon \}$ 则建模了不同实体之间的关系。知识图谱嵌入是知识图谱在应用中非常重要的一步。我们先通过知识图谱嵌入将知识图谱中的实体和关系嵌入到embeddings向量，然后再在下游进行元组分类(triple classfication)或者链接预测(link prediction)的任务。
对于知识图谱嵌入任务我们常采用基于负采样的交叉熵函数:

$\digamma=\sum\limits_{(h,r,t) \in T} -log(\sigma(f_r(h,t)))- \gamma \Bbb E_{t^-\backsim P_h^-(\varepsilon)}log\sigma(-f_r(h,t^-))$

这里 $(h, r, t)$ 即知识图谱中存在的元组，其对应的负样本 $h,r,t^-)$ 即图谱中不存在的元组； $\sigma$ 为sigmoid函数； $P_h^-(\varepsilon)$ 为实体集 $\varepsilon$ 的负采样分布（可能是关于 $h$ )，最简单的设置为均匀分布（不过易造成“假阴性结果”，即采样实际上存在于图谱中的负样本，一种改进方法参见[2]）；超参数 $\gamma>0$ 。
这里 $f_r(h,t)$ 称为Score function(得分函数)，定义为元组 $(h, r, t)$ 存在于知识图谱的可能性。适用于常见经典知识图谱的Score function $f_r(h,t)$ 可以参考下图。
在这里插入图片描述
这里 $h, r, t$ 是 $h, r, t$ 对应的embeddings。 $Re(\cdot)$ 表示复值向量的实值部分。 $\circ$ 表示逐项乘积（即Hadamard乘积）。
在实际应用中我们常常面临一系列来自不同数据持有方的知识图谱，我们将其称为多源知识图谱（Multi-Source KG）。我们将来自 $K$ 个不同数据持有方的知识图谱集合记为

$\delta=\{g_k\}_{k=1}^K=\{\varepsilon_k,R_k,T_k \}_{k=1}^K$ ，如果能让在多个知识图谱间进行知识共享，那么很可能提高实体的嵌入质量与下游任务的表现。目前多源知识图谱融合(cross source knowlege graph fusion)领域的工作大都是需要先将多个知识图谱集中起来的。然而，在现实场景中，不同部门之间由于数据隐私的问题，共享数据是很困难的，那么联邦学习在这里就成为了一个很好的解决方案，我们称这种情况下的知识图谱为联邦多源知识图谱。
我们将联邦多源知识图谱按照数据异构程度可分为以下两种形式：联邦同领域知识图谱和联邦跨领域知识图谱

简述

这篇论文考虑的是各知识图谱之间跨领域的情况。
这种情况下因为数据更加异构，就不能单纯地对重叠实体的embeddings进行平均了。本文的靓点在于提出了一种隐私保护的对抗转换网络(privacy-preserving adversarial translation, PPAT)，可以在隐私保护的前提下完成两两知识图谱间重叠实体及关系embeddings的统一。
关键词：联邦学习；知识图谱嵌入；差分隐私；GAN

案例

如下图中所示的大学(university)、文学(literature)和宾夕法尼亚州（pennsylvania）这三个不同领域的知识图谱。这种知识图谱中也有可能出现实体重叠，比如CMU实体在大学知识图谱和宾夕法尼亚州知识图谱中就同时出现（当然在两个知识图谱中的嵌入向量是不同的）。
对于这种情况，不同的知识图谱就应当使用不同的嵌入模型。
在这里插入图片描述

不过，不论是在同领域和不同领域的情况下，都需要涉及对某些知识图谱间重叠（也称为对齐的，aligned）实体的embeddings进行统一，以提高整体的学习效果，类似于分布式优化算法中聚合的意思。
（实体对齐：通过知识融合可以将不同知识图谱中的知识进行互补融合，形成全面、准确、完整的实体描述。知识融合过程中，主要涉及到的工作就是实体对齐。）

FKGE框架

下图是FKGE的整体框架。每个知识图谱的拥有者在本地训练自己的实体和关系的嵌入，基于训练后的嵌入，FKGE从成对的KGs聚合对齐实体和关系的嵌入，然后以联邦学习的方式更新嵌入。对于来自任何一对知识图谱的对齐实体和嵌入，FKGE存在一个秘密通道来优化和的嵌入，并进一步分别改进每个知识图谱内和的嵌入。另外，FKGE提出了一种联合训练机制：通过广播来促进各方的共同进步。更具体地说，如果或得到了改进，那么它将向其他KGs广播信号来进一步提高整体结果。否则，它将会变回联合前的原始嵌入。
在这里插入图片描述

如上图就展示了使用了论文提出的PPAT网络后的整个去中心化异步训练流程。图中Train表示本地训练知识图谱嵌入模型；PPAT( $g_1$ , $g_2$ )表示用PPAT网络生成的 $g_1$ 和 $g_2$ 之间重叠部分的embeddings；KGEmb-Update表示更新之前的PPAT所产生的embeddings并再对client中所有embeddings进行训练（同Train）。如果在KGEmb-Update之后的本地评估结果没有提升，则会对client进行回退(backtrack)，也即舍弃新训练得到的embeddings并使用训练前的旧版本。

PPAT网络

接下来我们来看PPAT网络是怎么实现的。该网络利用GAN结构来辅助重叠实体embeddings的统一。给定任意两个图（ $g_i$ , $g_j$ ），论文将生成器设置于client $i$ ，判别器设置与client $j$ 。生成器的目标是将 $g_i$ 中重叠实体的embeddings转换到 $g_j$ 的嵌入空间；判别器负责区分生成器生成的人工embeddings和 $g_j$ 中的基准embeddings。在GAN训练完毕后，生成器产生的人工embeddings能够学得两个知识图谱的特征，因此可以做为 $\varepsilon_i \cap \varepsilon_j$ 与 $R_i \cap R_j$ 的原始embeddings的有效替代（此时即完成了实体以及关系的对齐，对embeddings的统一）。

在这里插入图片描述
这里需要注意的是，论文将原始GAN的判别器改为了一个学生判别器和多个教师判别器。论文在多个教师判别器的投票表决结果上加以Laplace噪声，得到带噪声的标签来训练学生判别器，这样学生判别器具有差分隐私性。而生成器又由学生判别器训练，则同样具有了差分隐私性。最终促使生成器产生带有差分隐私保护的embeddings。设生成器为
$G$ （参数为 $\theta_G$ ），学生判别器为 $S$ （参数为 $\theta_S$ ）,多个教师判别器为 $\{T_1,T_2,T_3...T_{\lvert T_\rvert} \}$ (参数为 $\theta_T^1,\theta_T^2,...\theta_T^{\lvert T \rvert}$ )。这里使用映射矩阵 $X=\{x_1,x_2,...,x_n \}$ 来表示 $g_i$ 中 $\varepsilon_i \cap \varepsilon_j$ 与 $R_i \cap R_j$ 的embeddings,用映射矩阵 $Y=\{y_1,y_2,...,y_n \}$ 来表示 $g_j$ 中 $\varepsilon_i \cap \varepsilon_j$ 的embeddings。

算法

符号说明
在这里插入图片描述

生成器损失函数

PPAT网络中生成器 $G$ 的目标是产生与 $Y$ 相似的对抗样本 $G (X)$ ,以求学生判别器 $S$ 不能够识别它们。下面这个式子是生成器的损失函数：
$l_G(\theta_G;S) = \frac{1}{n}\sum\limits_{m=1}^n log(1-S(G(x_m);\theta_S))$
这里 $G (X) = W X$ ; $S$ 是一个参数为 $\theta_S$ 的学生判别器，它同时将 $G (X)$ 和 $Y$ 作为输入。

判别器损失函数

教师判别器损失函数

教师判别器 $\{T_1,T_2,T_3...T_{\lvert T_\rvert} \}$ 的学习目标和原始GAN中判别器相似，也即区分伪造样本 $G (X)$ 和真样本 $Y$ 。唯一的不同是各个教师判别器会使用划分好的数据集来训练，第 $t$ 个教师判别器的损失函数如下：
$L_T^i(\theta_T^i;G)=-[\sum\limits_{m=1}^n log(1-T_i(G(x_m);\theta_T^i))+\sum\limits_{y_k \in D_i} log(T_i(y_k;\theta_T^i))]$
这里 $D_i$ 是 $T_i$ 对应的数据集 $X$ 和 $Y$ 的子集，满足 $\lvert D_i \rvert=\frac{n}{T}$ 且子集之间无交集。

学生判别器

而学生判别器 $S$ 的学习目标则是在给定带噪声标签的情况下，对生成器产生的真假样本进行分类。这里所谓的带噪声标签是在教师判别器的投票结果的基础上，加以随机的Laplace噪声来生成。下面的式子描述了在带噪声标签的生成机制（即所谓PATE机制）：
$PATE_\lambda(X)=\argmax\limits_{j \in \{0,1\}}(n_j(x)+V_j)$
这里 $V_0,V_1$ 为用于引入噪声的IID的Laplace分布随机变量。 $n_j(x)$ 表示对于输入 $x$ 预测类别为 $j$ 的教师数量：
$n_j(x)={\lvert \{T_i :T_i(x) = j \}\rvert} \quad for \quad j=0,1$
（此处符号不严谨， $T_i(x)$ 应该是个概率值，但意会意思即可）
学生判别器则利用带有上述标签的生成样本来训练自身。学生判别器的损失函数定义如下：
$L_S(\theta_S;T,G)=\frac{1}{n} \sum\limits_{i=1}^n [\gamma_i logS(G(x_i);\theta_S)+log(1-S(G(x_i);\theta_S))]$
这里 $\gamma_i = PATE_\lambda(x_i)$ 即教师鉴别器投票表决后生成的带噪声标签。
这样学生判别器 $S$ 由带噪声的标签训练，则具有差分隐私性。而生成器又由学生判别器训练，则同样具有了差分隐私性。最终促使生成器产生带有差分隐私保护的embeddings。

伪代码

细化KG如何嵌入
在这里插入图片描述
PPAT实现伪代码

实验

实验参数设置

数据集

在这里插入图片描述

从关联数据社区中选择了11个不同规模的KG。
来源：https://lod-cloud.net/
使用OpenKE框架使FKGE与各种KGE模型兼容。
对于每个KG，根据OpenKE框架默认将关系、实体和三元组的数量比例设置为90:5:5
注意：为了减少KGE中训练和测试的计算时间，我们从原始KG中删除了一些与对齐实体和三元组不相关的稀疏实体和三元组。详情见表2。
关联数据社区在RDF文件中提供不同KG之间的对齐实体（AE），统计数据详见表3。

超参数设置

为了模拟真实世界的异步训练而不泄漏数据，我们将每个KG设置为一个进程，并使用具有相同配置的相同类型的GPU设备在11个独立进程上实现所有比较实验。在握手过程中，我们使用进程之间的管道通信将生成的对抗样本从客户端传输到主机，并将梯度从主机传输到客户端。
考虑到计算时间和测试结果，我们将
嵌入向量的默认维度设置𝑑为𝑑= 100
测试步骤设置为epochs=1,000

根据OpenKE框架默认将
学习率设置为 learning rate = 0.5
batch size = 100

通过破坏头部或尾部实体生成阴性样本，并且
阴性样本和阳性样本的比率为1：1

对于PPAT网络基本参数设置，
batch size = 32
教师个数 teacher number = 4
学习率 learning rate = 0.02
动量momentum = 0.9
每个KG epoch = 1000 以获得最初的最佳分数和嵌入，然后激活联邦单位。

隐私设置

$\lambda=0.05$
$\delta=10^{-5}$
预估所有的 $\epsilon$ 的上界 $\hat{\epsilon}=2.73$
在每一轮的联邦训练中 $\alpha(l)$ 在ActiveHandshake中的最大值 $\alpha(l)=0.29$
设置 $\frac{1}{\delta}=11.5$ 和 $l = 9$
根据公式（1）可以求的 $\hat{\epsilon}$ 的上界 $\hat{\epsilon}=2.73$
$\hat{\epsilon}=\min\limits_{l}\frac{\alpha(l)+log(\frac{1}{\delta})}{l} \ \ (1)$
（其中 $\alpha(l)$ 等于第 $l$ 时刻的时间）
其中 $\alpha(l)$ 由（2）求得
$\alpha(l)=\alpha(l)+\min\{2\lambda^2l(l+1),log((1-q)(\frac{1-q}{1-e^{2\lambda}q})^l)+qe^{2\lambda l})\} \ \ (2)$
其中 $q$ 是中间值来自(3)求得到
$q=\frac{2+\lambda\lvert n_0-n_1 \rvert}{4\exp(\lambda\lvert n_0-n_1 \rvert)} \ \ (3)$

评估指标

FKGE框架是兼容不同类型的KGE的框架。我们从OpenKE中选择流行且简单的基于翻译的模型，包括TransE，TransH，TransR和TransD以评估KGE两个经典测试任务下不同方法训练的嵌入的质量：三元组分类和链接预测。
对于三元组分类，我们应用准确度作为评估度量。对于链接预测，我们应用广泛使用的前1，3和10个排名实体（Hit@1，3和10）中正确实体的比例和平均排名作为评估指标。

评估

三元组分类

在这里插入图片描述

在图4(a)中展示使用了TransE的11个KG的三重分类的基准线精度。基线性能表现不稳定：Yago和Dbpedia的准确性甚至降低。为了验证多个KG的一个统一结构的性能，我们通过合并对齐的实体将11个KG集成到一个统一的KG中，然后在每个KG上独立地测试TransE的性能。统一KG的三重分类精度如图4(b)所示。与图4(a)独立KG嵌入相比，统一KG嵌入甚至普遍下降了6.82% -17.63%。因此，将多个KG的嵌入集成到一个统一的向量空间中无助于获得KG的有效表示学习。
我们将FKGE框架应用于具有TransE的11个KG。三元组分类的结果如图4©所示。其中与训练前（在时间0时刻）的结果比较改进效果明显。在相同的训练时间之后，可以观察到每个KG的准确性增加。特别是，与图4(a)中方法的基准线相比，结果精度（KG表现如表2所示)在三元组分类任务上分别提高了16.49%、2.98%、2.06%、17.85%、2.11%、0.60%、0.48%、0.77%、1.82%、12.88%和14.55%。上述11个知识库的准确性的提高得益于FKGE中的交叉知识嵌入集成。此外，持续稳定的改进也表明了FKGE中回溯机制的有效性。因此，基于FKGE框架和TransE，11个幼儿园在三重分类方面取得了一致的改进。
不仅仅TransE模型在FKGE框架中PPAT网络中得到改善，而且其他主流KGE模型也可以通过FKGE框架进行改进。我们还从4种常用的翻译家族模型中随机选取KGE方法，包括TransR、TransE、TransD和TransH，并对每个KG进行了比较，如图4(d)所示。在300，000秒的训练之后，FKGE在针对11个KG的三元组分类中的精度如图4(e)所示，训练前（在时间0时刻）的结果进行比较改进效果显著。特别是，与其各自的基础方法相比，11种KG在三重分类上分别提高了7.08%（TransR）、2.23%（TransD）、1.33%（TransE）、1.32%（TransR）、1.77%（TransE）、0.38%（TransD）、0.57%（TransD）、1.92%（TransD）、2.42%（TransD）、13.64%（TransH）和7.27%（TransR）。这证实了FKGE框架具有兼容不同KGE方法的优点。

链路预测

在这里插入图片描述
我们比较了在多种情况下OpenKE在类型约束下链路预测的性能表现。如表4所示，我们在过滤器设置中用Hit@1、3和10来评估结果。过滤器用于移除链路预测中测试集和验证集中的那些损坏的三元组。Independent-TransE意味单独使用传统的基于TransE的KGE。 FKGE意味着使用TransE和联邦学习写作改进每个KG。除了TransE，我们还是哟其他KGE方法进行链路预测。Random-Independent-KGE意味着每个KG都被随机地从基于翻译的模型中应用KGE，并且独立地进行训练。Multi-FKGE意味着每个KG从基于翻译的模型中随机选择一个KGE，并且还采用FKGE进行进一步的训练。我们保持如图4(e)所示选择相同的基础KGE方法。与基准线方法相比，基于TransE的FKGE在Hit@10、3和1方面最多增加了7.44%、6.44%和5.59%，而Multi-FKGE在Hit@10、3和1方面最多增加了7.90%、7.01%和5.87%。例如，受益于基于TransE的FKGE，在过滤器下，world lift在Hit@10，3和1方面获得了5.93%，4.31%和3.55%的改进。在链路预测条件下的实验也证明了FKGE框架的有效性和适应性。

消融实验

实体和关系对齐的有效性

在这里插入图片描述
我们首先考虑包括对齐的实体和关系的对齐是否有益于FKGE的性能提升。由于现有的KGs没有提供关系对齐，我们人工的将Geonames平均分成两个大小相同的子集SubgeinamesA和SubgeinamesB，去验证在实体和关系对齐中的表现。我们将关系类比实体，并简单地将它们放在一起进行模型训练。注意：实体和关系的数量在被划分的KGs被缩减，并用于测试不同的三元组。因此精度可能不同于图4(a)的基准线精度。如图4(f)所示，蓝色和橙色的线仅仅是两个子集在TransE模型中的精度。绿色和红色的线表示基于FKGE框架下TransE模型实现实体对齐精度。紫色和棕色的线表示基于FKGE框架下TransE模型实现关系对齐精度。粉色和灰色的线表示基于FKGE框架下TransE模型同时实现实体对齐和关系对齐的精度。总的来说，对于所提出的FKGE框架，有助于改善实现知识图谱表示的实体对齐和关系对齐。

实体对齐的规模

在这里插入图片描述

为了解决对齐实体的规模带来的影响，我们比较了在三元组分类中不同规模的对齐实体和不同数量KGs的情况。我们随机抽取20%，40%，60%和80%的对齐实体，分别通过PPAT网络进行消融实验。三元组分类不同采样率结果如图5所示。显然，消融实现的对齐实体规模越大，效果越明显。
在这里插入图片描述
除了三元组分类外，表5表示通过使用基于FKGE的TransE的链路预测结果，就Mean Rank而言，Hit@1，3，10在PPAT网络中具有不同的采样率。上述实验结果再次证明了所提出的FKGE框架的可扩展性和有效性。

时间消耗

在这里插入图片描述
为了分析单个KG的时间成本，并证明FKGE的可扩展性。我们在图6展示Geonames的时间消耗成本。总的来说，FKGE像对等网络一样在线训练PPAT网络的方法是切实可行的。

FKGE特点

1、FKGE框架是异步和分散的。与集中式基于客户端的模型不同，FKGE将来自不同领域的KG与对抗网络配对
2、FKGE是可扩展的，并与许多基本嵌入模型兼容。异步和分散的设置导致成对的协作者之间的并行计算。此外，FKGE可以通过握手协议作为现有KG嵌入方法的元算法。
3、FKGE保护隐私，差分隐私保护机制，并保证没有原始数据泄漏。
差分隐私保护机制：当为对齐的实体训练每对嵌入集时，它们不能泄漏单个嵌入，因为特定嵌入的包含和排除不会对输出分布产生很大影响。这也允许我们针对不同的KG使用不同的基础KG嵌入模型。

代码（github）

https://github.com/HKUST-KnowComp/FKGE

参考

[1] https://zhuanlan.zhihu.com/p/548242915
[2] https://blog.csdn.net/AITIME_HY/article/details/120329773

无敌过桥米线

关注

0
点赞
踩
3

收藏

觉得还不错? 一键收藏
0
评论
CIKM 2021:《Differentially Private Federated Knowledge Graphs Embedding》

CIKM 2021:《Differentially Private Federated Knowledge Graphs Embedding》
复制链接

扫一扫