CIKM 2021:《Differentially Private Federated Knowledge Graphs Embedding》

导引

知识图谱(Knowlege Graph)在医疗、金融等领域都取得了广泛的应用。我们将知识图谱定义为 g = { ε , R , T } g=\{\varepsilon,R, T\} g={ε,R,T},这里 ε = { e i } i = 1 n \varepsilon=\{ e_i\}_{i=1}^n ε={ei}i=1n是由 n n n个实体(entity)组成的集合, R = { r i } i = 1 m R=\{r_i \}_{i=1}^m R={ri}i=1m是由 m m m个关系(relation)组成的集合。元组集合 T = { ( h , r , t ) ∈ ε × R × ε } T=\{(h,r,t)\in\varepsilon \times R \times \varepsilon \} T={(h,r,t)ε×R×ε}则建模了不同实体之间的关系。知识图谱嵌入是知识图谱在应用中非常重要的一步。我们先通过知识图谱嵌入将知识图谱中的实体和关系嵌入到embeddings向量,然后再在下游进行元组分类(triple classfication)或者链接预测(link prediction)的任务。
对于知识图谱嵌入任务我们常采用基于负采样的交叉熵函数:

ϝ = ∑ ( h , r , t ) ∈ T − l o g ( σ ( f r ( h , t ) ) ) − γ E t − ∽ P h − ( ε ) l o g σ ( − f r ( h , t − ) ) \digamma=\sum\limits_{(h,r,t) \in T} -log(\sigma(f_r(h,t)))- \gamma \Bbb E_{t^-\backsim P_h^-(\varepsilon)}log\sigma(-f_r(h,t^-)) ϝ=(h,r,t)Tlog(σ(fr(h,t)))γEtPh(ε)logσ(fr(h,t))

这里 ( h , r , t ) (h,r,t) (h,r,t)即知识图谱中存在的元组,其对应的负样本 ( h , r , t − ) (h,r,t^-) (h,r,t)即图谱中不存在的元组; σ \sigma σ为sigmoid函数; P h − ( ε ) P_h^-(\varepsilon) Ph(ε)为实体集 ε \varepsilon ε的负采样分布(可能是关于 h h h),最简单的设置为均匀分布(不过易造成“假阴性结果”,即采样实际上存在于图谱中的负样本,一种改进方法参见[2]);超参数 γ > 0 \gamma>0 γ>0
这里 f r ( h , t ) f_r(h,t) fr(h,t)称为Score function(得分函数),定义为元组 ( h , r , t ) (h,r,t) (h,r,t)存在于知识图谱的可能性。适用于常见经典知识图谱的Score function f r ( h , t ) f_r(h,t) fr(h,t)可以参考下图。
在这里插入图片描述
这里 h , r , t h,r,t h,r,t h , r , t h,r,t h,r,t对应的embeddings。 R e ( ⋅ ) Re(\cdot) Re()表示复值向量的实值部分。 ∘ \circ 表示逐项乘积(即Hadamard乘积)。
在实际应用中我们常常面临一系列来自不同数据持有方的知识图谱,我们将其称为多源知识图谱(Multi-Source KG)。我们将来自 K K K个不同数据持有方的知识图谱集合记为

δ = { g k } k = 1 K = { ε k , R k , T k } k = 1 K \delta=\{g_k\}_{k=1}^K=\{\varepsilon_k,R_k,T_k \}_{k=1}^K δ={gk}k=1K={εk,Rk,Tk}k=1K,如果能让在多个知识图谱间进行知识共享,那么很可能提高实体的嵌入质量与下游任务的表现。目前多源知识图谱融合(cross source knowlege graph fusion)领域的工作大都是需要先将多个知识图谱集中起来的。然而,在现实场景中,不同部门之间由于数据隐私的问题,共享数据是很困难的,那么联邦学习在这里就成为了一个很好的解决方案,我们称这种情况下的知识图谱为联邦多源知识图谱。
我们将联邦多源知识图谱按照数据异构程度可分为以下两种形式:联邦同领域知识图谱和联邦跨领域知识图谱

简述

这篇论文考虑的是各知识图谱之间跨领域的情况。
这种情况下因为数据更加异构,就不能单纯地对重叠实体的embeddings进行平均了。本文的靓点在于提出了一种隐私保护的对抗转换网络(privacy-preserving adversarial translation, PPAT),可以在隐私保护的前提下完成两两知识图谱间重叠实体及关系embeddings的统一。
关键词:联邦学习;知识图谱嵌入;差分隐私;GAN

案例

如下图中所示的大学(university)、文学(literature)和宾夕法尼亚州(pennsylvania)这三个不同领域的知识图谱。这种知识图谱中也有可能出现实体重叠,比如CMU实体在大学知识图谱和宾夕法尼亚州知识图谱中就同时出现(当然在两个知识图谱中的嵌入向量是不同的)。
对于这种情况,不同的知识图谱就应当使用不同的嵌入模型。
在这里插入图片描述

不过,不论是在同领域和不同领域的情况下,都需要涉及对某些知识图谱间重叠(也称为对齐的,aligned)实体的embeddings进行统一,以提高整体的学习效果,类似于分布式优化算法中聚合的意思。
(实体对齐:通过知识融合可以将不同知识图谱中的知识进行互补融合,形成全面、准确、完整的实体描述。知识融合过程中,主要涉及到的工作就是实体对齐。)

FKGE框架

下图是FKGE的整体框架。每个知识图谱的拥有者在本地训练自己的实体和关系的嵌入,基于训练后的嵌入,FKGE从成对的KGs聚合对齐实体和关系的嵌入,然后以联邦学习的方式更新嵌入。对于来自任何一对知识图谱的对齐实体和嵌入,FKGE存在一个秘密通道来优化和的嵌入,并进一步分别改进每个知识图谱内和的嵌入。另外,FKGE提出了一种联合训练机制:通过广播来促进各方的共同进步。更具体地说,如果或得到了改进,那么它将向其他KGs广播信号来进一步提高整体结果。否则,它将会变回联合前的原始嵌入。
在这里插入图片描述

如上图就展示了使用了论文提出的PPAT网络后的整个去中心化异步训练流程。图中Train表示本地训练知识图谱嵌入模型;PPAT( g 1 g_1 g1, g 2 g_2 g2)表示用PPAT网络生成的 g 1 g_1 g1 g 2 g_2 g2之间重叠部分的embeddings;KGEmb-Update表示更新之前的PPAT所产生的embeddings并再对client中所有embeddings进行训练(同Train)。如果在KGEmb-Update之后的本地评估结果没有提升,则会对client进行回退(backtrack),也即舍弃新训练得到的embeddings并使用训练前的旧版本。

PPAT网络

接下来我们来看PPAT网络是怎么实现的。该网络利用GAN结构来辅助重叠实体embeddings的统一。给定任意两个图( g i g_i gi, g j g_j gj),论文将生成器设置于client i i i,判别器设置与client j j j。生成器的目标是将 g i g_i gi中重叠实体的embeddings转换到 g j g_j gj的嵌入空间;判别器负责区分生成器生成的人工embeddings和 g j g_j gj中的基准embeddings。在GAN训练完毕后,生成器产生的人工embeddings能够学得两个知识图谱的特征,因此可以做为 ε i ∩ ε j \varepsilon_i \cap \varepsilon_j εiεj R i ∩ R j R_i \cap R_j RiRj的原始embeddings的有效替代(此时即完成了实体以及关系的对齐,对embeddings的统一)。

在这里插入图片描述
这里需要注意的是,论文将原始GAN的判别器改为了一个学生判别器和多个教师判别器。论文在多个教师判别器的投票表决结果上加以Laplace噪声,得到带噪声的标签来训练学生判别器,这样学生判别器具有差分隐私性。而生成器又由学生判别器训练,则同样具有了差分隐私性。最终促使生成器产生带有差分隐私保护的embeddings。设生成器为
G G G(参数为 θ G \theta_G θG),学生判别器为 S S S(参数为 θ S \theta_S θS),多个教师判别器为 T = { T 1 , T 2 , T 3 . . . T ∣ T ∣ } T= \{T_1,T_2,T_3...T_{\lvert T_\rvert} \} T={T1,T2,T3...TT}(参数为 θ T 1 , θ T 2 , . . . θ T ∣ T ∣ \theta_T^1,\theta_T^2,...\theta_T^{\lvert T \rvert} θT1,θT2,...θTT)。这里使用映射矩阵 X = { x 1 , x 2 , . . . , x n } X=\{x_1,x_2,...,x_n \} X={x1,x2,...,xn}来表示 g i g_i gi ε i ∩ ε j \varepsilon_i \cap \varepsilon_j εiεj R i ∩ R j R_i \cap R_j RiRj的embeddings,用映射矩阵 Y = { y 1 , y 2 , . . . , y n } Y=\{y_1,y_2,...,y_n \} Y={y1,y2,...,yn}来表示 g j g_j gj ε i ∩ ε j \varepsilon_i \cap \varepsilon_j εiεj的embeddings。

算法

符号说明
在这里插入图片描述

生成器损失函数

PPAT网络中生成器 G G G的目标是产生与 Y Y Y相似的对抗样本 G ( X ) G(X) G(X),以求学生判别器 S S S不能够识别它们。下面这个式子是生成器的损失函数:
l G ( θ G ; S ) = 1 n ∑ m = 1 n l o g ( 1 − S ( G ( x m ) ; θ S ) ) l_G(\theta_G;S) = \frac{1}{n}\sum\limits_{m=1}^n log(1-S(G(x_m);\theta_S)) lG(θG;S)=n1m=1nlog(1S(G(xm);θS))
这里 G ( X ) = W X G(X)=WX G(X)=WX; S S S是一个参数为 θ S \theta_S θS的学生判别器,它同时将 G ( X ) G(X) G(X) Y Y Y作为输入。

判别器损失函数
教师判别器损失函数

教师判别器 T = { T 1 , T 2 , T 3 . . . T ∣ T ∣ } T= \{T_1,T_2,T_3...T_{\lvert T_\rvert} \} T={T1,T2,T3...TT}的学习目标和原始GAN中判别器相似,也即区分伪造样本 G ( X ) G(X) G(X)和真样本 Y Y Y。唯一的不同是各个教师判别器会使用划分好的数据集来训练,第 t t t个教师判别器的损失函数如下:
L T i ( θ T i ; G ) = − [ ∑ m = 1 n l o g ( 1 − T i ( G ( x m ) ; θ T i ) ) + ∑ y k ∈ D i l o g ( T i ( y k ; θ T i ) ) ] L_T^i(\theta_T^i;G)=-[\sum\limits_{m=1}^n log(1-T_i(G(x_m);\theta_T^i))+\sum\limits_{y_k \in D_i} log(T_i(y_k;\theta_T^i))] LTi(θTi;G)=[m=1nlog(1Ti(G(xm);θTi))+ykDilog(Ti(yk;θTi))]
这里 D i D_i Di T i T_i Ti对应的数据集 X X X Y Y Y的子集,满足 ∣ D i ∣ = n T \lvert D_i \rvert=\frac{n}{T} Di=Tn且子集之间无交集。

学生判别器

而学生判别器 S S S的学习目标则是在给定带噪声标签的情况下,对生成器产生的真假样本进行分类。这里所谓的带噪声标签是在教师判别器的投票结果的基础上,加以随机的Laplace噪声来生成。下面的式子描述了在带噪声标签的生成机制(即所谓PATE机制):
P A T E λ ( X ) = arg max ⁡ j ∈ { 0 , 1 } ( n j ( x ) + V j ) PATE_\lambda(X)=\argmax\limits_{j \in \{0,1\}}(n_j(x)+V_j) PATEλ(X)=j{0,1}argmax(nj(x)+Vj)
这里 V 0 , V 1 V_0,V_1 V0,V1为用于引入噪声的IID的Laplace分布随机变量。 n j ( x ) n_j(x) nj(x)表示对于输入 x x x预测类别为 j j j的教师数量:
n j ( x ) = ∣ { T i : T i ( x ) = j } ∣ f o r j = 0 , 1 n_j(x)={\lvert \{T_i :T_i(x) = j \}\rvert} \quad for \quad j=0,1 nj(x)=∣{Ti:Ti(x)=j}∣forj=0,1
(此处符号不严谨, T i ( x ) T_i(x) Ti(x)应该是个概率值,但意会意思即可)
学生判别器则利用带有上述标签的生成样本来训练自身。学生判别器的损失函数定义如下:
L S ( θ S ; T , G ) = 1 n ∑ i = 1 n [ γ i l o g S ( G ( x i ) ; θ S ) + l o g ( 1 − S ( G ( x i ) ; θ S ) ) ] L_S(\theta_S;T,G)=\frac{1}{n} \sum\limits_{i=1}^n [\gamma_i logS(G(x_i);\theta_S)+log(1-S(G(x_i);\theta_S))] LS(θS;T,G)=n1i=1n[γilogS(G(xi);θS)+log(1S(G(xi);θS))]
这里 γ i = P A T E λ ( x i ) \gamma_i = PATE_\lambda(x_i) γi=PATEλ(xi)即教师鉴别器投票表决后生成的带噪声标签。
这样学生判别器 S S S由带噪声的标签训练,则具有差分隐私性。而生成器又由学生判别器训练,则同样具有了差分隐私性。最终促使生成器产生带有差分隐私保护的embeddings。

相关概念

DP:Differential privacy 差分隐私

定义一:相邻数据集:
现给定两个数据集D和D’, 若它们有且仅有一条数据不一样,那我们就称此二者为相邻数据集。以上面数据集为例:假定有 n n n 个人,他们是否是单身狗,形成一个集合 { a 1 , a 2 . . . , a n } \{a_1,a_2...,a_n\} {a1,a2...,an}(其中 a i a_i ai=0或1),那么另一个集合当中只有一个人改变了单身状态,形成另一个集合 { a 1 ′ , a 2 ′ , . . . , a n ′ } \{a_1',a_2',...,a_n'\} {a1,a2,...,an} 也就是只存在一个 i i i 使得 a i a_i ai不等于 a i ′ a_i' ai,那么这两个集合便是相邻集合。

定义二:差分隐私
https://blog.csdn.net/watson2017/article/details/121653356
使用随机应答(Randomized Response)方法确保数据集在输出信息时受单条记录的影响始终低于某个阈值,从而使第三方无法根据输出的变化判断单条记录的更改或增删,被认为是目前基于扰动的隐私保护方法中安全级别最高的方法。
举个简单的例子,假设现在有一个婚恋数据库,2个单身8个已婚,只能查有多少人单身。刚开始的时候查询发现,2个人单身;现在张三跑去登记了自己婚姻状况,再一查,发现3个人单身。所以张三单身。这里张三作为一个样本的的出现,使得攻击者获得了奇怪的知识。而差分隐私需要做到的就是使得攻击者的知识不会因为这些新样本的出现而发生变化。迁移学习是通过从已学习的相关任务中转移知识来改进学习的新任务。

本论文通过多个教师鉴别器投票表决加laplace噪声进行隐私保护。其中,表示隐私预算。由于相邻数据集的算法输出相近,所以越小,隐私保护效果越好,模型效用也越低。表示信息意外泄露的概率。基于上面的定义,PATE-GAN提出了一种修订的GAN结构,通过将PATE机制和教师、学生鉴别器一起应用来生成差异私有的生成器输出。基于上面的说明,我们实现了PPAT网络。

PATE机制

https://blog.csdn.net/weixin_42358435/article/details/124459365
采用迁移学习和差分隐私来解决了隐私问题

迁移学习:
https://blog.csdn.net/sikh_0529/article/details/126864397
迁移学习是一种机器学习方法,就是把为任务 A 开发的模型作为初始点,重新使用在为任务 B 开发模型的过程中。

对抗网络

https://zhuanlan.zhihu.com/p/567472882
https://blog.csdn.net/iwill323/article/details/127487363
GAN的全称是Generative adversarial network,中文叫做生成对抗网络。该网络由两部分组成:生成器(Generator,G)负责生成数据;判别器(Discriminator,D)负责判断数据是真实的还是虚假的(合成的)。生成器要不断进化,使得生成的数据更加真实,让判别器判断为真,判别器也要优化自己,让自己判断得更准确。在训练过程中,生成器尽量生成真实的图片去欺骗判别器D,判别器D尽量把生成器G生成的图片和真实的图片区分开。G和D构成一个动态的博弈过程,二者关系形成对抗,因此叫对抗网络。

生成器:区别于给定x输出y的神经网络,现在给神经网络的输入添加一个从简单分布(Simple Distribution)中随机采样的变量,生成一个复杂的满足特定分布规律的输出(Complex Distribution)。当我们的任务需要一点创造力的时候,一个输入有多种可能的输出,这些不同的输出都是对的,但又只需要输出一个对象,这时就需要使用generator,在网络中加入随机输入,让网络在复杂分布中随机选择一个对象输出(输出有几率的分布)。

鉴别器:Discriminator也是一个神经网络(可以考虑使用CNN、transformer等),可以将generator输出的图像转换成数字,越接近于1,说明图像越真实,品质越高。

伪代码

细化KG如何嵌入
在这里插入图片描述
PPAT实现伪代码
在这里插入图片描述

实验

实验参数设置

数据集

在这里插入图片描述
在这里插入图片描述

从关联数据社区中选择了11个不同规模的KG。
来源:https://lod-cloud.net/
使用OpenKE框架使FKGE与各种KGE模型兼容。
对于每个KG,根据OpenKE框架默认将关系、实体和三元组的数量比例设置为90:5:5
注意:为了减少KGE中训练和测试的计算时间,我们从原始KG中删除了一些与对齐实体和三元组不相关的稀疏实体和三元组。详情见表2。
关联数据社区在RDF文件中提供不同KG之间的对齐实体(AE),统计数据详见表3。

超参数设置

为了模拟真实世界的异步训练而不泄漏数据,我们将每个KG设置为一个进程,并使用具有相同配置的相同类型的GPU设备在11个独立进程上实现所有比较实验。在握手过程中,我们使用进程之间的管道通信将生成的对抗样本从客户端传输到主机,并将梯度从主机传输到客户端。
考虑到计算时间和测试结果,我们将
嵌入向量的默认维度设置𝑑为𝑑= 100
测试步骤设置为epochs=1,000

根据OpenKE框架默认将
学习率设置为 learning rate = 0.5
batch size = 100

通过破坏头部或尾部实体生成阴性样本,并且
阴性样本和阳性样本的比率为1:1

对于PPAT网络基本参数设置,
batch size = 32
教师个数 teacher number = 4
学习率 learning rate = 0.02
动量momentum = 0.9
每个KG epoch = 1000 以获得最初的最佳分数和嵌入,然后激活联邦单位。

隐私设置

λ = 0.05 \lambda=0.05 λ=0.05
δ = 1 0 − 5 \delta=10^{-5} δ=105
预估所有的 ϵ \epsilon ϵ的上界 ϵ ^ = 2.73 \hat{\epsilon}=2.73 ϵ^=2.73
在每一轮的联邦训练中 α ( l ) \alpha(l) α(l)在ActiveHandshake中的最大值 α ( l ) = 0.29 \alpha(l)=0.29 α(l)=0.29
设置 l n 1 δ = 11.5 ln \frac{1}{\delta}=11.5 lnδ1=11.5 l = 9 l=9 l=9
根据公式(1)可以求的 ϵ ^ \hat{\epsilon} ϵ^的上界 ϵ ^ = 2.73 \hat{\epsilon}=2.73 ϵ^=2.73
ϵ ^ = min ⁡ l α ( l ) + l o g ( 1 δ ) l    ( 1 ) \hat{\epsilon}=\min\limits_{l}\frac{\alpha(l)+log(\frac{1}{\delta})}{l} \ \ (1) ϵ^=lminlα(l)+log(δ1)  (1)
(其中 α ( l ) \alpha(l) α(l)等于第 l l l时刻的时间)
其中 α ( l ) \alpha(l) α(l)由(2)求得
α ( l ) = α ( l ) + min ⁡ { 2 λ 2 l ( l + 1 ) , l o g ( ( 1 − q ) ( 1 − q 1 − e 2 λ q ) l ) + q e 2 λ l ) }    ( 2 ) \alpha(l)=\alpha(l)+\min\{2\lambda^2l(l+1),log((1-q)(\frac{1-q}{1-e^{2\lambda}q})^l)+qe^{2\lambda l})\} \ \ (2) α(l)=α(l)+min{2λ2l(l+1),log((1q)(1e2λq1q)l)+qe2λl)}  (2)
其中 q q q是中间值来自(3)求得到
q = 2 + λ ∣ n 0 − n 1 ∣ 4 exp ⁡ ( λ ∣ n 0 − n 1 ∣ )    ( 3 ) q=\frac{2+\lambda\lvert n_0-n_1 \rvert}{4\exp(\lambda\lvert n_0-n_1 \rvert)} \ \ (3) q=4exp(λn0n1∣)2+λn0n1  (3)

评估指标

FKGE框架是兼容不同类型的KGE的框架。我们从OpenKE中选择流行且简单的基于翻译的模型,包括TransE,TransH,TransR和TransD以评估KGE两个经典测试任务下不同方法训练的嵌入的质量:三元组分类和链接预测。
对于三元组分类,我们应用准确度作为评估度量。对于链接预测,我们应用广泛使用的前1,3和10个排名实体(Hit@1,3和10)中正确实体的比例和平均排名作为评估指标。

评估

三元组分类

在这里插入图片描述
在这里插入图片描述
在图4(a)中展示使用了TransE的11个KG的三重分类的基准线精度。基线性能表现不稳定:Yago和Dbpedia的准确性甚至降低。为了验证多个KG的一个统一结构的性能,我们通过合并对齐的实体将11个KG集成到一个统一的KG中,然后在每个KG上独立地测试TransE的性能。统一KG的三重分类精度如图4(b)所示。与图4(a)独立KG嵌入相比,统一KG嵌入甚至普遍下降了6.82% -17.63%。因此,将多个KG的嵌入集成到一个统一的向量空间中无助于获得KG的有效表示学习。
我们将FKGE框架应用于具有TransE的11个KG。三元组分类的结果如图4©所示。其中与训练前(在时间0时刻)的结果比较改进效果明显。在相同的训练时间之后,可以观察到每个KG的准确性增加。特别是,与图4(a)中方法的基准线相比,结果精度(KG表现如表2所示)在三元组分类任务上分别提高了16.49%、2.98%、2.06%、17.85%、2.11%、0.60%、0.48%、0.77%、1.82%、12.88%和14.55%。上述11个知识库的准确性的提高得益于FKGE中的交叉知识嵌入集成。此外,持续稳定的改进也表明了FKGE中回溯机制的有效性。因此,基于FKGE框架和TransE,11个幼儿园在三重分类方面取得了一致的改进。
不仅仅TransE模型在FKGE框架中PPAT网络中得到改善,而且其他主流KGE模型也可以通过FKGE框架进行改进。我们还从4种常用的翻译家族模型中随机选取KGE方法,包括TransR、TransE、TransD和TransH,并对每个KG进行了比较,如图4(d)所示。在300,000秒的训练之后,FKGE在针对11个KG的三元组分类中的精度如图4(e)所示,训练前(在时间0时刻)的结果进行比较改进效果显著。特别是,与其各自的基础方法相比,11种KG在三重分类上分别提高了7.08%(TransR)、2.23%(TransD)、1.33%(TransE)、1.32%(TransR)、1.77%(TransE)、0.38%(TransD)、0.57%(TransD)、1.92%(TransD)、2.42%(TransD)、13.64%(TransH)和7.27%(TransR)。这证实了FKGE框架具有兼容不同KGE方法的优点。

链路预测

在这里插入图片描述
我们比较了在多种情况下OpenKE在类型约束下链路预测的性能表现。如表4所示,我们在过滤器设置中用Hit@1、3和10来评估结果。过滤器用于移除链路预测中测试集和验证集中的那些损坏的三元组。Independent-TransE意味单独使用传统的基于TransE的KGE。 FKGE意味着使用TransE和联邦学习写作改进每个KG。除了TransE,我们还是哟其他KGE方法进行链路预测。Random-Independent-KGE意味着每个KG都被随机地从基于翻译的模型中应用KGE,并且独立地进行训练。Multi-FKGE意味着每个KG从基于翻译的模型中随机选择一个KGE,并且还采用FKGE进行进一步的训练。我们保持如图4(e)所示选择相同的基础KGE方法。与基准线方法相比,基于TransE的FKGE在Hit@10、3和1方面最多增加了7.44%、6.44%和5.59%,而Multi-FKGE在Hit@10、3和1方面最多增加了7.90%、7.01%和5.87%。例如,受益于基于TransE的FKGE,在过滤器下,world lift在Hit@10,3和1方面获得了5.93%,4.31%和3.55%的改进。在链路预测条件下的实验也证明了FKGE框架的有效性和适应性。

消融实验

实体和关系对齐的有效性

在这里插入图片描述
我们首先考虑包括对齐的实体和关系的对齐是否有益于FKGE的性能提升。由于现有的KGs没有提供关系对齐,我们人工的将Geonames平均分成两个大小相同的子集SubgeinamesA和SubgeinamesB,去验证在实体和关系对齐中的表现。我们将关系类比实体,并简单地将它们放在一起进行模型训练。注意:实体和关系的数量在被划分的KGs被缩减, 并用于测试不同的三元组。因此精度可能不同于图4(a)的基准线精度。如图4(f)所示,蓝色和橙色的线仅仅是两个子集在TransE模型中的精度。绿色和红色的线表示基于FKGE框架下TransE模型实现实体对齐精度。紫色和棕色的线表示基于FKGE框架下TransE模型实现关系对齐精度。粉色和灰色的线表示基于FKGE框架下TransE模型同时实现实体对齐和关系对齐的精度。总的来说,对于所提出的FKGE框架,有助于改善实现知识图谱表示的实体对齐和关系对齐。

实体对齐的规模

在这里插入图片描述

为了解决对齐实体的规模带来的影响,我们比较了在三元组分类中不同规模的对齐实体和不同数量KGs的情况。我们随机抽取20%,40%,60%和80%的对齐实体,分别通过PPAT网络进行消融实验。三元组分类不同采样率结果如图5所示。显然,消融实现的对齐实体规模越大,效果越明显。
在这里插入图片描述
除了三元组分类外,表5表示通过使用基于FKGE的TransE的链路预测结果,就Mean Rank而言,Hit@1,3,10在PPAT网络中具有不同的采样率。上述实验结果再次证明了所提出的FKGE框架的可扩展性和有效性。

时间消耗

在这里插入图片描述
为了分析单个KG的时间成本,并证明FKGE的可扩展性。我们在图6展示Geonames的时间消耗成本。总的来说,FKGE像对等网络一样在线训练PPAT网络的方法是切实可行的。

FKGE特点

1、FKGE框架是异步和分散的。与集中式基于客户端的模型不同,FKGE将来自不同领域的KG与对抗网络配对
2、FKGE是可扩展的,并与许多基本嵌入模型兼容。异步和分散的设置导致成对的协作者之间的并行计算。此外,FKGE可以通过握手协议作为现有KG嵌入方法的元算法。
3、FKGE保护隐私,差分隐私保护机制,并保证没有原始数据泄漏。
差分隐私保护机制:当为对齐的实体训练每对嵌入集时,它们不能泄漏单个嵌入,因为特定嵌入的包含和排除不会对输出分布产生很大影响。这也允许我们针对不同的KG使用不同的基础KG嵌入模型。

代码(github)

https://github.com/HKUST-KnowComp/FKGE

参考

[1] https://zhuanlan.zhihu.com/p/548242915
[2] https://blog.csdn.net/AITIME_HY/article/details/120329773

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值