Generative Adversarial Zero-Shot Relational Learning(翻译)

Generative Adversarial Zero-Shot Relational Learning for Knowledge Graphs

摘要

大规模知识图(KGs)在当前的信息系统中越来越重要。为了扩大知识图谱的覆盖范围,以往关于知识图谱完成的研究需要为新增加的关系收集足够的培训实例。在这篇论文中,我们考虑一个新的公式,零射击学习,以解放这种繁琐的管理。对于新添加的关系,我们试图从它们的文本描述中学习它们的语义特征,从而识别出没有实例可见的不可见关系的事实。为此,我们利用生成对抗网络(Generative Adversarial Networks, GANs)来建立文本与知识图域之间的联系:生成者学会仅使用噪声文本描述来生成合理的关系嵌入。在此背景下,零射击学习自然地转化为传统的监督分类任务。根据经验,我们的方法与模型无关,可以潜在地应用于任何版本的KG嵌入,并持续地提高NELL和Wiki数据集的性能。


介绍

大规模知识图收集越来越多的结构化数据,其中节点对应实体,边反映头部和尾部实体之间的关系。这种图结构的知识库已经成为一种具有巨大价值的资源,具有搜索引擎、推荐系统和问答系统等潜在应用。然而,它仍然是不完整的,不能满足日益增长的智能系统的需求。为了解决这一问题,许多研究(Bordes et al. 2013;Trouillon et al. 2016)在自动查找和填充现有关系中缺失的事实方面取得了显著的成绩。但是对于新增的关系,仍然有一个不可忽视的限制,为每一个新的关系获得足够的训练实例是一个越来越不切实际的解决方案。因此,人们更喜欢一个自动完成的解决方案,或者甚至更激进的方法,在没有看到任何训练实例的情况下识别看不到的类。

零样本学习的目的是识别在训练阶段没有看到(看不见的类)的对象。相应地,人类学习的一个吸引人的特点是,随着一定知识的积累,人们能够仅仅从文本描述中识别新的类别。因此,新类的语义特征可以通过它们的文本描述来反映,而不是从实例中学习。此外,文本描述包含丰富而明确的信息,可以很容易地从字典、百科全书或各种在线资源中获取,这对大规模识别任务至关重要。

本文提出了一种面向知识图的零样本关系学习方法。如图1所示,我们将零样本学习转化为知识转移问题。我们关注的是如何仅从文本描述中为不可见的关系生成合理的关系嵌入。一旦经过训练,该系统就能够为任意关系生成关系嵌入,而无需进行微调。通过这些关系嵌入,不可见的关系可以简单地通过余弦相似度来识别。为了满足这些需求,如何建立一个有效的从文本语义空间到知识图语义空间的知识转移过程是摆在我们面前的首要挑战。我们利用有条件的GANs从文本描述中生成似是而非的关系嵌入,并为不可见的关系提供类间多样性。第二个挑战是文本描述的噪声抑制。人类语言表达中总是包含一些不相关的词(如虚词),用来识别目标关系。如图1所示,粗体字对于关系联盟玩家的意义更为关键;因此,对单词不加区分的权重会导致表现较差。针对这一问题,我们采用基于词嵌入的简单词袋模型;同时,我们计算TF-IDF特征,以降低关联度较低的单词在零射击学习中的重要性。

在这里插入图片描述

我们的主要贡献有三方面:

  • 我们首先考虑了零距离学习的知识图补全,并提出了生成式对抗框架,仅从文本描述中生成不可见关系的合理关系嵌入;
  • 我们的方法是模型不可知的,可以潜在地应用于任何版本的KG嵌入;
  • 我们提出了两个新构造的零镜头知识图补全数据集,并证明了我们的方法比各种基于嵌入的方法具有更好的性能。

相关工作

目前,表示学习(Nickel, trep, and Kriegel 2011)是一种被广泛使用的知识图信息建模方法。TransE (Bordes et al. 2013)将关系和实体从符号空间投射到向量空间,通过简单的向量操作可以推断出现有关系中缺失的环节。随后,许多著名的基于嵌入的研究(Yang et al. 2014;Trouillon等人(2016)提出知识图完成。但是,在处理新添加的关系时,这些方法没有任何作用。与之不同的是,该方法对不可见关系的关系事实仍具有较好的识别能力。Xiong et al.(2018)提出了一种少镜头学习方法,该方法学习匹配网络,并通过计算一些标注实例的匹配分数来预测不可见的关系事实。相比之下,我们的方法遵循零样本设置,不需要任何训练实例看不见的关系。KBGAN (Cai and Wang 2018)通过选择高质量的负样本,采用对抗性训练学习出更好的判别器,但仍侧重于现有关系的链接预测。

zero-shot learning (ZSL)的核心是实现可见类和不可见类之间的知识共享和归纳转移,常见的解决方案是找到一种中间语义表示。为此,Akata等人(2013)提出了一种基于属性的模型,通过学习转换矩阵来构建属性和实例之间的相关性。然而,基于属性的方法仍然需要大量的人力来创建属性,并且对属性的质量非常敏感。基于文本的方法(Qiao et al. 2016)是直接从可用的在线非结构化文本信息中创建中间语义表示。为了抑制原始文本中的噪声,Wang等人(2019)利用TF-IDF特性来降低无关词的权重。在模型选择方面,Zhu et al.(2018)的ZSL框架给了我们很大的启发,它利用条件GANs模型实现了对图像分类任务的零样本学习。目前,ZSL的研究工作大部分来自于计算机视觉领域。在自然语言处理领域,Artetxe和Schwenk(2019)使用单个句子编码器,只训练目标模型在单一语言上完成多语言任务。据我们所知,这项工作是知识图的第一个零样本关系学习。


背景

零样本学习设置

本文给出了基于知识图完成任务的零样本学习的问题定义和一些标记。知识图是一种有向图结构的知识库,由大量的关系事实三元组构成 ( e 1 , r , e 2 ) (e_1,r, e_2) (e1,r,e2). 由于本研究的目的是探索满足新添加关系时的识别能力,我们的目标可以表述为在给定头实体 e 1 e_1 e1和查询关系 r r r的情况下预测尾实体 e 2 e_2 e2.更具体地说,对于每个查询元组 ( e 1 , r ) (e_1,r) (e1,r),都有一个ground-truth 尾实体 e 2 e_2 e2和一个候选集 C ( e 1 , r ) C(e_1,r) C(e1,r);我们的模型需要将最高的等级分配给 e 2 e_2 e2,针对其他候选实体 e 2 ′ ∈ C ( e 1 , r ) e'_2∈C (e_1, r) e2C(e1,r)。根据零样本设置,有两个不同的关系集,可见关系集 R s = { r s } R_s = \left \{ r_s \right \} Rs={rs}和不可见关系集 R u = { r u } R_u = \left \{ r_u \right \} Ru={ru},明显的是 R s ∩ R u = ∅ R_s∩R_u =∅ RsRu=

一开始,我们有一个背景知识图G,它收集了大量的三重组
G = { ( e 1 , r s , e 2 ) ∣ e 1 ∈ E , r s ∈ R s , e 2 ∈ E } G=\left \{ \left ( e_1,r_s,e_2 \right )|e_1 \in E,r_s \in R_s, e_2 \in E \right \} G={(e1,rs,e2)e1E,rsRs,e2E}
并且G在零样本训练过程中是可得的。在测试时,本文出的模型目的是预测预测看不见的关系事实 r u ∈ R u r_u\in R_u ruRu.在文本描述方面,我们自动提取 R s ∪ R u Rs∪Ru RsRu中每个关系的在线文本描述 T T T。考虑到可行性,我们只考虑一个封闭的实体集;更具体地说,出现在测试三元组中的每个实体仍然在实体集E中。因此,我们的测试集可以被描述为:
D u = { ( e 1 , r u , e 2 , C ( e 1 , r u ) ) ∣ e 1 ∈ E , r u ∈ R u , e 2 ∈ E } D_u=\left \{ \left ( e_1,r_u,e_2,C_{(e_1,r_u)} \right )|e_1 \in E,r_u \in R_u, e_2 \in E \right \} Du={(e1,ru,e2,C(e1,ru))e1E,ruRu,e2E}
在训练过程要求相同的情况下,ground-truth 尾实体 e 2 e_2 e2需要与候选尾实体 e 2 ′ ∈ C ( e 1 , r u ) e'_2 \in C_{(e_1, r_u)} e2C(e1,ru)进行排序,从而实现正确识别。通过删除所有训练实例,我们将d的一个子集作为验证集 D v a l i d D_{valid} Dvalid

对抗生成模型

生成对抗网络(Goodfellow et al. 2014)在生成现实目标方面取得了相当大的成功,特别是在图像领域。生成器的目的是从随机变量中合成合理的伪数据,鉴别器的目的是将其与真实数据区分开来。除了随机变量,Zhang et al.(2017)和Zhu et al.(2018)已经证明了该生成器具有从文本输入中转移知识的能力。这个博弈的期望解是纳什均衡;否则,容易产生不稳定的训练行为和模式崩溃。近期展出多件作品(Arjovsky, Chintala, and Bottou 2017;Heusel等人(2017)提出有效缓解这一问题。与非饱和的GAN1 (Goodfellow等,2014)相比,WGAN (Arjovsky, Chintala, and Bottou 2017)利用真实分布与虚假分布之间的瓦瑟斯坦距离优化了原始目标。在此基础上,Gulrajani et al.(2017)提出了一种梯度惩罚策略作为WGAN权值裁剪策略的替代,该策略可以更好地满足Lipschitz约束。Miyato et al.(2018)引入频谱归一化,进一步稳定鉴别器的训练。
实践证明,我们的模型受益于这些高级策略。


方法

在本节中,我们描述了提出的零样本知识图关系学习模型。如图3所示,我们的方法的核心是设计一个条件生成模型,从原始文本描述中学习合格的关系嵌入。该生成器以文本表示为基础,在知识图特征空间中生成反映相应关系语义信息的合理关系嵌入。在此基础上,将不可见关系的预测转化为简单的有监督分类任务。相反,鉴别器试图从真实数据分布中分离假数据,并识别关系类型。对于真实数据表示,值得一提的是,我们利用特征编码器从KG嵌入中生成合理的真实数据分布。在对抗性训练过程中,从训练集中预先训练特征编码器并对其进行固定。

在这里插入图片描述

特征编码器

传统的KG嵌入在训练中能够很好地拟合所看到的关系事实;然而,最优的零样本特征表示应该为可见和不可见的关系事实提供集群结构分布。因此,我们设计了一种特征编码器,从预先训练的KG嵌入和one-hop结构中更好地学习数据分布。

网络结构:特征编码器由两个子编码器组成,邻居编码器和实体编码器。
在这里插入图片描述

在现实世界大规模kg可行的前提下,对于每个实体e,我们只考虑one-hop邻居
N e = { ( r n , e n ) ∣ ( e , r n , e n ∈ G ) } N_e = \left \{ \left ( r^n,e^n \right )|\left ( e,r^n,e^n \in G\right ) \right \} Ne={(rn,en)(e,rn,enG)}
因此,我们采用邻接编码器来生成结构表示。给定维数KG的嵌入矩阵,首先利用嵌入层查找相应的邻居实体和关系嵌入 v e n v_{e^n} ven v r n v_{r^n} vrn。然后,计算实体e的基于结构的表示 u e u_e ue (Schlichtkrull et al. 2018)如下所示:

在这里插入图片描述

其中σ为tanh激活函数,⊕为串联运算。考虑到可伸缩性,我们设置了邻居数量的上限。此外,我们还应用一个简单的前馈层作为实体编码器,从实体对 ( e 1 , e 2 ) (e_1, e_2) (e1,e2)本身提取信息,

在这里插入图片描述

综上所述,如图2所示,关系事实表示为邻居嵌入 u e 1 u_{e_1} ue1 u e 2 u_{e_2} ue2和实体对嵌入 u e p u_{ep} uep的连接,
在这里插入图片描述

其中, W 1 ∈ R d × d 2 , W 2 ∈ R d × d , b 1 , b 2 ∈ R d W_1 \in R^{d \times d2}, W_2 \in R^{d \times d}, b_1,b_2 \in R^d W1Rd×d2,W2Rd×d,b1,b2Rd是可学习的参数。

预训练策略

这个预处理步骤的核心是学习反映较高类内相似度和相对较低类间相似度的聚类结构数据分布。
传统的带有交叉熵损失的监督方法给类间带来了过多的损失,对于不可见的类来说是不可行的。
因此,我们采用了一种有效的基于匹配的方法,通过边界损失排名(Xian, Schiele, and Akata 2017)。对于每一个可见类的关系 r s r_s rs,在训练过程中,我们从训练集中随机取出k个参考三元组 { e 1 ∗ , r s , e 2 ∗ } \left \{ e_1^*,r_s,e_2^* \right \} {e1,rs,e2},一批正三元组 { e 1 + , r s , e 2 + } \left \{ e_1^+,r_s,e_2^+ \right \} {e1+,rs,e2+},然后从剩下的训练集中取出一批负三元组 { e 1 + , r s , e 2 + } 3 \left \{ e_1^+,r_s,e_2^+ \right \}^3 {e1+,rs,e2+}3。然后我们使用特征编码器生成引用嵌入 x ( e 1 ∗ , e 2 ∗ ) x_{(e_1^*,e_2^*)} x(e1,e2),然后计算其与正样本 x ( e 1 + , e 2 + ) x_{(e_1^+,e_2^+)} x(e1+,e2+)和负样本 x ( e 1 − , e 2 − ) x_{(e_1^-,e_2^-)} x(e1,e2)的余弦相似度作为 s c o r e w + score_w^+ scorew+ s c o r e w + score_w^+ scorew+.因此,边缘损失排名就可以描述为:

image-20210608203602672

其中, w = { W 1 , W 2 , b 1 , b 2 } w=\left \{ W_1, W_2,b_1,b_2 \right \} w={W1,W2,b1,b2}是学习的参数,$\gamma $表示边缘。特征生成器最好的参数取决于验证集。

对抗生成模型

生成器:生成器从文本描述中生成似是而非的关系嵌入。首先,对于文本表示,我们简单地采用单词袋方法,其中单词用预先训练的单词嵌入编码(Mikolov et al. 2013;Pennington, Socher和Manning 2014)如图3所示。为了抑制噪声信息,我们首先去除停顿词和标点符号,然后通过TF-IDF特征评估剩余单词的重要性(Salton and Buckley 1988)。因此,文本嵌入 T r T_r Tr是单词嵌入的向量和加权TF-IDF值。为了满足GANs要求,我们将每个嵌入随机向量 z ∈ R Z z∈R^Z zRZ的文本和高斯分布N(0,1)采样连接起来。如图3所示,下面的知识转移过程是由两个全连接(FC)层和一个层归一化操作完成的。
在这里插入图片描述

因此,关系嵌入 x ˉ r \bar{x}_r xˉr由生成器 x ˉ r ← G θ ( T r , z ) \bar{x}_r\leftarrow G_\theta \left ( T_r,z \right ) xˉrGθ(Tr,z),参数为 θ \theta θ.为了避免模式崩溃和提高多样性,我们采用了瓦瑟斯坦损失和附加的分类损失。这一分类损失被计算为保证金排名损失,如公式4。这里,聚类中心 x c r = 1 N r ∑ i = 1 N r x e 1 , e 2 i x_c^r=\frac{1}{N_r}\sum_{i=1}^{N_r}x_{e_1,e_2}^i xcr=Nr1i=1Nrxe1,e2i被视为真实的关系表示, N r N_r Nr是关系r的事实数量,因此,正分数通过 x c r x_c^r xcr x ˉ r \bar{x}_r xˉr;负分数通过 x c r x_c^r xcr和负事实表示(负事实由受到污染的尾实体生成)。另外,视觉枢轴正则化(Zhu et al. 2018) LP也被用于提供足够的阶层间辨别。

在这里插入图片描述

判别器:判别器试图区分输入是真实数据 x ( e 1 , e 2 ) x(e_1,e_2) x(e1,e2)还是虚假数据 x ˉ r \bar{x}_r xˉr;此外,还需要正确识别它们对应的关系类型。如图3所示,输入特征首先通过带有Leaky ReLU的FC层进行转换(Maas, Hannun, and Ng 2013)。接下来是两个网络分支。第一个分支是FC层,作为一个二进制分类器来分离真实数据和假数据,我们也利用了瓦瑟斯坦损失。另一个分支是分类性能。为了稳定训练行为和消除模式崩溃,我们还采用梯度惩罚LGP来加强Lipschitz约束。如果梯度范数偏离其目标范数值1,则对模型进行惩罚。综上所述,鉴别器的损耗函数表达式为:
在这里插入图片描述
在这里插入图片描述

预测不可见的关系

在对抗训练完成之后,给定一个文本关系描述 T r u T_{r_u} Tru.生成器生成看似可信的关系嵌入 x ˉ r u ← G 0 ( T r u , z ) \bar{x}_{r_u} \leftarrow G_0(T_{r_u},z) xˉruG0(Tru,z).对于一个查询元组 ( e 1 , r u ) (e_1,r_u) (e1,ru), 相似的KaTeX parse error: Got function '\left' with no arguments as subscript at position 7: score_\̲l̲e̲f̲t̲ ̲\{ e_1,r_u,e_2 …可以通过计算 x ˉ r u \bar{x}_{r_u} xˉru x ( e 1 , e 2 ) x_{(e_1,e_2)} x(e1,e2).值得一提的是,由于z可以无限采样,我们可以生成任意数量 N t e s t N_{test} Ntest的关联嵌入 { x ˉ r u i } i = 1 , 2 , . . N t e s t \left \{ \bar{x}_{r_u}^i \right \}_{i=1,2,..N_{test}} {xˉrui}i=1,2,..Ntest.为了更好的生成性能,我们们利用平均余弦相似度值作为最终的排名分数。

在这里插入图片描述


实验

在这里插入图片描述

KG三元组:由于知识图没有可用的零样本关系学习数据集,我们决定从现有的KG数据集中构造两个合理的数据集。我们选择NELL4 (Carlson et al. 2010)和Wikidata5有两个原因:一是官方关系描述的规模大,二是官方关系描述的存在。对于NELL,我们采取最新的转储并删除这些逆关系。数据集统计数据如表1所示。

文本描述:NELL和wikidata是两个配置良好的知识图。我们的文本描述由多个信息组成。对于NELL,我们集成了关系描述及其实体类型描述。对于Wikidata,每个关系都表示为一个属性项。除了属性描述,我们还利用了属性P31,P1629, P1855作为附加描述。

评价方案:遵循之前的工作(Yang et al. 2014;Xiong et al. 2018),我们使用两个常见指标,平均倒数排名(MRR)和10 (H@10), 5 (H@5), 1 (H@1)。在测试过程中,使用实体类型约束构造候选集(Toutanova et al. 2015)。

Baselines

在我们的实验中,基线包括三种常用的KG嵌入方法:TransE (Bordes et al. 2013)、DistMult (Yang et al. 2014)和ComplEx (Trouillon et al. 2016)。显然,这些原始模型无法处理零样本学习。因此,在这三种方法的基础上,我们提出了ZS-TransE、ZSDistMult和ZS-ComplEx三种零射击基线。我们没有随机初始化一个关系嵌入矩阵来表示关系,而是添加了一个与我们的生成器结构相同的前馈网络6来计算这三种方法的关系嵌入。同样,我们利用文本嵌入作为输入,并根据其原始目标对前馈网络和实体嵌入进行微调。在此背景下,可以通过文本嵌入来计算不可见的关系嵌入,并通过其原始的评分函数来预测不可见的关系事实。RESCAL (Nickel, trep, and Kriegel 2011)不能直接采用相同的前馈网络进行零射击学习;为了比较公平,我们不考虑这种KG嵌入方法。

实现细节

对于NELL-ZS数据集,我们设置嵌入大小为100。对于Wiki-ZS,我们将嵌入大小设置为50,以提高训练速度。上述三个基线基于开源知识嵌入工具包OpenKE7(Han et al. 2018)实现,它们的超参数使用验证集Dvalid上的Hits@10度量进行调整。所提出的生成方法使用预先训练的KG嵌入作为输入,在训练集中的三元组上进行训练。对于TransE和dismult,我们直接使用它们的一维向量。对于ComplEx,我们分别使用实嵌入矩阵和虚嵌入矩阵设置了两个实验,如表2所示。对于特征编码器和生成模型,均采用Adam (Kingma and Ba 2014)进行参数更新,裕度γ设为10.0。对于特征编码器,邻居数的上限为50,一次训练步骤中的参考三倍数k为30,学习速率为5e−4。对于生成模型,学习率为1e−4,β1、β2分别设为0.5、0.9。当更新生成器一次时,鉴别器的迭代数第nd为5。随机向量z的维数为15,生成的关系嵌入Ntest的个数为20。频谱归一化应用于发生器和鉴别器。这些超参数也在验证集Dvalid上进行了调优。在词嵌入方面,我们直接使用发布的词嵌入集GoogleNews- vectors-negative300。Bin8尺寸300。


结果

在这里插入图片描述

与基线相比,我们方法的链路预测结果如表2所示。尽管NELL-ZS和Wiki-ZS具有不同的三元组和关系集的尺度,但所提出的生成方法在两个零样本数据集的不同基线上仍然取得了一致的改进。结果表明,该生成器成功地找到了中间语义表示来弥补可见关系和不可见关系之间的差距,并仅从文本描述中为不可见关系生成合理的关系嵌入。因此,我们的模型经过训练后,可以在不进行微调的情况下预测任意新增的关系,这对于真实世界知识图的完成具有重要意义。

在这里插入图片描述

文本表示的分析

图4显示了两个数据集的文本描述的统计信息。总的来说,NELL-ZS的文本描述比Wiki-ZS要长。但是,在计算它们的TF-IDF值后,两个数据集的高权重词数均位于[2,5]。例如,关系工作者的高度权重词是生计,就业和收入。证明了其抑制噪声的能力。至于单词表示方法9,除了Word2Vec,我们还尝试了BERT10 (Devlin et al. 2019)的上下文化单词表示方法,如表4所示。但是它们的性能并不令人满意,原因有两个:它们的高维和表示中涉及的序列级信息。该方法在降维和提取判别特征方面存在一定的困难;因此,GANs很难达到纳什均衡

生成数据的质量

在表3中,我们分析了我们的生成器生成的关系嵌入的质量,并给出了不同关系相对于zs - distmult的比较结果,因为zs - distmult是表2中最好的基线模型。与图像不同,我们生成的数据不能直观地观察到。相反,我们计算生成的关系嵌入与聚类中心 x r c x_r^c xrc对应关系之间的余弦相似度。可以看出,我们的方法确实对许多关系生成了可信的关系嵌入,并且链接预测性能与关系嵌入的质量正相关。

在这里插入图片描述
在这里插入图片描述

讨论

在文本信息方面,我们采用简单的bagof-words模型,而不是基于神经网络的文本编码器,如CNN和LSTM。我们确实尝试过这些相对复杂的编码器,但它们的性能勉强令人满意。我们分析,其中一个主要原因是这些编码器中附加的可训练参数集降低了对抗性训练的难度。换句话说,生成器更有可能过拟合训练集;因此,生成器在处理看不见的关系时泛化能力较差。虽然词袋模型在这里取得了更好的性能,但它仍然缺乏语义多样性,特别是当理解一个关系类型需要考虑其文本描述中的词序列信息时。另外,正如背景中提到的,我们的零拍设置是基于一个统一的实体集e。它可以理解为通过添加现有实体节点之间不可见的关系边来扩展当前的大规模知识图。进一步考虑看不见的实体肯定会更有益。我们把这两点留到以后的工作中。

结论

在本文中,我们提出了一种新的生成对抗的零距离知识图关系学习方法,我们利用gan从原始文本描述中生成可信的关系嵌入。在此条件下,将零样本学习转化为传统的监督分类问题。我们工作的一个重要方面是,我们的框架不依赖于特定的KG嵌入方法,这意味着它是模型无关的,可以潜在地应用于任何版本的KG嵌入。通过实验,我们的模型在不同数据集的不同基线上取得了一致的改进。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值