AutoSF- Searching Scoring Functions for Knowledge Graph Embedding

AutoSF: Searching Scoring Functions for Knowledge Graph Embedding

Abstract


衡量知识图(KG)中三元组合理性的得分函数(SFs)已成为KG嵌入的关键。近年来,人类已经设计了许多以捕获KGs中各种关系为目标的SFs。然而,由于关系可以呈现出复杂的模式,这些模式在训练前很难推断出来,因此在现有的基准数据集上,没有一个关系能够始终如一地比其他关系表现得更好。在本文中,受自动化机器学习(AutoML)最近成功的启发,我们建议使用AutoML技术为不同的KGs自动设计SFs (AutoSF)。但是,在这里研究特定于领域的信息以提高AutoSF的效率并不是件容易的事。首先,我们确定了一个通用的SFs的统一表示,这有助于建立AutoSF的搜索空间。然后,我们提出了一个贪婪算法来在这样的空间中有效地搜索。通过一个过滤器和一个预测器进一步提高了算法的速度,避免了重复训练具有相同表达能力的SFs,有助于在模型训练前的搜索过程中去除不好的候选对象。最后,我们在基准测试数据集上进行了大量的实验。在链接预测和三元组分类方面的结果表明,AutoSF搜索的SFs是KG依赖的,是文献中比较新颖的,优于人类设计的最先进的SFs。

1. Introduction


知识图(KG)是一种以实体为节点、以关系为边的特殊图结构,对数据挖掘和机器学习都很重要,并启发了各种下游应用,如结构化搜索、问答、推荐。在KGs中,每条边都被表示为一个具有形式(头实体、关系、尾实体)的三元组,表示为(h, r, t),一个基本问题是如何量化三元组(h, r, t)s的合理性。KG嵌入(KGE)是近年来出现并发展起来的一种很有前途的方法。基本上,给定一组观察到的三元组,KGE试图学习实体和关系的低维向量表示,以便三元组的可信性能够被量化。得分函数(SF)根据嵌入值返回(h, r, t)的分数,用于度量可信性。SF一般是人为设计和选择的,对嵌入的质量有显著影响。

自KGE发明以来,文献中已经提出了许多SFs。设h、r、t的嵌入向量分别为h、r、t。TransE嵌入模型, 将三元组(h,r,t)解释为从头节点h到尾节点t的联系r。这种关系满足h + r = t。TransE的变体有TransH和TransR,这些模型把嵌入向量放到了不同的空间当中,并且使得模型关系的嵌入扩展为一对多、多对一和多对多。这些模型被称为平移距离模型(TDMs)。但在一些论文工作中,TDMs的表达并不充分,其表现不如其他模型。RESCAL, DistMult,ComplEx,Analogy和最近提出的SimplE,使用一个双线性函数 h T R t h^TRt hTRt对三元组的可信度进行建模,其中R为与嵌入关系相关的方阵。这些模型属于双线性模型(BLMs)。不同的双线性模型使用不同的约束对关系矩阵R进行规范,以适应不同的数据集。受深度网络成功的启发,一些神经网络模型(NNMs)也开始探索SFs,如MLP[7]、NTM[34]、neural LP[47]和ConvE[6]。尽管神经网络功能强大,表达能力强,但NNMs在KGE领域的表现并不好,因为没有得到很好的正则化。

在现有的SFs中,基于BLM(双线性模型)的SFs是最强大的,这可以从最先进的结果和对表现力的理论保证看出。然而,由于不同的知识图谱在关系上有不同的模式,一个能很好的适应一个KG的SF可能在另一个KG上表现并不好。此外,设计新的SFs以超越最先进的SFs是一个挑战。因此,如何选择和设计一种适合于某一KG的高质量SF是一个不容忽视的难题。

最近,自动机器学习(AutoML)在很多机器学习任务和应用中展示了它的力量,如模型选择,图像分类,和推荐。为了针对不同的任务选择合适的模型和超参数,提出了超参数优化(hyperparameter optimization, HPO)来有效地找到更好的配置,这之前需要大量的人力。AutoML的另一个热门趋势是为深度学习模型寻找更好的神经网络。神经结构搜索(NAS)已经识别出比人类设计的网络参数更少、性能更好的网络。

受AutoML成功的启发,我们的目标是为KGE设计更好的和新的数据依赖的SFs。具体地说,我们提出了自动评分函数(AutoSF),它可以自动搜索给定KG的SF。它不仅可以减少人类在设计新的SFs时的工作量,还可以使人适应不同的KGs,但要实现上述目标并不容易。在应用AutoML时,需要认真考虑两个重要的方面:搜索空间和搜索算法,搜索空间有助于找出下属问题的重要性质,搜索算法决定了寻找空间中更好点的效率。在这项工作中,我们为实现目标做出了以下贡献:

  • 首先,我们对现有的SF进行了观察, 这允许我们以统一的形式表示基于BLM的SF。在统一表示的基础上,我们将SF的设计制定为一个自动问题,即AutoSF,并建立相应的搜索空间。这个空间不仅足够具体,可以涵盖人类设计的优秀的SF,而且也足够普遍,可以包括文献中没有提到的新颖的SF。
  • 其次,我们观察到不同的KG在对称、不对称、逆等关系上有不同的性质是非常常见的,这启发我们对KGE模型进行领域分析,设计约束条件,有效引导后续空间搜索。
  • 第三,我们提出了一个渐近贪婪算法来搜索这样的空间。进一步构建一个过滤器来避免训练冗余的SFs,以及一个带有专门设计的对称相关特征(SRF)的预测器来选择有前景的SF。该搜索算法通过捕获候选SF的特定域属性,可以显著减小搜索空间的大小。
  • 最后,在链接预测和三元组分类的5个流行基准上的实验结果表明,由AutoSF搜索的SF优于人类设计的最先进的SF。此外,搜索的SF是KG依赖的,对文献来说是新的。我们进一步对搜索到的SF进行研究,为KG的分析提供手段,为以后的研究更好地理解嵌入技术。

2. Related Works


A. 知识图谱嵌入(KGE)

给定一组观察到的(正的)三元组,KGE的目标是学习实体和关系的低维向量表示,使观察到的三元组(h, r, t)的f(h, r, t)度量的合理度最大化,而非观察到的三元组最小化。要建立KGE模型,最重要的是设计和选择一个合适的SF函数f,它度量了基于嵌入的三元组的可信度。由于不同的SFs有不同的优缺点,所以f的选择对于KGE的性能至关重要。大量的KGE模型与流行的SFs遵循相同的框架(alg1), 使用随机梯度下降。

在这里插入图片描述

在步骤5中,为positive三元组(h,r,t)采样m个negative三元组(h,r,t)使用选择的positive和negative三元组基于loss函数更新嵌入参数。negative三元组全部采样于 S ~ ( h , r , t ) \widetilde{S}_{(h,r,t)} S (h,r,t),这个S包括了所有针对当前的positive三元组观察不到的三元组,通过一些固定的分布或动态的采样方案。
接下来,梯度计算是基于给定的SF和嵌入,并用于更新模型参数(步骤6)。Hinge损失和logistic损失铰链的损失被普遍写作L .本文,我们使用多级损失,因为目前达到最好的性能且非常稳定。

现有的人工设计的SFs主要分为三类:

  • 平移距离模型(TDMs):平移方法利用了基于距离的SFs。受词语类比的启发,得到单词嵌入[2],通过关系进行平移后,根据两个实体之间的距离来度量可信性。在TransE[4]中,SF由h+r与t之间的(负)距离定义,即 f ( h , r , t ) = − ∣ ∣ h + r − t ∣ ∣ 1 f(h, r, t) =−||h+r−t||1 f(h,r,t)=h+rt1。其他基于TDMs的SFs,例如TransH[43]、TransR[12],通过引入额外的映射矩阵来增强TransE。

  • 双线性模型(BLMs):这一组中的SFs利用基于product的相似性来利用三元组的可信度。一般来说,他们共享形式 f ( h , r , t ) = h T R t f (h, r,t) = h^TRt f(h,r,t)=hTRt,其中 r ∈ R d × d r∈R^{d×d} rRd×d指的是一个矩阵嵌入关系r。RESCAL直接利用R. DistMult[46]对每个关系的嵌入进行建模,通过将R约束为对角,克服了RESCAL的过拟合问题。ComplEx允许R和h, t为复数值,从而支持处理非对称关系。HolE[29]用一个循环相关来代替点积运算,但被证明与ComplEx是等价的。其他变体如Analogy,SimplE以不同的方式规范化矩阵R。

  • 神经网络模型(NNMs):神经模型的目的是输出基于以实体和关系嵌入作为输入的神经网络的三元组的概率。MLP和NTN是典型的神经模型。它们都使用大量的参数来组合实体和关系的嵌入。ConvE利用卷积神经网络来增加嵌入的不同维数之间的交互。经证明,TDMs(平移距离模型)的表达能力低于BLMs,从而导致其实证表现较差。基于深度网络的强大功能,NNMs也被引入KGE中。但是,由于模型的复杂性和训练难度的增加,以及缺乏特定领域的约束,它们的性能仍然不如BLMs。因此,我们在续集中讨论BLMs。Table1中列出了最具代表性的blm。
    在这里插入图片描述

B. AutoML

自动机器学习(AutoML)[17],[50]最近展示了它在简化使用和设计更好的机器学习模型方面的力量。AutoML基本上可以看作是一个双层优化问题,我们需要通过训练数据集更新模型参数,通过验证数据集调优超参数。关于AutoML的成功,有两个重要的观点:

  • 搜索空间:这有助于找出底层学习模型的重要属性,并为自动问题建立搜索空间。首先,空间需要足够普遍,以涵盖作为特殊情况的人类智慧。但是空间不能太一般,否则在空间里搜索会太昂贵。
  • 搜索算法:与凸优化不同,没有通用的高效优化工具。一旦确定了搜索空间,就需要开发有效的算法来搜索空间中的好点。

我们以NAS和HPO为例。NAS中的搜索空间由网络操作跨越,如不同大小的卷积、跳转连接。为实现高效优化,提出了多种定制算法,如强化学习[55]、进化算法[44]、一次性算法[23]、[51]等。对于HPO,贝叶斯优化[11]、[13]通常是自定义来搜索学习工具的超参数所构成的空间。本文是实现知识图自动嵌入的第一步。然而,这样一个步骤并不简单,因为以前在NAS和HPO中使用的自变量方法不能直接应用于KGE。主要的问题是在定义搜索空间和设计高效的搜索算法时需要探索特定领域的属性,从而以更低的成本获得有效的搜索效果。

3. 搜索的问题


如第二节所述,SF的新设计近年来不断提高KGE的性能。 但是,在人为设计的SF中没有绝对的赢家。 此外,由于不同的KG通常在关系上表现出不同的模式,因此如何选择合适的SF来实现良好的性能并非易事。 这时提出了一个问题:我们是否可以为给定的KG自动设计具有良好性能保证的SF? 在这一部分中,我们将AutoSF定义为搜索问题,并基于KG属性对搜索空间进行深入分析以解决该问题。

A. AutoSF: Searching for SFs

SF对于KGE来说非常重要,而不同的KG具有独特的属性,我们就把设计一个新的和更好的SF作为一个搜索问题。并且我们定义这个问题如下:

Definition 1: (自动机器学习),让F(P;g) 作为一个KGE模型,嵌入P = { h , r , t } \left \{ h,r,t \right \} {h,r,t},结构是g, P = { h , r , t } P = \left \{ h,r,t \right \} P={h,r,t}衡量在一系列三元组S上的KGE模型F的表现,搜索SF的问题可以用公式描述为:
g ∗ ∈ a r g m a x g ∈ G M ( F ( P ∗ ; g ) , S v a l ) s . t . P ∗ = a r g m a x g ∈ G M ( F ( P ∗ ; g ) , S t r a ) g^*\in arg max_{g\in G}M(F(P^*;g),S_{val}) \\ s.t. P^*= arg max_{g\in G}M(F(P^*;g),S_{tra}) gargmaxgGM(F(P;g),Sval)s.t.P=argmaxgGM(F(P;g),Stra)
其中,G包含了g的所有可能的选择, S t r a S_{tra} Stra S v a l S_{val} Sval表示训练和验证数据集。

同NAS,和HPO一样, AutoSF被表述为一个双层优化问题。
我们首先需要在训练集上训练模型获得P∗(聚合模型参数), 然后寻找一个在测试集上表现更好的结构g(通过学习聚合模型参数来选择更好的结构g)。然而,我们可以看到AutoSF的g的搜索空间和搜索策略从根本上不同于以前AutoML作品。它们与KGE的研究领域密切相关。

B. 搜索空间:BLM SFs的统一表示

为了解决AutoSF问题,第一个问题是:什么是一个好的搜索空间G,搜索空间G的重要性质是什么。然后我们来看看常用的SF,RESCAL评分函数由于没有扩展性,所以我们不研究。表格1中的模型把可训练参数矩阵 R ∈ R d × d R \in R^{d \times d} RRd×d调整成和整个嵌入维度一致的。因此,我们把只是图谱中的关系嵌入尺寸做一个约束,约束得和整体嵌入的尺寸是一致的。并且学习不同的方式来把关系嵌入r映射成一个方阵。 R ∈ R d × d R \in R^{d \times d} RRd×d除此之外,正如表格1所总结的那样,重要的性质是对称的、反对称的、非对称的、反转的,这些关系对于一个好的SF来说是很重要的。因此,一个好的搜索空间应该能够处理这些重要的关系。另外,不同的SF调整参数矩阵 R ∈ R d × d R \in R^{d \times d} RRd×d的方式是不同的,因此,我们要研究“怎样去调整不同KG上的关系矩阵。”

为了创造这样的空间,我们可以看到这些SFs之间有两个主要区别。

  • 嵌入可以是实数,也可以是复数。
  • 在分割嵌入向量时,不同的SFs以不同的方式组合它们,如Analogy和SimplE。

(1) 处理复数嵌入,复数向量 v ∈ C d , v = v r e + i v i m v \in C^d,v=v_{re}+iv_{im} vCd,v=vre+ivim由实部和虚部组成,为了处理复数嵌入,我们使用2维实向量 [ v r e , v i m ] [v_{re},v_{im}] [vre,vim]来表示d维复向量.让复数嵌入 h = h r e + i h i m h=h_{re}+ih_{im} h=hre+ihim,其中$h_{re},h_{im} \in R^d $,然后ComplEx就可以表示为:
R e ( ⟨ h , r , c o n j ( t ) ⟩ ) = ⟨ h r e , r r e , t r e ⟩ + ⟨ h i m , r r e , t i m ⟩ + ⟨ h r e , r i m , t i m ⟩ − ⟨ h i m , r i m , t r e ⟩ Re(\left \langle h,r,conj(t) \right \rangle) =\left \langle h_{re},r_{re},t_{re} \right \rangle + \left \langle h_{im},r_{re},t_{im} \right \rangle+\left \langle h_{re},r_{im},t_{im} \right \rangle-\left \langle h_{im},r_{im},t_{re} \right \rangle Re(h,r,conj(t))=hre,rre,tre+him,rre,tim+hre,rim,timhim,rim,tre
相似地,DistMult二维嵌入也可以表示为:
⟨ h , r , t ⟩ = ⟨ h r e , r r e , t r e ⟩ + ⟨ h i m , r i m , t i m ⟩ \left \langle h,r,t \right \rangle = \left \langle h_{re},r_{re},t_{re} \right \rangle+\left \langle h_{im},r_{im},t_{im} \right \rangle h,r,t=hre,rre,tre+him,rim,tim
(2) 处理不同的嵌入向量分割块:为了使训练参数一致,我们还使用了二维实值嵌入来表示Analogy和SimplE。
正如表1所示的那样,Analogy嵌入分为实部 h ^ ∈ R d \hat{h}∈R^d h^Rd,和虚部$\breve{h} , 这 两 个 串 起 来 形 成 一 个 实 向 量 , 这 ,这两个串起来形成一个实向量,这 ,\left [ \hat{h}{re}, \breve{h}{im} \right ] $,然后SF就被分成了
⟨ h ^ , r ^ , t ^ ⟩ + R e ( ⟨ h ˘ , r ˘ , c o n j ( t ˘ ) ⟩ ) \left \langle \hat{h},\hat{r},\hat{t} \right \rangle + Re(\left \langle \breve{h},\breve{r} ,conj(\breve{t})\right \rangle) h^,r^,t^+Re(h˘,r˘,conj(t˘))
在SimplE,两个独立的嵌入向量 h ^ ∈ R d , h ˘ ∈ R d \hat{h} \in R^d,\breve{h} \in R^d h^Rd,h˘Rd用来表示每个实体和关系,结果SF变成
⟨ h ^ , r ^ , t ^ ⟩ + ⟨ h ˘ , r ˘ , t ˘ ⟩ \left \langle \hat{h},\hat{r},\hat{t} \right \rangle+\left \langle \breve{h},\breve{r},\breve{t} \right \rangle h^,r^,t^+h˘,r˘,t˘
(3)统一的表示:为了处理两个不同部分,ComplEx vs DistMult 和Analogy vs SimplE,我们把嵌入向量 h ∈ R d h \in R^d hRd分为 h = [ h 1 ; h 2 ; h 3 ; h 4 ] h=[h_1;h_2;h_3;h_4] h=[h1;h2;h3;h4].以此来覆盖上述四个模型的SF,h分成k部分,这个k可以取任何值,为了便于处理我们就取k=4,这样上述四种模型的SF就可以被表达为:
D i s t M u s t : f ( h , r , t ) = ⟨ h 1 , r 1 , t 1 ⟩ + ⟨ h 2 , r 2 , t 2 ⟩ + ⟨ h 3 , r 3 , t 3 ⟩ + ⟨ h 4 , r 4 , t 4 ⟩ C o m p l E x : f ( h , r , t ) = ⟨ h 1 , r 1 , t 1 ⟩ + ⟨ h 1 , r 3 , t 3 ⟩ + ⟨ h 3 , r 1 , t 3 ⟩ − ⟨ h 3 , r 3 , t 1 ⟩ + ⟨ h 2 , r 2 , t 2 ⟩ + ⟨ h 2 , r 4 , t 4 ⟩ + ⟨ h 4 , r 2 , t 4 ⟩ − ⟨ h 4 , r 4 , t 2 ⟩ A n a l o g y : f ( h , r , t ) = ⟨ h 1 , r 1 , t 1 ⟩ + ⟨ h 2 , r 2 , t 2 ⟩ + ⟨ h 3 , r 3 , t 3 ⟩ + ⟨ h 3 , r 4 , t 4 ⟩ + ⟨ h 4 , r 3 , t 4 ⟩ + ⟨ h 4 , r 4 , t 3 ⟩ S i m p l E : f ( h , r , t ) = ⟨ h 1 , r 1 , t 3 ⟩ + ⟨ h 2 , r 2 , t 4 ⟩ + ⟨ h 3 , r 3 , t 1 ⟩ + ⟨ h 4 , r 4 , t 2 ⟩ DistMust:f(h,r,t)=\left \langle {h_1},{r_1},{t_1} \right \rangle + \left \langle {h_2},{r_2},{t_2} \right \rangle + \left \langle {h_3},{r_3},{t_3} \right \rangle +\left \langle {h_4},{r_4},{t_4} \right \rangle \\ ComplEx:f(h,r,t)=\left \langle {h_1},{r_1},{t_1} \right \rangle + \left \langle {h_1},{r_3},{t_3} \right \rangle + \left \langle {h_3},{r_1},{t_3} \right \rangle -\left \langle {h_3},{r_3},{t_1} \right \rangle + \left \langle {h_2},{r_2},{t_2} \right \rangle + \left \langle {h_2},{r_4},{t_4} \right \rangle +\left \langle {h_4},{r_2},{t_4} \right \rangle - \left \langle {h_4},{r_4},{t_2} \right \rangle \\ Analogy:f(h,r,t)=\left \langle {h_1},{r_1},{t_1} \right \rangle + \left \langle {h_2},{r_2},{t_2} \right \rangle + \left \langle {h_3},{r_3},{t_3} \right \rangle +\left \langle {h_3},{r_4},{t_4} \right \rangle + \left \langle {h_4},{r_3},{t_4} \right \rangle + \left \langle {h_4},{r_4},{t_3} \right \rangle \\ SimplE:f(h,r,t)=\left \langle {h_1},{r_1},{t_3} \right \rangle + \left \langle {h_2},{r_2},{t_4} \right \rangle + \left \langle {h_3},{r_3},{t_1} \right \rangle +\left \langle {h_4},{r_4},{t_2} \right \rangle DistMust:f(h,r,t)=h1,r1,t1+h2,r2,t2+h3,r3,t3+h4,r4,t4ComplEx:f(h,r,t)=h1,r1,t1+h1,r3,t3+h3,r1,t3h3,r3,t1+h2,r2,t2+h2,r4,t4+h4,r2,t4h4,r4,t2Analogy:f(h,r,t)=h1,r1,t1+h2,r2,t2+h3,r3,t3+h3,r4,t4+h4,r3,t4+h4,r4,t3SimplE:f(h,r,t)=h1,r1,t3+h2,r2,t4+h3,r3,t1+h4,r4,t2
基于以上公式,所有的得分函数可以形成为 f ( h , r , t ) = h T R t f (h,r,t) = h^TRt f(h,r,t)=hTRt。令 D i r = d i a g ( r i ) D_i^r=diag(r_i) Dir=diag(ri),i∈{1,2,3,4},这些SFs的R形式可以图形化表示为图1。通过这种方式我们可以看到,四个SFs的主要区别在于其填充4×4块矩阵的方式(图1(e))。
在这里插入图片描述

基于这样一种模式,我们就可以确定出基于BLM的SF的搜索空间,如定义2:

定义2:(搜索空间G),让g®返回一个 4 × 4 4\times4 4×4矩阵,每一个元素都是 [ g ( r ) ] i j = d i a g ( a i j ) [g(r)]_{ij} = diag(a_{ij}) [g(r)]ij=diag(aij)其中, a i j ∈ 0 , ± r 1 , ± r 2 , ± r 3 , ± r 4 a_{ij} \in {0, \pm r_1, \pm r_2, \pm r_3, \pm r_4} aij0,±r1,±r2,±r3,±r4 $for i,j \in {1,2,3,4} $. 然后,SF就可以表示为
f u n i f i e d ( h , r , t ) = ∑ i , j ⟨ h i , a i j , t j ⟩ = h T g ( r ) t f_{unified}(h,r,t) = \sum_{i,j}\left \langle h_i,a_{ij},t_j \right \rangle = h^Tg(r)t funified(h,r,t)=i,jhi,aij,tj=hTg(r)t
备注III.1(搜索以正则化BLM)。 注意,图5所示的SF以不同的形式约束关系矩阵R,这可以看作是不同的正则化方案。 通过这种方式,AutoSF旨在搜索如何规范化关系矩阵,以适应不同KG中的不同关系属性。 另外,依赖数据的正则化不能轻易地形成为训练过程中的约束,这促使我们使用AutoML来基于验证集性能进行搜索。

备注III.2(通用搜索空间)。 由于深度网络的最新成功[15]和多层感知器(MLP)的逼近能力[5],人们可能想将MLP用作(2)的f。 但是,MLP的设计也是一个搜索问题,非常耗时[55]。 此外,任意大的MLP将导致极大的空间。 正如[49]中所验证的那样,通用逼近器MLP对于NAS来说是一个糟糕的选择,并且其性能要比使用强化学习的逼近器更差[55]。

4. 搜索策略


在这里,我们提出了一个有效的搜索策略来解决基于KGs中特定领域属性的AutoSF问题。

A. 算法设计中的挑战

与其他AutoML问题一样,AutoSF的搜索问题是黑箱型的,搜索空间巨大,而且由于需要进行模型训练和评估,搜索的每一步代价都非常昂贵。这些问题之前已经被强化学习[55],贝叶斯优化[13]和遗传编程[44]等算法所触及。但是,在这里它们不是一个好的选择,因为我们有特定领域的问题,例如KGE中的Expressiveness和invariance,这些问题更具有挑战性。

(1) Expressiveness:从定义2中可以看出不是所有的SF都是一样好的,定义3意味着SF重要的是能够更好地处理KG中常见的关系。对f和g®的需求在Table2中(表中的关系分别为:对称、反对称、非对称)

在这里插入图片描述

Definition 3:如果f可以处理对称、反对称、一般不对称和逆关系,那么f是expressiveness。

为了确保f能够处理上面这几种关系,我们提出命题1:如果 g ( r ) g(r) g(r)对于一些关系r是对称的,即 g ( r ) T = g ( r ) g(r)^T=g(r) g(r)T=g(r),同时对于另一些关系r’是反对称的,即 g ( r ′ ) T = − g ( r ′ ) g(r')^T=-g(r') g(r)T=g(r)。那么规则f是expressive的。

在这个命题下,为了避免平凡解,我们对结构g引入以下约束:

g ( r ) g(r) g(r) 与r对称并且与 r ′ r^{'} r反对称。(确保g能处理对称与反对称关系)

g ( r ) g(r) g(r)没有零行/列,覆盖所有r1到r4,并且没有重复的行/列. (过滤器处理这个约束,通过确保没有非满秩的矩阵来确保不在不好的以及等价的模型上多次计算)

对于(C1),g(r)的对称性决定了给定SF可以基于命题1建模的关系。对于(C2),如果g中有零行/列,则相应的嵌入维将无用。 这意味着这些尺寸永远不会在训练期间进行优化。

上述约束对于找到潜在的良好候选结构g∈G很重要,并且它们在筛选出不良g的过程中起着关键作用,从而设计出高效的搜索算法。 正如定义3和命题1中一样,我们需要处理约束(C1)来实现Expressiveness。 由于g仅代表一种结构,因此具有挑战性,但是(C1)的精确检查取决于r中的值,这些值事先未知。 幸运的是,我们可以通过赋值检查它。 以图2(a)中的SF为例。 我们可以看到,如图2(b)所示,通过分配r3 = r1和r4 = r2可以使g(r)对称,而如图2(b)所示,通过设置r3 = -r2和r4 = -r1可以反对称 C)。 这是解决表达力的关键思想。

在这里插入图片描述

(2) invariance:按照第III-B节的定义,将嵌入分为4部分,即 r = [ r 1 ; r 2 ; r 3 ; r 4 ] r = [r1; r2; r3; r4] r=[r1;r2;r3;r4]。在进行嵌入训练之前,对 r i r_i ri进行重新排列将导致等效的结构,因为此处的“ 1、2、3、4”仅是每个组件的标识,并且在此阶段这些组件是等效的。例如,我们可以置换r = [r1; r2; r3; r4]变成r = [r2; r1; r3; r4]。即使r1和r2改变了位置,通过在训练后更改相应的值,学习的嵌入也可能是相同的。因此,SF的结构对于 r i r_i ri的排列是不变的。同样,由于h和t共享相同的嵌入参数e,因此通过同时置换 h i h_i hi t i t_i ti生成的SF也等效。此外,如果我们翻转某些 r i r_i ri的符号,我们可以通过在训练后翻转那些 r i r_i ri的真实值来学习相等的嵌入。总而言之,存在三种不变性:置换嵌入 h i h_i hi t i t_i ti的实体,置换嵌入 r i r_i ri的关系和翻转符号。图2(d-f)给出了三种情况的示例。设h,r,t为SF g1的嵌入,而 h ˉ , r ˉ , t ˉ \bar{h},\bar{r},\bar{t} hˉ,rˉ,tˉ为另一个SF g2的嵌入,则g2由g1的不变性形成。在模型训练后,我们将得到 h T g 1 ( r ) t = h ˉ T g 2 ( r ˉ ) t ˉ h^Tg_1(r)t = \bar{h}^Tg_2(\bar{r})\bar{t} hTg1rt=hˉTg2rˉtˉ。因此,一旦我们知道其中一个SF的性能,就很难训练和评估这些等效项。

B. 改进的贪婪算法

如在III-B节中一样,在结构g中再增加一个块表示在f中再增加一个非零乘法项,即
f b + 1 = f b + s ⟨ h i , r j , t k ⟩ f^{b+1} = f^b+ s\left \langle {h_i},{r_j},{t_k} \right \rangle fb+1=fb+shi,rj,tk
其中$s \in \left { \pm 1 \right } 并 且 并且 i,j,k \in \left { 1,2,3,4 \right }$.为了有效地进行搜索,我们提出了一种基于上述归纳规则(7)的渐进式贪婪算法,该算法可以以阶段性的方式显着减少搜索空间。 使用(7)逐步生成SF的直觉是逐渐调整关系矩阵g(r)。 但是,贪婪搜索通常会导致次优解决方案[38],当面对AutoSF中的表达性和不变性挑战时,这种解决方案可能会更加严重。 因此,我们使用过滤器和预测器来增强贪婪搜索,以专门处理第IV-A节中讨论的表达性和不变性。

在这里插入图片描述
在这里插入图片描述
(1) 完整程序:Alg.2显示了我们的渐进式贪婪算法。如定义2所示,令g中的非零块数为B,该组中的SF为 f B f^B fB。渐进式搜索的想法是,给定所需的B,我们从小块b开始,然后逐渐增加更多的块,直到b =B。这样,我们可以在步骤2-6贪婪地基于 τ b − 2 \tau ^{b-2} τb2中的顶部SF生成候选从而减少搜索空间。具体来说,**我们贪婪地在先前评估过的模型 τ b − 2 \tau ^{b-2} τb2中贪婪地拾取了前 K 1 个 f b − 2 K_1个f^{b-2} K1fb2。由于在步骤4中再加上两个乘法项以处理约束(C1),因此将生成N个候选,这是因为每一步骤添加一个块将导致仅位于对角线上。所有候选都是从b = 4生成的,并通过滤波器Q(请参阅IV-B2节)进行检查,以确保约束(C2)并避免训练等效项。**接下来,我们使用预测器P(参见IV-B3节)进一步选择 K 2 K_2 K2个有前途的候选者,然后在Alg.2的步骤7中使用Alg.1对其进行训练和评估。 P的训练数据是通过在步骤10,在 τ = τ 4 ∪ τ 6 ⋅ ⋅ ⋅ \tau= \tau^4∪\tau^6··· τ=τ4τ6中训练过的SF。

(2) 不变性-使用过滤器:在算法2中使用的过滤器Q具有两个功能:1)处理约束(C2)和2)由于不变性而删除等效结构。 约束(C2)很容易检查,给定g的结构,我们可以直接将其映射到4×4替代矩阵中,并使用{0,±1,±2,±2,±4}来表示 [ g ( r ) ] i j ∈ 0 , ± r 1 , ± r 2 , ± r 3 , ± r 4 [g(r )] ij∈{0,±r1,±r2,±r3,±r4} [gr]ij0±r1±r2±r3±r4。 然后,检查(C2)中的要求很简单,即检查4×4替代矩阵是否满足约束(C2)。

对于不变性,一旦生成满足约束(C2)的候选 f b f^b fb,我们将使用不变性属性来生成一组等效项 G f b G_{f^b} Gfb。 具体来说,我们可以
重新排列实体部分,关系部分或翻转符号以获得与 4 ! × 4 ! × 24 = 9216 4!×4!×24 = 9216 4×4×24=9216当量的 f b f_b fb。 如果$G_{f^b} \cap H^b \cap T^b \neq \varnothing $
由于采样集 H b H^b Hb和历史记录 T b T^b Tb中存在等效结构,因此我们将 f b f^b fb丢弃。 此步骤可以极大地帮助我们减少训练等效结构的成本。 以 f 4 f^4 f4为例,通过过滤器将整个空间从 A 16 4 × 2 4 A^4_{16}×2^4 A164×24减少到5,即 f 4 f^4 f4中只有五个好的候选项。 此外,由于候选数小于N,因此在Alg.2的步骤5中为f4添加了条件例外。

(3) 可表达性——构造预测器:即使过滤器有助于丢弃许多毫无希望的候选项,它也不会处理约束(C1)。 因此,在收集了N个候选者之后,我们使用预测变量P在其中进一步选择K2个有希望的候选项。 考虑到特定KG上SF的性能与SF的形成方式密切相关,我们可以使用学习模型(即预测器P)来预测性能并提前选择好候选者。 通常,我们需要为搜索算法访问过的点提取特征,然后使用学习模型基于这些特征预测验证性能。 以下是良好的预测变量需要满足的原则:

① 与真实的性能很好地关联:预测器不需要准确地预测验证性能的准确值,相反,它应该将好的候选者与坏的候选者进行排序;②从小样本中学习:由于要获得搜索空间中每个点的真实性能是很昂贵的,因此预测变量的复杂度应该较低,以便可以从少量样本中学习。

根据原理①,从g中提取的特征应该与定义的SF的质量紧密相关。同时,特征的构造应该便宜,也就是说,它们不应该依赖于训练前未知的r值。对于②,特征的数量应少以保证简单的预测变量。因此,我们有动力设计对称相关特征(SRF),它可以有效地捕获g(r)可以对称或反对称的程度(命题2),并且复杂度低。与过滤器类似,我们也使用4×4替代矩阵表示g。如图3所示,我们使用v = [v1; v2; v3; v4]代表[r1; r2; r3; r4],则可以通过 g ( v ) − g ( v ) T g(v)-g(v)^T gvgvT g ( v ) + g ( v ) T g(v)+ g(v)^T gv+gvT检验g的对称和偏对称性。由于 g ( v ) g(v) gv是一个简单的4×4矩阵,因此检查过程非常便宜。然后,通过为v分配不同的值(附录C中的详细信息),将返回22维SRF。考虑到在命题2下可以保证SRF与SF的性能之间的相关性,我们可以使用一个简单的两层MLP(22-2-1)作为预测变量P。其他具有低复杂度的回归模型也可以在这里使用。

在这里插入图片描述

C. 搜索复杂性分析。有16个块,每个块可以填充9个不同的内容 0 , ± D r 1 , ± D r 2 , ± D r 3 , ± D r 4 {0,±Dr1,±Dr 2,±Dr 3,±Dr 4} 0±Dr1±Dr2±Dr3±Dr4。 因此,整个空间大小为 9 16 9^{16} 916,这非常大。 贪婪的策略,预测器和过滤器从不同的角度削减了空间。 具体来说,在每个贪婪的步骤中:

  • 贪婪:考虑到fb在 f b − 2 f^{b-2} fb2上逐渐生成,其中$b = 6,8,. . . , 可 以 有 ,可以有 C^2_{16-(b-2)} \times 4^2 \times 22$个候选项($C2_{16-(b-2)} $用于选择位置, 4 2 4^2 42用于两个 r i s r_is ris 2 2 2^2 22用于符号)。 相比之下, f b f^b fb中可能存在 C 16 b × 4 b × 2 b C^b_{16} \times 4^b \times 2^b C16b×4b×2b可能的SF。 以b = 6为例,有 2 × 1 0 9 2×10^9 2×109个可能的候选者。 由于 f 6 f^6 f6是根据f4中的5个好候选项生成的,因此基于贪心方案,我们将空间大小从 2 × 1 0 9 2×10^9 2×109减小到大约 3 × 1 0 4 3×10^4 3×104
  • 滤波器:我们设计的滤波器主要用于处理不变性。 排列ri导致 4 ! = 24 4! = 24 4=24个等效结构。 同时排列hi和ti也会得到24个等值。 此外,还有24 = 16种可能的符号模式。 因此,给定一个g(r),我们最多可以生成(在该集合中可能存在相同的结构)24×24×16 = 9216个等效SF,它们应该执行相同的功能。 此外,通过在约束(C2)下约束SF,还可以过滤掉许多不良候选对象。 以 f 4 f^4 f4为例,在大约700k可能的结构中仅选择了5个候选人进行训练。
  • 预测器:一旦生成了N个候选者,预测器将根据其预测性能选择K2个。 因此,预测因子的减少率约为 N / K 2 N / K_2 N/K2

虽然很难直接量化将三个步骤一起扩展到哪个位置可以帮助减少搜索空间,但我们可以观察到通过每个组件获得的效率的重要性。 此外,我们在V-E节中进行了一项实证研究,以显示这些步骤的性能提升。

D. 与现有的自动化方法进行比较

AutoML文献中最相关的工作是PNAS [22],它结合了贪婪算法和性能预测器,以搜索用于卷积神经网络(CNN)的单元结构。 但是,由于AutoSF的搜索空间与CNN的搜索空间根本不同,因此在PNAS中未使用该过滤器。 此外,PNAS对预测器采用直接一热编码,这在实证性能上很差(请参阅第V-E1节)。 至于其他AutoML方法,即使将AutoSF的搜索问题类似地定义为HPO [3],[9]和NAS [10],AutoSF的搜索空间和搜索算法也是新颖的,并且是专为KGE设计的。 他们没有直接的方法来应对IV-A节中的挑战。

五、实验研究

所有算法都是使用PyTorch框架用python编写的,实验在8台TITAN Xp gpu上运行。

A. 实验设置

a. 数据集:五个数据集WN18、FB15k、WN18RR、FB15k237、YAGO3-10.

在这里插入图片描述

WN18RR和FB15k237是分别从WN18和FB15k中删除近重复或反重复关系的变体,[37],[42]。 YAGO3-10比其他的大很多。 这些是基准数据集,在文献中通常用于比较KGE模型。对称,反对称,逆对和一般不对称的数量按以下方式计算:给定关系r,令正三元组 ( h , r , t ) (h,r,t) hrt的数量为 n r n_r nr。 (i)如果 ( t , r , h ) (t,r,h) trh的数目大于0.9 n r n_r nr,则我们认为它是对称的; (ii)如果 ( t , r , h ) (t,r,h) trh的数目为零并且h和t的联合集的大小至少为0.1 n r n_r nr(这是为了确保它们具有相同的类型),我们将其视为反对称的;(iii)如果存在另一个具有至少0.9 n r n_r nr的关系 ( t , r ′ , h ) (t,r',h) trh,则r和r’为反对; (iv)其他被视为普遍不对称。 阈值0.9和0.1是手工制作的,仅用于粗略地表示(其他值也可以)指示每个数据集的关系属性。

b. 超参数:由于搜索的嵌入模型属于BLM,因此我们可以将一组固定的超参数公平地比较不同的SF。为了减少训练时间,我们在搜索过程中将维度d设置为64。首先,我们使用SimplE [18]作为基准模型,并在HyperOpt(基于TPE的超参数优化框架)[3]的帮助下调整超参数。搜索范围如下:[0,1]中的学习速率η, [ 1 0 − 5 , 1 0 − 1 ] [10^{-5},10^{-1}] [105101]中的L2惩罚λ,[0.99,1.0]中的衰减速率,{256,512,1024}中的批处理大小m。对所有模型进行训练直到收敛,以避免收敛速度不同的影响。此外,我们使用Adagrad [8]作为优化程序,因为它倾向于表现更好,如[19],[39]中所示。一旦选择了良好的超参数配置,我们就可以使用它来训练和评估不同的搜索SF。搜索过程完成后,我们将根据验证数据集上的MRR性能评估得出的最佳SF作为搜索到的SF。当将搜索到的SF与人为设计的SF进行比较时,我们将维度从64增加到d∈{256,512,1024,2048},如[19]所示。如[42]所述,KGE模型对超参数敏感。为了公平地比较,我们使用相同的超参数集来训练和评估每个数据集上的不同模型。

c. 元超参数:超参数K1,K2和N对搜索过程影响很小。 对于所有数据集,我们使用K1 = K2 = 8和N = 256。 此外,图2中的步骤211基于内部循环而运行。 我们并行训练8个模型并进行32次迭代(对于YAGO3-10,则进行16次迭代),即对于每个b> 4,我们评估256 fbs。

B. 和现存的SF在链接预测任务上比较:

我们将AutoSF与在II-A节中讨论的最先进的KGE模型进行了比较,这些模型是由人类(即TDM的TransE [4],TransH [43]和RotatE [35])设计的;来自NNM的NTM [34],Neural LP [47]和ConvE [6];来自BLM的TuckER [1],HolE / HolEX [29],[45],Quat [53],DistMult [46],ComplEx [39],类比[24]和SimplE [18];以及基于规则的方法AnyBURL [27]。通过验证集上的MRR值选择超参数。根据[6],[18],[24],[39],[46],我们根据链接预测测试KGE的性能。对于每个三元组(h,r,t)∈S,其中S是验证集或测试集,我们计算所有h’∈E的(h’,r,t)得分并获得h的等级对于t,基于所有t’∈E上的(h,r,t’)得分,不像文献中那样比较r [40]。与上述论文相同,我们采用以下指标:(i)平均倒数排名(MRR):排名结果的, 1 ∣ S ∣ ∑ i = 1 ∣ s ∣ 1 r a n k i \frac{1}{|S|}\sum_{i=1}^{|s|}\frac{1}{rank_i} S1i=1sranki1其中 r a n k i , i ∈ 1 , . . . , ∣ S ∣ rank_i,i∈{1,...,|S|} rankii1,...,S是一系列排名结果。(ii)| S | i = 1 i = 1 I(ranki <10),其中I(·)是指标函数。我们在[4],[43]中的“过滤”设置下报告了性能,其中较大的MRR和H@10表示较高的嵌入质量。

a. 有效性:Table 4中显示了对AutoSF和当前最新SF的测试性能的比较。首先,我们可以看到基准SF中没有绝对的赢家。 例如,TuckER在WN18上是最好的,但在FB15k上人为设计的BLM中却是最差的。 除FB15k237之外,DistMult通常在基准测试中表现较差,因为它不遵循建议1。单个模型很难适应不同的KG。 但是,AutoSF在这五个数据集中的性能始终很好。 也就是FB15k,WN18RR,FB15k237和YAGO310中最好的,以及WN18上的亚军。 此外,我们在图4中绘制了DistMult,Analog,ComplEx,SimplE和AutoSF搜索的最佳SF的学习曲线。如图所示,搜索到的SF不仅跑赢了基线,而且收敛速度更快,这可能是因为这些SF可以 更好地捕获这些数据集中的关系。

在这里插入图片描述

在这里插入图片描述

b. 案例研究:独特性:为了表明所搜索的SF对文献而言是KG依赖的并且是新颖的,我们将它们绘制在图5中。很明显,这些SF彼此不同,并且在不变性方面并不等效。如标签所示。 III,WN18和FB15k具有许多对称,反对称关系和反关系对,在它们上搜索的最佳SF非常相似,并且具有相同的SRF。其他三个数据集更现实,并且包含较少的对称,反对称和逆关系,因此具有不同的SRF,较少的条目为非零。最特殊的情况是FB15k237,它只能在(S11)下对称。查看表4中的值。 我们可以看到FB15k237的领先性能是由DistMult和AutoSF实现的,两者都不能偏斜。如标签中的统计信息所示。第三,FB15k237具有相对较少的反对称关系。这可以解释为什么偏斜对称对g(r)并不那么重要。但是,SRF仍然适用于这些情况,因为可以意识到偏斜对称属性并不是那么重要,而是更加关注搜索不同的局部结构。
在这里插入图片描述

此外,我们从一个数据集中挑选出最好的SF搜索,然后在table5中对另一个数据集进行测试,我们可以很容易地发现,这些SF在搜索它们的数据集上获得最佳性能。 这再次证明由AutoSF在不同的KG上发现的SF彼此不同。

C.在三元组分类上和现存的SF进行比较

为了进一步证明搜索到的SF的有效性,我们进行了三元组分类,这项任务是确认给定 ( h , r , t ) (h,r,t) hrt是否正确,并且在回答是或不是问题时会更有用。分类的决策规则如下:对于每个 ( h , r , t ) (h,r,t) hrt,如果其得分大于关系特定阈值 σ r σ_r σr,我们预测该阈值为正,否则为负。 通过最大化验证集的准确性来确定阈值σr。我们在FB15k,WN18RR和FB15k237上测试了此任务,其中提供了正三元组和负三元组。 如表格6所示。搜索的SF始终优于人工设计的BLM。

在这里插入图片描述

D. 和其他的AutoML方法

在这一部分,我们比较了AutoSF和其他的搜索算法。WN18RR和FB15k237被用在这儿,所有的算法都共享相同的超参数。首先,为了展示BLM的搜索空间的有效性,我们训练了一个通用的逼近器(Gen-Approx),比如在测试集上的MLP,然后,然后,在f6上将AutoSF与随机搜索和贝叶斯算法[3]进行比较。 如图6所示,通用逼近器的性能比BLM差得多,因为它过于灵活而无法考虑特定于域的约束并且容易过拟合。 对于BLM设置,贝叶斯算法可以提高随机搜索的效率。 但是,它很容易陷入局部最优,并且不考虑域属性。 其中,AutoSF是最高效的,并且具有最佳的随时性能。

在这里插入图片描述

E. 消融研究

我们使用WN18RR和FB15k237来说明所提出的搜索算法中不同组件的重要性。

1)过滤器和预测器:为了显示过滤器和预测器的有效性,我们将它们从AutoSF中删除,并在图7中进行比较。如图所示,贪婪算法比随机搜索更有效。 过滤器和预测器都很重要。 删除过滤器或预测器将导致效率下降。 此外,与Greedy相比,即没有过滤器也没有预测器,它们都可以通过减少搜索空间来提高效率。

在这里插入图片描述

  1. SRF功能:如V-D节中所述,也可以使用one-hot表示作为SRF的替代方法。 我们比较图8中的两种功能。对于AutoSF(单发),使用96-8-1全连接神经网络,而22-2-1网络用于AutoSF(使用SRF),AutoSF(无预测变量)在此处显示为基线,与图7相同。

在这里插入图片描述

  1. 超参数的敏感性:

搜索Alg.2中使用了三个元超参数N,K1,K2。 我们在先前部分中报告的结果基于N = 256,K1 = 8,K2 =8。我们将N的值更改为128和512,将K2的值更改为4和16,并在图9中的f6上显示了搜索曲线。 由于b = 6,因此没有比较在fb-2中选择最佳候选者的参数K1,因为在f4中只有5个候选者。 可以看出,所有不同的设置都具有相似的性能,并且明显优于Greedy基准。
在这里插入图片描述

  1. 运行时间分析:

运行时间分析:我们在表格VII中显示AutoSF中不同组件的运行时间。 首先,与模型训练相比,滤波器和预测器(包括SRF计算)的运行时间短得多。

然后,由于每个贪心步骤都包含256个模型训练,因此最佳的SF可以在几个小时内(在8个GPU上)搜索出来,除了YAGO3-10耗时超过一天才能评估128个候选者。 相比之下,基于强化学习的搜索问题[55]在500个GPU中运行了4天; 基因编程[44]在单个GPU上需要17天; 和贝叶斯优化[13]在CPU上训练几天。 因此,提出的AutoSF使KGE上的搜索问题变得容易处理,并且在AutoML文献中非常有效。

在这里插入图片描述

6. 结论


在本文中,我们提出了AutoSF,一种可自动设计和发现KGE更好的SF的算法。 通过使用经过过滤器和具有领域特定知识的预测器增强的渐进式贪婪搜索算法,AutoSF可以从巨大的搜索空间中有效地设计有前景的,依赖于KG的SF,这在文献中是新发现的,并且性能优于人类设计的最新SF 。 在未来的工作中,一个有前途的方向是探索如何在特定于域的约束下有效地搜索网络结构中的NNM。 AutoSF中使用的贪婪算法在某种程度上限制了搜索空间的探索,这也是一个有待解决的潜在问题。

  • 4
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值