【TKDE2020】Pre-Trained Models for Heterogeneous Information Networks

文章目录

摘要

在网络表示学习中,我们学习如何在低维空间中表示异构信息网络,以便于有效的搜索、分类和预测解决方案。以前的网络表示学习方法通常需要足够的任务特定的标记数据来解决特定领域的问题。训练后的模型通常不能转移到域外的数据集。我们提出了一种自监督的预训练和微调框架,PF-HIN,以捕获异构信息网络的特征。与传统的网络表示学习模型需要对每个下游任务和数据集重新训练整个模型不同,PF-HIN只需要对模型和少量额外的特定于任务的参数进行微调,从而提高模型的效率和有效性。在预训练过程中,我们首先将给定节点的邻域转换为序列。PF-HIN基于两个自监督任务,掩蔽节点建模和相邻节点预测进行预训练。我们采用深度双向变压器编码器对模型进行训练,并利用分解嵌入参数化和跨层参数共享来减少参数。在微调阶段,我们选择了四个基准下游任务,即链接预测、相似度搜索、节点分类和节点聚类。在四个数据集上,PF-HIN在每一项任务上的表现都持续且显著优于最先进的替代方案

1 引言

复杂信息往往涉及多种类型的对象和关系。这些信息可以通过异构信息网络[1]表示。在一个HIN中,不同类型的节点(对象)通过边(关系)[2]连接。相对于只有单一类型节点的同构网络,HINs提供了更丰富的建模工具,为搜索、分类和预测任务[3]提供了更有效的解决方案。
为了挖掘HIN所捕获的丰富信息,网络表示学习(NRL)将网络嵌入到低维空间中。NRL已经引起了研究界的极大兴趣。经典的网络嵌入模型,如DeepWalk[4]、LINE[5]和node2vec[6],已经被设计用于同构网络,使用随机漫步来捕获网络结构。然而,这些方法缺乏捕捉具有多种对象和关系类型的异构信息网络的能力。因此,提出了专门为HINs设计的模型[7-9]。这里的中心概念是元路径,它是节点类型的序列,中间是边缘类型。为了利用节点和元路径之间的关系,已经提出了不同的机制,例如异构的SkipGram[7]、接近距离[8]和Hardmard函数[9]。由于元路径捕获节点的邻域结构的能力有限,这些NRL方法的性能受到限制。
最近,图神经网络(gnn)在网络结构建模方面显示出了很有前景的结果[10-12]。gnn通常涉及编码器,编码器能够探索和捕获一个节点周围的邻域结构,从而提高表现一个HIN的性能。然而,gnn需要用监督信息对任务进行端到端的训练,并且在一个数据集上学习的模型不能轻易地转移到其他域外的数据集上。对于不同的数据集和任务,上面列出的方法需要重新训练。此外,特别是在大规模的数据集上,可用的标记数据的数量很少足以进行有效的训练。

受到语言技术中预训练框架的启发[13-15],研究非语言学习的预训练模型是一种趋势。特别是,图形对比编码(GCC)[16]和GPT-GNN[17]是该流中最先进的解决方案然而,它们主要是针对泛型NRL提出的,这意味着它们忽略了HINs的异构特征;虽然它们一般适用于HINs,但在处理HINs时,它们往往会出现不足(如下文第5节的经验证明)。
我们的目标是克服上述的缺点,并提出1)预训练模型在大型数据集使用的监督任务,和2)下游为一个特定的任务在一个特定的数据集,usefine-tuning技术与一些特定于任务的参数,以提高效率和有效性的模型。我们引用这个两阶段(训练前和微调)框架来探索HIN的特征,即PF-HIN。

给定HIN中的一个节点,我们首先通过将其转换为序列来探索节点的邻域,以便更好地捕捉邻近结构的特征。然后根据节点间中心性、特征中心性和贴近中心性对节点进行排序。我们使用秩引导异构漫步生成序列,并将不同类型的节点分组为所谓的小序列,即相同类型[12]的节点序列。
我们为PF-HIN设计了两个训练前任务。一种是掩蔽节点建模(MNM)任务,该任务中有一定百分比的节点被掩蔽,我们需要对这些掩蔽节点进行预测。此操作的目的是帮助PF-HIN学习特定类型的节点特性。另一个任务是相邻节点预测(ANP)任务,其目的是捕获节点之间的关系。给定一个具有序列Xi的节点ui,我们的目标是预测具有序列Xj的节点uj是否相邻节点。为了进一步提高PF-HIN的效率,我们采用了两种策略来降低参数,即分解嵌入参数化和跨层参数共享。我们用于预训练的大规模数据集是开放学术图(open academic graph, OAG),包含1.79亿个节点和20亿个边。
在微调过程中,我们选择了四个基准下游任务:1)链接预测,2)相似度搜索,3)节点分类,4)节点聚类。在链接预测和相似度搜索中,我们使用节点序列对作为输入,分别识别两个节点之间是否存在链接,并度量两个节点之间的相似度。在节点分类和节点聚类任务中,我们使用单个节点序列作为输入,分别使用softmax层进行分类和k-means算法进行聚类。
在我们的实验中,这意味着PF-HIN是可以跨数据集转移的,除了OAG的一个子集标记为OAG-mini,我们还包括下游任务的其他三个数据集:DBLP、YELP和YAGO。PF-HIN在这些下游任务上一贯且显著优于目前的先进水平

6 结论

研究了异构信息网络的网络表示学习问题。我们提出了一个新的模型,PF-HIN,以挖掘由HIN捕获的信息。PF-HIN是一个自我监督的前训练和微调框架。在训练前阶段,我们首先使用秩引导的异质行走生成输入序列,并将其分组成(基于类型的)小序列。我们使用的预训练任务是掩蔽节点建模(MNM)和相邻节点预测(ANP)。然后利用双向变压器层对模型进行预训练。采用分解嵌入参数化和跨层参数共享策略来减少参数的数量。Wefinetune PF-HIN的四个任务:链接预测、相似度搜索、节点分类和节点聚类。在四个真实数据集上,PF-HIN在上述任务上的表现显著且持续优于最先进的模型。
在未来的工作中,我们计划在多种信息检索任务的背景下进行进一步的图学习任务,包括但不限于学术搜索、金融搜索、产品搜索和社交媒体搜索。我们也很感兴趣的是,如何利用训练前和微调框架来模拟一个不断发展的动态HIN。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值