论文链接: Metagraph Neural Network for Semi-supervised learning in Attributed Heterogeneous Information Networks
来源:ASONAM 2019
摘要
异构信息网络由不同类型的节点组成,这些节点通过不同的语义关系相互连接。在许多实际应用中,信息网络中的节点经常与附加属性相关联,从而产生了属性HINs(或AHINs)。本文研究了在有限监督条件下,基于节点结构、节点类型和属性对节点进行分类的半监督学习算法(SSL)。最近,图卷积网络(GCNs)在一些基于图的SSL任务中取得了令人印象深刻的成果。然而,它们在同构网络上运行,而对真实HIN中的类型化节点和关系的语义完全无关。
在本文中,我们试图弥合语义丰富的HINs和图神经网络的邻域聚合范式之间的差距,通过元图语义(metagraph semantics)来泛化GCNs 。我们提出了一种新的元图卷积运算,从局部元图结构的邻域中提取特征,从而在AHINs中捕获语义高阶关系 。 我们提出的Meta-GNN神经结构通过使用多个元图来提取不同语义的特征,并使用一个新的元图注意模块来学习每个节点的个性化元图偏好。我们在多个真实的AHIN数据集上进行的半监督节点分类实验表明,与最先进的AHIN基线相比,Micro-F1的平均性能显著提高了6%。元图注意力权重的可视化可以对其相对的特定任务重要性产生可解释的见解。
1 引言
基于图的半监督学习(SSL)是一种重要的机器学习范式,目的是给定一个小子集的标记节点[1],分类图中的未标记节点。关键目标是通过利用更容易获得的未标记数据来避免人为数据标签的昂贵成本。基于图的SSL在各种数据挖掘应用中非常流行,比如对社交网络[2]、[3]中的用户进行分析,对书目网络[4]中的出版物进行分类,对推荐系统[5]、[6]中的用户兴趣进行建模。
经典的SSL技术采用平滑性假设,在直接连接的节点共享标签(同质性)的假设下,通过显式的基于图的正则化[1]传播标签。然而,在现实世界的网络中,链接常常超越相似性来指示语义,例如不同对象[7]之间的关系。图卷积网络(GCNs)[8] -[10]的最新进展将图结构和节点属性结合起来考虑。具体来说,GCNs[9]通过节点属性的本地邻域聚合来描述感兴趣的目标节点,并在几个SSL任务中取得了令人印象深刻的进展。然而,GCNs是为同构网络设计的——同构网络代表了奇异类型的节点和关系。
许多真实世界的应用程序显示为异构信息网络(HINs),其中包含多种类型的节点,这些节点以不同的语义关系相互连接。例如,具有作者、论文和地点节点的书目网络(如DBLP),包括共同著者、共同引用、在同一地点发表等不同的语义关系。HINs通常包括节点属性,例如Facebook中的“用户”有年龄、性别、位置和雇主属性,而DBLP中的“出版物”是通过文本内容来描述的。虽然可以将位置和发布地点等离散属性视为不同的节点类型,但复杂的数字属性和文本内容排除了这种类型表示。为了用属性丰富异构信息网络的信息内容,我们考虑了属性异构信息网络。
与同构网络和HIN相比,AHIN中的半监督学习明显更具挑战性。例如,要在DBLP中对作者进行分类,她的合著者和发表地点说明了提供相关特性的上下文节点。然而,这些上下文节点具有不同的属性并发挥不同的作用,这是因为(a)不同的节点类型,如场所与共同作者,或(b)相同节点类型之间不同的结构方向,如被引用与被引用的出版物。因此,需要考虑结构和属性的相互作用,结合HIN语义,从局部邻域中准确提取相关特征进行分类。
受最近GCNs成功的启发,我们的目标是用语义丰富的ahin统一图神经网络的局部邻域聚合范式。我们通过元图将图卷积推广到AHIN。在hin中,元路径和元图被广泛用于编码不同的语义关系,应用于各种数据挖掘任务[4],[12]。我们提出元图卷积来聚合由元图结构指定的局部邻域的特征。我们确定了由元图卷积提供的两个关键的有趣见解:
- 语义高阶局部性:元图通过特定的子-子结构指定语义关系,从而提供了捕获语义高阶局部性(与近邻相比)的原则框架,例如作者(目标)通过合著论文连接到其他作者(上下文)。
- 精确的语义角色:元图能够根据节点类型和结构连接模式对本地上下文节点进行准确的语义角色区分,例如作者分类中共同作者(上下文)和发表场所(上下文)的角色。
HINs由多个元图组成,这些元图表达不同的语义关系,具有不同的任务特定相关性,例如,将作者与地点联系起来的元图(图1(a)中的m1)强烈指示了他们的研究领域,而共同作者关系(图1(a)中的m3)在识别研究群体方面提供了更多信息。每个元图的相关性可能进一步依赖于所考虑的特定节点。这给自动学习每个节点个性化任务特定的元图首选项带来了新的挑战。
为此,我们引入了一个新的元图注意力模块来学习个性化的元图偏好。近年来,注意机制在许多自然语言处理任务中取得了巨大的成功,如机器翻译[13]等。关注的关键目标是学习一个聚焦于输入中最相关部分的函数,以计算一个聚合表示。与通常在节点[10]的粒度上应用注意力相比,我们在更高的抽象级别(元图)上应用注意力,以实现双重好处:(a)对其区别能力的可解释洞察力,(b)与节点级注意力相比的计算效率。我们将主要贡献总结如下:
- 通过利用元图定义目标节点周围的局部上下文或接受域,我们引入了一种新的概化图卷积到属性异构信息网络。
- 我们提出了一个新的神经结构Meta-GNN,它使用多个元图卷积层,以及一个注意机制来学习每个节点的个性化元图偏好。
- 我们在多个真实数据集上的实验证明了Meta-GNN在实现最先进的半监督分类性能方面的有效性。
2 相关工作
我们的工作涉及同构和异构信息网络中基于图的SSL文献。
基于图的半监督学习(同构):图的半监督学习是近年来研究较多的问题,主要有两大类技术:(a)基于图的显式正则化方法和(b)图嵌入方法。在[15]中可以找到对经典SSL方法的全面调查。图嵌入方法通过预测局部图邻域[16]-[18]来学习无监督节点表示,然后使用学习的嵌入进行下游监督分类。虽然这些方法是通用的,但嵌入的学习是独立于潜在的学习任务。
最近,图神经网络被用于解决图分类[19]和半监督节点分类任务[8],[9],[20]-[22]。我们的工作与GCN[9]密切相关,它聚集了同等重要的邻域特征。GraphSAGE[21]对GCN进行了概括,以探索大量的表达聚合器,而GAT[10]采用注意机制,通过成对的特征相关性来学习上下文节点的不同权重。然而,所有这些技术都仅适用于同构网络。相反,我们关注AHIN,其中建模异构语义对于学习合适的邻域聚合函数是至关重要的。
3 问题定义
在本节中,我们介绍了一些初步的概念,并正式定义了属性异构信息网络(AHINs)上的半监督学习问题。
4 元图卷积神经网络
6 总结和未来工作
本文研究了基于属性异构信息网络的半监督学习。我们引入了一种新的元图卷积运算来建模高阶局域性和区分局部异构邻域中节点的语义角色。我们提出了一种新的神经结构Meta-GNN,它采用多个卷积层,每个卷积层都增加了一个注意模块,以学习每个节点的个性化元图偏好。在多个真实数据集上的实验结果表明,在几个最先进的基线上有显著的收益。
我们发现了未来工作的几个有趣而具体的方向。直接基于主题的扩展操作在同质网络上,产生令人鼓舞的结果[37]。首先,我们的框架可以很容易地推广到GCN之外,加入表达性邻域聚合函数,如汇聚[21]和注意[10]聚合。其次,邻域采样[21]策略可以促进元gnn扩展到非常大的图。最后,我们还计划检查更大的元图的影响,特别是在具有更复杂的异构交互的领域。
总结
这篇文章的形式化定义实在太多,待我好好理清再说
本文的一个整体思想也比较好理解的,作者提出了一个新的元图的概念,定义新的元图卷积进行节点表示,然后再将不同元图上的节点表示进行融合,本文采用注意力机制,得到最终的节点表示。
与HAN等采用元路径的区别文中也有提到,即是在元图这一更高的粒度上采用注意力机制。