Deep Collective Classification in Heterogeneous Information Networks -----WWW 2018, April 23-27, 2018, Lyon, France
【摘要】在过去的十年里,(协作分类Collective classification)集体分类引起了相当大的关注,在这种情况下,一组国家的标签是相互关联的,应该集体推断,而不是单独推断。传统的聚类方法主要是利用简单的关系特征(如计数和相邻节点上存在的聚合器)。然而,许多实际应用程序都涉及实例之间复杂的依赖关系,这些依赖关系隐藏在网络中。为了在集体分类中捕获这些依赖关系,我们需要超越简单的相关特性,并提取实例之间的深层依赖关系。
本文研究了异构信息网络中的深度集中分类问题Heterogeneous Information Networks (HINs),它涉及到实例之间不同类型的自相关,从简单到复杂的关系。复杂的自相关关系与传统的自相关关系不同,传统的自相关关系是由网络中的链接显式给出的,复杂的自相关关系在HINs中是模糊的/隐藏的,应该按照层次顺序从现有的链接中推断出来。由于节点之间存在多种类型的依赖关系以及关系特性的复杂性,这个问题非常具有挑战性。在本研究中,我们提出了一种深度卷积的集合分类方法GraphInception来学习HINs中的深度关系特征。该方法可以自动生成具有不同复杂度的关系特征层次结构。在四个真实世界网络上的大量实验表明,我们的方法可以通过考虑HINs中的深层关系特性来提高集合分类性能。
Heterogeneous Information Network:
在许多实际应用中,网络包括多种类型的节点和链接,称为异构信息网络。
Collective Classification in HINs:
本文主要研究一类节点上的集合分类问题,而不是所有节点上的集合分类问题。原因是不同类型节点的标签空间有很大的不同,所以假设所有类型的节点共享同一组标签概念是不合理的。例如,在电影网络中,例如IMDB[9],电影类型分类任务的标签概念只在电影节点上定义,而不是在导演节点或演员节点上定义。在特定的推理任务中,我们通常只关心一种类型节点上的推理结果。
Multi-channel Network Translation:
通常,我们只关心一种类型的节点,而不关心HINs中的所有节点。为了简化学习曲线,我们提出了多通道网络,其中每个通道是由目标节点类型组成的同构网络,并且从具有不同语义含义的HIN中提取链接(关系)。在本小节中,我们首先介绍一个名为meta path[34]的概念,它通常用于提取HINs中实例之间的关系。然后提出了如何将HIN转换成基于元路径的多通道网络。Metapath定义为关系序列:
表明是合著者关系的元路径关系如下:
每个元路径定义了节点之间唯一的关系,可以用作多通道网络中特定通道的链接类型(multi-channel network)为了更有效地学习实例之间的依赖关系,我们将HIN转换为多通道网络,其中网络的每个通道都通过某种类型的元路径连接。
To simplify the learning curve, we propose the multi-channel network, each channel of which is a homogeneous network consisting of the target nodes type, and the links (relationships) are extracted from the HIN with different semantic meaning. where each channel of the network is connected via a certain type of meta path.
把大图分成用不同的元路径连接的各个子图。
构建元路径的方法有很多:一开始,元路径是由专家手工构建的;在此基础上,提出了在有限路径长度[16]下采用广度优先搜索和基于贪心树模型[24]构造元路径的方法。在本文中,我们选择广度优先搜索来构造元路径。
Previously, we introduced how to translate a HIN G to a multi-channel network G’ where each channel of the network represents a particular relationship between the nodes in V1
之前,我们介绍了如何将HIN G转换为多通道网络G',其中网络的每个通道代表V1中节点之间的特定关系, 注意,我们在不同的通道上使用不同的卷积滤波器,(最后concat the convolution results)最后得到卷积结果。原因是每个通道上的节点有不同的邻居节点,不适合用一个滤波器对所有通道进行卷积。