来源:AAAI 2019
论文链接: https://www. aaai.org/Papers/AAAI/20 19/AAAI-LuY.5171.pdf
源码链接: https:// github.com/rootlu/RHINE
Introduction
现有的大多数 Network embedding 的相关工作都着眼于同质信息网络 homogeneous networks ,这些工作大多利用已有的深度模型,结合网络的特征,学习网络中节点或边的特征表示。代表性模型包括:DeepWalk,LINE,SDNE 模型等,借助于深度自动编码机来抽取网络结构的非线性特征。然而同质信息网络只包含单一类型的节点与边,并不能很好地模拟现实世界中多种信息类型的情况。
异质信息网络 heterogeneous information networks (HINs) 包含多种节点类型与边类型,涵盖更多信息,更加复杂。目前有一些基于meta-path的random walk方法,也有一些拆分成子图进一步处理的方法,还有一些基于神经网络的非线性映射方法。这些方虽然都考虑了网络的异质性,但都是通过单一模型来解决问题。
本文考虑对异质信息网络中不同的结构区别建模。
Challenge
- 如何划分不同结构,如何确定其划分的标准
- 如何建立不同的模型捕获不同结构的特征
- 不同模型之间如何很好地融合
Contribution
本文提出了RHINE:Relation structure-aware HIN Embedding。首先,本文中把各种关系分为了两种结构:一对多的从属关系Affiliation Relations (ARs) 和一对一的相互关系Interaction Relations (IRs)。 对于具有相似属性的AR节点,我们计算其欧式距离,作为相似度度量,实现降维;对于并列关系的IR节点,我们使用translations进行建模。
Structural Characteristics of Relations
Dataset
本文采用DBLP, Yelp 和 AMiner 三个数据集。
其中 DBLP 是一个学术信息数据库,包含:author (A), paper (P), conference (C), term (T) 四种节点类型; 考虑 {AP, PC, PT, APC, APT}五种关系类型.
Yelp 是一个社交关系数据集,包含 user (U), business (B), reservation (R), service (S), star level (L) 五种节点类型; 考虑 {BR, BS, BL, UB, BUB} 五种关系类型。
AMiner 也是一个学术信息数据集,包含 author (A), paper (P), conference (C), reference (R) 四种节点类型;考虑 {AP, PC, PR, APC, APR} 五种关系类型。
对于关系类型(meta-path)的选取,基于前人工作,这里只考虑重要、有用的部分,而非全部。
数据集统计信息如表1所示
Affiliation Relations and Interaction Relations
Affiliation Relations(AR) 和 Interaction Relations(IR) 分别表示从属关系(一对多)与相互关系(一对一)两种关系类型,为了进行分辨,这里基于节点的度定义测度D(r):
其中,定义关系r,节点u与节点v,三元组(u, r, v)。
直观上可以理解,如果D(r)非常大,那么两个节点应当有一个节点的邻节点非常多而另一个节点的邻节点非常少,基本可以判断为从属关系。同理,如果D(r)非常小,基本可以判断为是相互关系。
Relation Structure-Aware HIN Embedding
对于AR和IR两种关系结构,我们需要分别建模。
AR
对于AR,考虑到以下两点:
- AR关系的节点通常具有相似属性,在向量空间中的距离较近,因此可以用欧式距离度量。
- 欧式距离可以保留一阶相似性(描述两个点的直接连接状态)和二阶相似性(描述一对节点的邻居节点的结构相似度)。
选择在低维空间中用相邻节点的欧式距离进行测度。对于三元组
将
其中
IR
对于IR,采用基于translation的模型(平移不变性)来测度其距离。定义距离公式为:
其中,
类似地,
Unify
由于上述测度都是距离,整体模型可以很好地进行统一:
Sampling Strategy
如表1所示,在数据集中,AR与IR分布很不平衡,AR与IR所包含的关系类型也不平衡,为了进行修正,这里依照概率分布采样正样本,通过对正样本三元组头尾实体的随即替换得到负样本。
Experiments
Node Clustering
通过K-means进行节点聚类。
从结果中可以看出,适用于同质信息网络的方法效果都比较差。
Link Prediction
将链接预测视为多个二分类问题。本任务中,在DBLP和AMiner数据集上,我们预测co-author (A-A) 以及 author-conference (A-C)两种关系;在Yelp上,我们预测user-business (U-B)关系。
Multi-Class Classification
这里采用和节点聚类任务同样的数据。
此任务下,RHINE并不全都表现最佳的原因主要在于PR 和 APR两种关系存在噪声,即一个作者在撰写论文时可能引用多个领域的文献。
Conclusion
本文提出了基于关系结构的HIN embedding :RHINE,将关系分为了IR与AR两种结构,提出了对不同关系结构分别建模的思想,取得了良好的效果。