[读综述] 图嵌入的应用
- 论文原文:Graph Embedding Techniques, Applications, and Performance: A Survey (图嵌入技术、应用与性能:综述)
- 出版:Knowledge Based Systems 2018
作为图表示的一种方法,嵌入能应用于多种任务。这些任务大致可以分为网络压缩、可视化、聚类、链接预测和结点分类。
1 网络压缩
Feder 等人介绍了网络压缩的概念(即图简化)。对于一个图 G,它们将压缩图 G* 定义为该图的子图,该子图有更少数量的边。其目标是更有效率地存储图,更快地运行图分析算法。他们通过将原图分解为两部分,并用树替换它们来获得压缩图,从而减少了边的数量。
多年来,许多研究者使用基于聚合的方法来压缩图。这方面工作[69, 70, 71]的主要思想是探索图中边的结构来给结点和边分组。Navlakha 等人使用信息论中的最小描述长度对图进行汇总,并进行边纠正。
类似于这些表示,图嵌入也能解释为图的摘要。Wang 等人[23] 和 Ou 等人 [24] 通过从 embedding 构建原图并评估构建的误差,来显式地测试这一假设。他们表示每个结点的低维表示(大约 100)足以高精度地重建图。
2 可视化
可视化图的应用可以追溯到1736年,当时Euler用它来解决“柯尼斯堡七桥问题” [74]。 近年来,图可视化已在软件工程[75],电路[76],生物学[1]和社会学[2]中得到应用。 Battista等人[76] 和Eades等人[77] 调查用于绘制图和定义美学标准的一系列方法。 Herman等[78] 将其概括并从信息可视化的角度进行观察。他们研究并比较了用于绘制图形的各种传统布局,包括基于树,3D和双曲线的布局。
由于嵌入表示向量空间中的图,因此可以在其上应用降维技术(例如主成分分析(PCA)[79]和t分布随机邻居嵌入(t-SNE)[8])来可视化图。 DeepWalk [28]的作者通过可视化 Zachary 的空手道俱乐部网络来说明其嵌入方法的优点。 LINE [22]的作者可视化了DBLP共同作者网络,并表明LINE能够将同一领域的作者聚在一起。 SDNE [23]的作者将其应用于20-Newsgroup文档相似性网络,以基于主题获得文档集群。
3 聚类
图聚类(又称网络划分)可以有两种类型:(a) 基于结构的聚类和 (b) 基于属性的聚类。 前者可以进一步分为两类,即基于社区的聚类和结构上等效的聚类。 基于结构的方法[7,20,80],旨在找到密集的子图,这些密集的子图具有大量的簇内边和少量的簇间边。 相反,结构等价聚类[81]旨在识别具有相似角色的结点(如桥和异常值)。 基于属性的方法[19]除了观察到的链接外,还利用结点标签来集群结点。
White 等人[82] 在嵌入时使用k均值对结点进行聚类,并使在Wordnet和NCAA数据集上获得的聚类可视化,从而验证所获得的聚类具有直观的解释能力。 最近的嵌入方法尚未对此任务明确评估其模型,因此,这是图嵌入社区中一个有前途的研究领域。
4 链接预测
网络是根据观察到的实体之间的相互作用而构建的,这些相互作用可能不完整或不准确。挑战通常在于识别虚假交互并预测丢失的信息。
链接预测是指预测丢失的交互或将来可能在不断发展的网络中出现的链接的任务。链接预测在生物网络分析中无处不在,其中验证结点之间链接的存在需要进行昂贵的实验测试。将实验限于按存在可能性排序的链接已被证明具有很高的成本效益。在社交网络中,链接预测用于预测可能的朋友关系,该朋友关系可用于推荐并带来更令人满意的用户体验。Liben-Nowell等[5],Lu等[83]和Hasan等人[84]调查该领域的最新进展,并将算法分类为 (a)基于相似度的(局部和全局)[13,14,85],(b)基于最大似然度的[15,16]和(c)概率方法[17,18,86]。
嵌入技术可显式或隐式捕获网络的固有动态,从而使应用程序可以链接预测。Wang等[23]和Ou等人[24]根据公开的协作和社交网络上的学习结点表示预测链接。另外,Grover等人[29]将其应用于生物学网络。他们表明,在这些数据集上,使用嵌入预测的链接比上述基于传统相似度的链接预测方法更准确。
5 结点分类
通常在网络中,一部分结点被标记。在社交网络中,标签可以指示兴趣、信仰或人口统计。在语言网络中,文档可以标有主题或关键字,而生物学网络中实体的标签可以基于功能。
由于各种因素,对于大部分结点,标签可能是未知的。例如,在社交网络中,由于隐私问题,许多用户不提供其人口统计信息。可以使用标记的结点和网络中的链接来推断丢失的标签。预测这些丢失标签的任务也称为结点分类。
Bhagat等人[6]调查文献中用于此任务的方法。他们将这些方法分为两类,即基于特征提取和基于随机游走。基于特征的模型[11,12,87]基于结点的邻域和本地网络统计信息生成特征,然后应用Logistic回归[88]和朴素贝叶斯[89]等分类器来预测标签。基于随机游走的模型[9,10]通过随机游走传播标签。嵌入可以解释为基于网络结构自动提取的结点特征,因此属于第一类。最近的工作[28,22,24,23,29]评估了嵌入各种信息网络(包括语言,社会,生物学和协作图)的预测能力。他们表明,嵌入可以准确预测丢失的标签。
![6e512468-1019-eb11-8da9-e4434bdf6706.png](http://p05.5ceimg.com/content/6e512468-1019-eb11-8da9-e4434bdf6706.png)
![70512468-1019-eb11-8da9-e4434bdf6706.png](http://p05.5ceimg.com/content/70512468-1019-eb11-8da9-e4434bdf6706.png)
![71512468-1019-eb11-8da9-e4434bdf6706.png](http://p05.5ceimg.com/content/71512468-1019-eb11-8da9-e4434bdf6706.png)
![72512468-1019-eb11-8da9-e4434bdf6706.png](http://p05.5ceimg.com/content/72512468-1019-eb11-8da9-e4434bdf6706.png)