一、基本信息
论文题目:《Graph embedding techniques, applications, and performance: A survey》
发表时间:
论文作者及单位:
论文地址:https://www.sciencedirect.com/science/article/pii/S0950705118301540
二、摘要
图形,例如社交网络、单词共现网络和通信网络,自然地出现在各种现实世界的应用中。分析它们可以洞察社会结构、语言和不同的交流模式。已经提出了许多方法来进行分析。最近,在向量空间中使用图节点表示的方法受到了研究界的关注。在本次调查中,我们对文献中提出的各种图形嵌入技术进行了全面和结构化的分析。我们首先介绍嵌入任务及其挑战,例如可伸缩性、维度选择、要保留的特性以及它们可能的解决方案。然后,我们提出了基于因式分解方法、随机漫步和深度学习的三类方法,每一类都有代表性算法的例子,并分析了它们在各种任务中的性能。我们在一些常见的数据集上评估这些最先进的方法,并将它们的性能相互比较。我们的分析最后提出了一些潜在的应用和未来的方向。我们最终展示了我们开发的开源Python库,名为GEM (图形嵌入方法,可在https://github.com/palash1992/GEM获得),它在统一的界面中提供了所有展示的算法,以促进和便利对该主题的研究。
三、论文主要工作与内容
1、Introduction
由于网络在现实世界中的无处不在,近年来图分析越来越受到人们的关注。图(又名网络)已被用来表示各个领域的信息,包括生物学(蛋白质-蛋白质相互作用网络) [ 1,社会科学(友谊网络) [ 2 ]和语言学(词汇共现网络) [ 3 ]。将实体之间的相互作用建模为图形使研究人员能够以系统的方式理解各种网络系统[ 4】。例如,社交网络已被用于友谊或内容推荐等应用,以及广告[ 5】。图分析任务可以大致抽象为以下四类: ( a )节点分类[ 6 ],( b )链接预测[ 5 ],( c )聚类[ 7 ],以及( d )可视化[ 8 ]。节点分类旨在基于其他标记的节点和网络拓扑来确定节点的标签(也称为顶点)。链路预测是指预测缺失链路或未来可能出现的链路的任务。聚类用于发现相似节点的子集,并将它们分组在一起;最后,可视化有助于深入了解网络结构。
在过去的几十年中,已经为上述任务提出了许多方法。对于节点分类,大致有两类方法——使用随机游走传播标签[ 9,10的方法,以及从节点提取特征并对其应用分类的方法[ 11,12 ]。链路预测的方法包括基于相似性的方法[ 13,14 ],最大似然模型[ 15,16 ],和概率模型[ 17,18 ]。聚类方法包括基于属性的模型[ 19 ]和直接最大化(分别。,最小化)集群间(分别。集群内)距离[ 7,20 ]。该综述将提供一个分类法,用于捕获这些应用程序域和现有策略。
通常,为解决基于图的问题而设计的模型要么在原始图邻接矩阵上运行,要么在导出的向量空间上运行。最近,基于在向量空间中表示网络的方法,在保持网络特性的同时,已经成为[ 21–23的热门方法。获得这样的嵌入在上面定义的任务中是有用的。嵌入作为特征输入到模型中,参数是基于训练数据学习的。这消除了对直接应用于图形的复杂分类模型的需要。
1.1Chanllenge
获取图中每个节点的矢量表示本质上是困难的,并且具有几个挑战,这些挑战一直在推动本领域的研究:
(i)属性选择&