本期专栏给大家分享一篇基于种子匹配的图匹配算法论文(论文链接),论文第一作者为新南威尔士大学的HAIDA ZHANG,具体信息如下:
专栏作者 | 吕芳锐,中国人民大学信息学院
专栏编辑 | 王涵之
前言:给定两个图结构
关键词:基于种子匹配的图匹配,高阶图结构信息
一、问题定义:基于种子匹配的图匹配
图匹配问题应用广泛,主要包括:图网络的去匿名化、交叉网络中的推荐和分类等。本篇论文关注基于种子匹配的图匹配问题,具体描述为:给定图结构
现有的图匹配可大致划分为依靠结构信息的匹配和依靠语义特征的匹配,本文关注的基于种子匹配的图匹配问题属于基于图结构信息的匹配算法,这是因为:
- 语义特征难以获得;
- 在大多数应用中,图结构特征是辨别网络中节点信息的关键。
- 语义特征容易被用户填写的虚假信息影响。
二、相关算法:Percolation Graph Matching(PGM)
作为基于种子匹配的代表性图匹配算法之一,PGM算法旨在利用邻居信息完成图节点匹配。已经完成匹配的节点对会提高其邻居节点对的匹配得分,得分越高的节点对,形成正确匹配的可能性越高。PGM算法的最大问题在于只关注了局部节点,容易导致匹配错误。例如在下图所示情况中:
若
同时,传统PGM算法还会出现过早终止的问题,导致算法的召回率极低。在种子匹配集合较小的情况下尤为明显。
三、算法介绍:Personalized PageRank based Graph Matching (PPRGM)
为了避免只关注局部结构信息而出现的匹配错误,本篇论文将图上的一阶邻居信息和高阶结构信息相结合,从种子匹配出发逐层向外完成节点匹配。在向外扩展节点匹配时,本篇论文不再简单地局限于一阶邻居,改为借助随机游走的方式向周围节点扩展。此处所述的随机游走为带有衰减的随机游走,即每次游走时,都以
其中
借助两个待匹配图结构上节点对间的相似度得分,便可以按照得分从高到低的顺序进行匹配预测。
Personalized PageRank(PPR)
为了更严谨地描述随机游走过程及相关概率,本文引入了Personalized PPR(下简称PPR)的概念。PPR是图研究领域代表性的节点邻近度度量指标,给定图结构
匹配评分
匹配评分函数是整个PPRGM算法中最重要的一部分。在上文中,我们基于有衰减的随机游走,给出了图
如果图
上述相似度评分充分利用了种子匹配集里的所有信息,提升了算法的健壮性。
贪婪算法
基于匹配评分函数,论文首先给出了一个利用贪婪算法的图匹配函数(选择评分最高的节点)。该算法首先为种子匹配集中的点添加标记,然后计算
贪婪算法有两个很严重的问题:首先,这种算法具有过高的时间复杂度;其次当种子匹配集过小的时候该算法并不能找到一个高质量的匹配。
PPRGM:
PPRGM算法以贪婪算法为基础,并且针对贪婪算法存在的两个问题:时间复杂度过高和小种子匹配集性能较差的问题,进行了优化,具体表现为:
- 针对贪婪算法时间复杂度过高的问题: PPRGM引入了heavy hitters机制,只返回相对较大的PPR,避免了对所有节点进行PPR计算的过程,从而提高了算法的计算速度。
- 针对种子匹配集过小时的匹配质量问题:PPRGM提出了“假种子匹配”的概念,即针对已有种子匹配集过小的问题,将少数较早被匹配的点加入到种子集中来扩大种子匹配集的大小。这些后加入的种子匹配称为“假种子匹配”,假种子匹配构成的集合称为“假种子匹配集”,本文中用
表示假种子匹配集。在假种子匹配集的补充下,令,则图和上的节点相对于集合的结构相似度得分表示为:
PPRGM算法的伪代码如下图所示。
PPRGM算法的主要思路是:首先初始化候选集合
PPR heavy hitters
给定源节点,PPR heavy hitters希望找到那些PPR值较大的节点。如前所述,PPR是节点邻近度的一种度量方式,PPR值较大的节点意味着更近的邻近度和更高的相对源节点的重要性。在PPRGM算法中,PPR的计算多次出现,包括节点对结构相似度得分中的PPR计算、候选集扩展过程中利用PPR寻找扩展集元素等。如果每次PPR计算都精确返回源节点与所有节点的PPR值,则每次计算都至少需要
候选集拓展
对于匹配集
在上述扩展过程中,给定已完成匹配的节点对
匹配标准和推迟策略
为了减少小种子匹配集引入的误差,论文提出了一种推迟策略(Postponing Strategy):在匹配初期,设置苛刻的匹配条件提高匹配准确度,保证假种子匹配集的准确性。在之后的匹配过程中,逐渐放松匹配条件,扩大匹配范围。通过这种策略,最大程度地保证前期匹配的准确性,延后不确定的匹配决策。具体而言:定义
对于一个正确的节点对,可能会出现以下两种我们不愿意看到的情况:首先,虽然这个节点对评分高于他的竞争节点对,但他不在候选集中;此外,它和他的竞争节点对都在候选集中,但是在当前状态下他的评分不如其他某个竞争节点对高。
为了减少这种错误决策,论文提出:如果
-
(是一个预先设定的参数);
- 没有与节点对
相关的竞争节点对。当的竞争节点对的得分超过的得分倍的时候,我们称是一个的竞争节点对,即要求的得分比所有的竞争节点的得分对都要大倍及以上。
当一个节点对不满足以上条件时,他就是一个不确定的节点对,算法会推迟这个节点对的决策。当算法将更多的节点加入到结果集
在算法运行初期,设置较大的阈值以便算法准确识别节点对(论文中
鲁棒性优化
PPRGM中的评分函数可能会在PPR值较小的时候,受到微小扰动的较大影响,导致了算法的不稳定性。因此,论文在评分函数中添加了平滑参数
论文中根据经验将
算法复杂度分析
给定两个待匹配的图
其中,
四、实验结果
作者全面对比了PPRGM算法与其他最新的算法的准确率,效率和鲁棒性,PPRGM算法相比于其他算法都有明显的优势。
实验设置
- 数据集
论文通过以下三种方式得到了实验所用的待匹配的图结构:
- 从一个真实世界的图中通过采样获得两个子图 (Table 2);
- 选取同一张图在不同时间的两个快照(Table 4);
- 对应同一实体网络的两张不同的真实网络(Table 3)。
- 对比算法:EWS、FRUI、AE、GSANA、REGAL
- 结果分析:
EWS,REGAL,GSANA和AE算法太慢,无法在4小时内完成对Youtube和WikiTalk数据集的实验,而EWS和REGAL算法无法在4小时内完成对DBLP-ACM的实验。对于这些算法,论文给出了这些算法在计算4小时后的部分结果,在实验结果中用括号标注。
Table 5中,
在算法所用时间上,HOE和NE也很有竞争力,FRUI在大多数情况下是最快的,但是他的召回率非常低。因为每种算法的时间和召回率差异很大,论文利用每个正确匹配平均所用时间来对比算法的效率,其中HOE和HE是最快的。对于每种算法,考虑的候选对越多,匹配时间也就越长。NE和HOE通常比其他算法考虑更少的候选对,这是因为它们直接利用了高阶结构信息,有助于识别真正的匹配项而无需生成大量候选集。在Fig 4 c中,HOE和NE算法随着候选集的增加所用时间也是线性增加的,这验证了之前对时间复杂度的分析。
在Fig 5中,可以看到,即使Twitter,Dblp和Superuser数据集上只有4个种子,或者DBLP-ACM上只有16个种子,HOE和NE都达到了很高的F1分数。提供更多种子后,性能会略有提高。而FRUI算法是仅利用邻居信息的传统PGM算法的代表,对种子数量非常敏感,种子数量越高准确率也就越高。
在Fig 6中,作者测试了算法的鲁棒性,逐渐提高错误种子的数量,HOE和NE也维持了不错的效果。因为任何一对节点都从随机错误的种子节点收集到了相似的PPR值,相当于坐标的改变,对于所有节点而言,都受到同样的来自错误种子节点的变化,在数值上会有相似的变化,但这不会对匹配造成影响。
随着
论文还分析了其他几个参数对算法的影响,其中
- 实验总结:
- 与最新算法相比,HOE和NE具有更高的召回率和精度。
- HOE和NE通常比以前的方法更具可扩展性,并且NE在每次正确匹配的时间上是最有效的方法。
- HOE和NE仅需要很少的种子即可达到最高的精度和召回率,且鲁棒性很好。
- PPRGM中所有参数的设置(
除外)不受基础数据集的影响,这大大简化了参数的调整。
-
在平均距离较大的图上应该设置的更小,反之在平均距离更小的图上应该设置的更大。
五、论文回顾:
- 针对基于种子匹配的图匹配算法,本篇论文提出了一种基于PPR的评分方式,对节点匹配的质量进行评估。相较于以往只关注一阶邻居信息的评分方式,基于PPR的匹配评分融合了节点周围的高阶邻居信息,评分效果更好,匹配质量更佳。
- 本篇论文以贪心算法为基础,优先加入当前评分最高的节点匹配。
- 本篇论文提出了一系列的优化策略提高匹配的质量和效率,如通过考虑PPR heavy hitters节省PPR计算的时间、采用延迟决策的策略提高节点匹配的准确度等。
- 本篇论文在大量的大规模真实图上进行了实验,实验结果表明PPRGM的性能表现优于其他算法。