错误:没有任何匹配: mysql-community-server_论文阅读 | 图匹配算法PPRGM

245895f83f0c171c9b25e828793d36f2.png

本期专栏给大家分享一篇基于种子匹配的图匹配算法论文(论文链接),论文第一作者为新南威尔士大学的HAIDA ZHANG,具体信息如下:

98f401c8c94cc080533ade5a6d5915e8.png

专栏作者 | 吕芳锐,中国人民大学信息学院

专栏编辑 | 王涵之


前言:给定两个图结构

、及两个图结构上一小部分已经完成节点匹配的节点对集合
,基于种子匹配的图匹配问题希望借助已有的种子匹配,找到节点集
上所有节点的完全匹配,完成图结构
上的节点实体对齐。目前大多数的图匹配算法都试图通过探索图上局部结构的相似性完成节点匹配,这些算法在随机图上效果较好,但在真实图上的准确率不高,并且很难在超大图上运行。本篇论文提出了算法PPRGM,尝试利用Personalized PageRank(简称PPR)来衡量每对节点的匹配程度,并且提出了一种延迟决策策略来提高匹配结果的准确率,即当匹配到多个相似度相近的节点对,延迟匹配的决策时间。实验证明,PPRGM算法相较于state-of-art算法具有更高的准确率、召回率和更快的匹配速度。

关键词:基于种子匹配的图匹配,高阶图结构信息

一、问题定义:基于种子匹配的图匹配

图匹配问题应用广泛,主要包括:图网络的去匿名化、交叉网络中的推荐和分类等。本篇论文关注基于种子匹配的图匹配问题,具体描述为:给定图结构

和种子匹配集合
,基于种子匹配的图匹配问题希望借助已有的种子匹配集合
,找到两个图结构的节点集
上所有节点的匹配关系,完成图结构
上的节点实体对齐。这里,种子匹配集合为待匹配的两个图结构上一小部分已知的匹配节点对构成的集合。例如:如果
代表Facebook网络,
代表Twitter网络,现已知部分用户Facebook和Twitter账号的对应关系(即已知种子匹配集合
),我们希望借助图匹配算法找出其他用户两个账号的对应关系。

现有的图匹配可大致划分为依靠结构信息的匹配和依靠语义特征的匹配,本文关注的基于种子匹配的图匹配问题属于基于图结构信息的匹配算法,这是因为:

  • 语义特征难以获得;
  • 在大多数应用中,图结构特征是辨别网络中节点信息的关键。
  • 语义特征容易被用户填写的虚假信息影响。

二、相关算法:Percolation Graph Matching(PGM)

作为基于种子匹配的代表性图匹配算法之一,PGM算法旨在利用邻居信息完成图节点匹配。已经完成匹配的节点对会提高其邻居节点对的匹配得分,得分越高的节点对,形成正确匹配的可能性越高。PGM算法的最大问题在于只关注了局部节点,容易导致匹配错误。例如在下图所示情况中:

d7ac407833e6c4543294eab96e8b7538.png
图1: 待匹配图结构

相对应(为种子集),那么从直觉上能看出
一一对应,但由于PGM算法只关注局部信息,因此其只会注意到下图所示的局部结构,从而造成匹配错误。

2f5dc909e08de420ddb1cc4bdf4372ed.png
图2: PGM算法关注的局部图结构

同时,传统PGM算法还会出现过早终止的问题,导致算法的召回率极低。在种子匹配集合较小的情况下尤为明显。

三、算法介绍:Personalized PageRank based Graph Matching (PPRGM)

为了避免只关注局部结构信息而出现的匹配错误,本篇论文将图上的一阶邻居信息和高阶结构信息相结合,从种子匹配出发逐层向外完成节点匹配。在向外扩展节点匹配时,本篇论文不再简单地局限于一阶邻居,改为借助随机游走的方式向周围节点扩展。此处所述的随机游走为带有衰减的随机游走,即每次游走时,都以

的概率停止在当前节点,以
的概率随机走向当前节点的一个邻居节点。如果用
表示从节点
出发的随机游走经过
步游走到达节点
的概率,则我们可以借助随机游走概率,得到图
上的两个节点
关于种子匹配
的结构相似度得分:

其中

表示图
上从节点
出发的随机游走经过
步游走到达节点
的概率。如果
均为0,论文规定
,因此
。基于此,图
上的节点
关于种子匹配集
的结构相似度得分可以表示为节点
关于种子匹配集中所有匹配节点的相似度得分之和,即

借助两个待匹配图结构上节点对间的相似度得分,便可以按照得分从高到低的顺序进行匹配预测。

Personalized PageRank(PPR)

为了更严谨地描述随机游走过程及相关概率,本文引入了Personalized PPR(下简称PPR)的概念。PPR是图研究领域代表性的节点邻近度度量指标,给定图结构

和源节点
,图上任意节点
关于源节点
的邻近度
反应了节点
关于节点
的相对重要性。我们可以从概率的层面给出PPR
的含义,即
等于从节点
出发的
衰减随机游走(
-discounted random walk)停止在节点
的概率。此处所述的
衰减随机游走与前述描述一致,即在每步游走时,都以
的概率停止在当前节点(
),以
的概率随机走向当前节点的任一邻居节点。

匹配评分

匹配评分函数是整个PPRGM算法中最重要的一部分。在上文中,我们基于有衰减的随机游走,给出了图

上的两个节点
关于某一种子匹配的结构相似度得分,此处论文借助PPR,更新了此评分的表述形式。图
上的两个节点
针对第
个种子节点对
的结构相似度评分表示为:

如果图

上的节点
相对于种子匹配
的PPR值越接近,则说明
对应的图结构越相似,因此
是一对正确匹配的可能性越大。在同态图上,只要
相互匹配,那么两个点针对任何种子对的PPR值恒等。节点对
关于种子匹配集
的结构相似度得分表示为:

上述相似度评分充分利用了种子匹配集里的所有信息,提升了算法的健壮性。

贪婪算法

基于匹配评分函数,论文首先给出了一个利用贪婪算法的图匹配函数(选择评分最高的节点)。该算法首先为种子匹配集中的点添加标记,然后计算

,即种子匹配集中的点到其他所有没有被标记的点的PPR值,选出
最大的节点对,并为他们添加标记。重复进行这个过程,在所有未被标记的节点中继续找出评分最高的节点对添加标记,直到所有节点都被添加了标记。

贪婪算法有两个很严重的问题:首先,这种算法具有过高的时间复杂度;其次当种子匹配集过小的时候该算法并不能找到一个高质量的匹配。

PPRGM:

PPRGM算法以贪婪算法为基础,并且针对贪婪算法存在的两个问题:时间复杂度过高和小种子匹配集性能较差的问题,进行了优化,具体表现为:

  • 针对贪婪算法时间复杂度过高的问题: PPRGM引入了heavy hitters机制,只返回相对较大的PPR,避免了对所有节点进行PPR计算的过程,从而提高了算法的计算速度。
  • 针对种子匹配集过小时的匹配质量问题:PPRGM提出了“假种子匹配”的概念,即针对已有种子匹配集过小的问题,将少数较早被匹配的点加入到种子集中来扩大种子匹配集的大小。这些后加入的种子匹配称为“假种子匹配”,假种子匹配构成的集合称为“假种子匹配集”,本文中用
    表示假种子匹配集。在假种子匹配集的补充下,令
    ,则图
    上的节点
    相对于集合
    的结构相似度得分表示为:

PPRGM算法的伪代码如下图所示。

b775e30bcfe264249e51c45594503994.png
PPRGM算法框架

PPRGM算法的主要思路是:首先初始化候选集合

、临时匹配集合
、匹配集合
为空集,再将已有种子匹配集中的所有已知匹配加入到临时匹配集
中。重复执行如下操作直至临时匹配集合
为空:将集合
中的所有节点匹配加入到集合
中,并进行候选集扩展,将扩展结果存入集合
中。在得到候选集合后,将其中满足匹配要求(matching criteria)的节点对加入临时匹配集合
中并将节点标记为matched,从集合
中移除这些匹配。如果此时
为空,即如果经过扩展后的候选集中的所有匹配都不满足匹配要求,则考虑放松匹配要求,以使得
不空 。重复这一过程,直至匹配要求无法再被放松且集合
变为空集,返回集合
作为最终图匹配结果。

PPR heavy hitters

给定源节点,PPR heavy hitters希望找到那些PPR值较大的节点。如前所述,PPR是节点邻近度的一种度量方式,PPR值较大的节点意味着更近的邻近度和更高的相对源节点的重要性。在PPRGM算法中,PPR的计算多次出现,包括节点对结构相似度得分中的PPR计算、候选集扩展过程中利用PPR寻找扩展集元素等。如果每次PPR计算都精确返回源节点与所有节点的PPR值,则每次计算都至少需要

的时间,总时间就需要
,此外还需要额外的空间储存PPR值,大量消耗了时间和空间成本。因此,本文只选择计算并存储给定源节点的heavy hitters,找到那些对源节点最重要的节点。这样即不会影响匹配质量,也可以节省查询时间和存储空间。文中利用了Forword-Push算法完成PPR heavy hitters的计算,具体过程如下:

a15d78243b3d2914a71ccf8b2c88bd40.png
单源PPR Forward-Push算法框架

候选集拓展

对于匹配集

中新添加的节点匹配
,PPRGM算法都会尝试对其进行节点扩展,以期进一步找到更多的节点匹配。为了更好地挖掘已匹配节点对中的结构信息,PPRGM算法不是简单地将已匹配节点的一阶邻居选入候选集中进行下一轮的验证,而是从PPR的角度出发,尝试探索更高阶的邻居信息,将与当前节点匹配
有关的所有邻近节点都纳入候选集中,即尝试将节点
的所有PPR heavy hitters的所有组合点对都纳入候选集。具体执行过程为:

d326784ff7e51046a8efa35a2b53ce91.png
候选集扩展算法结构

在上述扩展过程中,给定已完成匹配的节点对

,首先得到
的PPR heavy hitters,再将其heavy hitters集合所有组合加入候选集
中,并更新对应的结构相似度

匹配标准和推迟策略

为了减少小种子匹配集引入的误差,论文提出了一种推迟策略(Postponing Strategy):在匹配初期,设置苛刻的匹配条件提高匹配准确度,保证假种子匹配集的准确性。在之后的匹配过程中,逐渐放松匹配条件,扩大匹配范围。通过这种策略,最大程度地保证前期匹配的准确性,延后不确定的匹配决策。具体而言:定义

的竞争节点对为所有在
中的节点对,任意一个节点对只有在它的竞争节点对没有被匹配到的时候才有可能被匹配到,实现这一目标的最简单策略就是匹配那些在待选集中评分远高于它的竞争节点对的节点对。

对于一个正确的节点对,可能会出现以下两种我们不愿意看到的情况:首先,虽然这个节点对评分高于他的竞争节点对,但他不在候选集中;此外,它和他的竞争节点对都在候选集中,但是在当前状态下他的评分不如其他某个竞争节点对高。

为了减少这种错误决策,论文提出:如果

是一个满足条件的节点对,我们称它为一个
当且仅当:
  1. 是一个预先设定的参数);
  2. 没有与节点对
    相关的
    竞争节点对。当
    的竞争节点对
    的得分超过
    的得分
    倍的时候,我们称
    是一个
    的竞争节点对,即要求
    的得分比所有的竞争节点的得分对都要大
    倍及以上。

当一个节点对不满足以上条件时,他就是一个不确定的节点对,算法会推迟这个节点对的决策。当算法将更多的节点加入到结果集

中后,之前不确定的决策将会被识别出来,提高了决策的准确性。

在算法运行初期,设置较大的阈值以便算法准确识别节点对(论文中

)。随着更多的节点对加入到结果集中后,阈值将会慢慢降低,直到没有节点对能满足这个阈值(论文中:
)。

鲁棒性优化

PPRGM中的评分函数可能会在PPR值较小的时候,受到微小扰动的较大影响,导致了算法的不稳定性。因此,论文在评分函数中添加了平滑参数

以增强算法的鲁棒性:

论文中根据经验将

设置为10倍rmax。

算法复杂度分析

给定两个待匹配的图

,其都拥有
个节点和
条边,如果用
表示种子匹配集,
表示候选集,则PPRGM算法的时间复杂度为

其中,

PPR Forward-Push算法在种子匹配得分计算和候选集扩展中引入的误差参数。回顾PPRGM算法的运行过程,给定源节点和参数
,Forward-Push算法可以在
的时间内找到所有heavy-hitters,且heavy-hitters的个数不超过
,heavy-hitters的组合个数不超过
。在候选集扩展的过程中,需要扩展的节点匹配最多有
个,每次匹配可能找到的heavy-hitters组会数目为
,因此候选集扩展过程的时间消耗为
。同理,在选择是否应将候选集中的节点匹配加入到匹配集合
中时,需要计算每对候选匹配的结构相似度评分,在相似度评分过程中PPR Forward Push的参数为
,共有
对候选节点匹配,每对匹配需要计算关于种子匹配集中每对种子匹配的得分,因此该过程的时间消耗为
。这一过程的时间消耗也可用
约束,即共有
对候选匹配,每对匹配都需要计算
个相似度评分。又因为
可以被
所约束,因此上述PPRGM算法的时间复杂度可以进一步约束为

四、实验结果

作者全面对比了PPRGM算法与其他最新的算法的准确率,效率和鲁棒性,PPRGM算法相比于其他算法都有明显的优势。

实验设置

  • 数据集

论文通过以下三种方式得到了实验所用的待匹配的图结构:

  • 从一个真实世界的图中通过采样获得两个子图 (Table 2);
  • 选取同一张图在不同时间的两个快照(Table 4);
  • 对应同一实体网络的两张不同的真实网络(Table 3)。

def88ccd67f40027278337226b809d04.png
图数据信息
  • 对比算法:EWS、FRUI、AE、GSANA、REGAL
  • 结果分析:

EWS,REGAL,GSANA和AE算法太慢,无法在4小时内完成对Youtube和WikiTalk数据集的实验,而EWS和REGAL算法无法在4小时内完成对DBLP-ACM的实验。对于这些算法,论文给出了这些算法在计算4小时后的部分结果,在实验结果中用括号标注。

ca9e5221c8f936fec61d9670e2004288.png
实验结果图

Table 5中,

为节点采样概率,
为边采样概率,当二者都为1的时候,两张子图和原图相同,为同构图。 HOE和NE算法对于其他算法而言有显著优势,在大多数数据集上,HOE的召回率均高于NE,而NE的准确性通常高于HOE。这主要是因为HOE具有比NE更积极的扩展策略,从而导致召回率更高,但精度略有降低。但是,如果在实验中更早地停止HOE的匹配过程,在正确匹配的数量大致相同时,HOE的精度通常高于NE。

9cc7676ef17a6e3c31a56f92f22a65fe.png
实验结果图

在算法所用时间上,HOE和NE也很有竞争力,FRUI在大多数情况下是最快的,但是他的召回率非常低。因为每种算法的时间和召回率差异很大,论文利用每个正确匹配平均所用时间来对比算法的效率,其中HOE和HE是最快的。对于每种算法,考虑的候选对越多,匹配时间也就越长。NE和HOE通常比其他算法考虑更少的候选对,这是因为它们直接利用了高阶结构信息,有助于识别真正的匹配项而无需生成大量候选集。在Fig 4 c中,HOE和NE算法随着候选集的增加所用时间也是线性增加的,这验证了之前对时间复杂度的分析。

8d941da3a9b7c43d2e7e47677b8bf222.png
实验结果图

在Fig 5中,可以看到,即使Twitter,Dblp和Superuser数据集上只有4个种子,或者DBLP-ACM上只有16个种子,HOE和NE都达到了很高的F1分数。提供更多种子后,性能会略有提高。而FRUI算法是仅利用邻居信息的传统PGM算法的代表,对种子数量非常敏感,种子数量越高准确率也就越高。

在Fig 6中,作者测试了算法的鲁棒性,逐渐提高错误种子的数量,HOE和NE也维持了不错的效果。因为任何一对节点都从随机错误的种子节点收集到了相似的PPR值,相当于坐标的改变,对于所有节点而言,都受到同样的来自错误种子节点的变化,在数值上会有相似的变化,但这不会对匹配造成影响。

b506d9ecbeb44cde8aff785647c81889.png
实验结果图

随着

的提高,可以显著提高算法的准确率和召回率,但是算法对于
不敏感,所以论文将
设置为2。

5a5f3798348576a121e10d5b13fc855a.png
实验结果图

论文还分析了其他几个参数对算法的影响,其中

的增加会提升算法的准确率但是因为候选节点更难被选取所以召回率显著降低,但为了算法的准确率,
在延迟策略放松时不应小于1。在其他论文中有详细介绍如何寻找PPR算法中合适的
,在本文的算法
在0.3到0.5之间表现最好。对于
而言,不同图有着不同的需求,作者观察到这种偏好与图的平均距离有关。在平均距离较大的图上应该设置的更小,反之在平均距离更小的图上应该设置的更大。
  • 实验总结:
  1. 与最新算法相比,HOE和NE具有更高的召回率和精度。
  2. HOE和NE通常比以前的方法更具可扩展性,并且NE在每次正确匹配的时间上是最有效的方法。
  3. HOE和NE仅需要很少的种子即可达到最高的精度和召回率,且鲁棒性很好。
  4. PPRGM中所有参数的设置(
    除外)不受基础数据集的影响,这大大简化了参数的调整。
  5. 在平均距离较大的图上应该设置的更小,反之在平均距离更小的图上应该设置的更大。

五、论文回顾:

  • 针对基于种子匹配的图匹配算法,本篇论文提出了一种基于PPR的评分方式,对节点匹配的质量进行评估。相较于以往只关注一阶邻居信息的评分方式,基于PPR的匹配评分融合了节点周围的高阶邻居信息,评分效果更好,匹配质量更佳。
  • 本篇论文以贪心算法为基础,优先加入当前评分最高的节点匹配。
  • 本篇论文提出了一系列的优化策略提高匹配的质量和效率,如通过考虑PPR heavy hitters节省PPR计算的时间、采用延迟决策的策略提高节点匹配的准确度等。
  • 本篇论文在大量的大规模真实图上进行了实验,实验结果表明PPRGM的性能表现优于其他算法。
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值