【论文笔记】Shortest Paths and Centrality in Uncertain Networks

  1. INTRODUCTION
    不确定网络,即每条边都与一个存在概率相关联的图,由于其在许多现实世界环境中的可表达性和适用性而受到了极大的关注。
    Researchers have studied k-nearest neighbors queries[36, 49], reachability queries [29], clustering [22], sampling [45],network design [28], and embedding [23], just to mention a few.
    网络中的不确定性可能是由于噪声测量[2],使用推理和预测模型的边缘插补[1,37],以及明确的边缘操作(例如,出于隐私目的)[7]而产生的。
    最短路径的一个关键应用是计算betweenness centrality[10,19,40,51],这是一种基于节点通过最短路径连接其他节点对的有效性来衡量网络中节点重要性的方法。
    本文首先研究了在不确定网络中计算最短路径查询的基本问题,然后在此基础上建立了 betweeness centrality的度量。一个关键点是,不确定图中最短路径的概念不仅要考虑路径的长度,还要考虑路径上所有边存在的概率。更具体地说,给定一个不确定图G、一个源节点s和一个目标节点t,我们的目标是从具有最大概率为最短路径(SP)的s到t中找到路径P,即P存在且没有比P短的路径存在的概率。我们称这样的路径为从s到t的最可能最短路径(MPSP)
    在这里插入图片描述
    1.2 Contributions and Roadmap
    我们正式定义了不确定图(2)中最可能最短路径(MPSP)的概念,证明了我们的问题是#P-hard,并且还导出了其他有趣的性质,突出了计算MPSPs ( 2.1)的复杂性。我们讨论了早期的baseline解决方案[59],以及它的缺点(2.2)。
    然后,我们将重点放在问题的两个重要概括上:首先,我们研究top-k MPSP查询(3.3);然后是不确定多图上的MPSP。后者提供了一个非常通用的数据模型,因为它允许将不确定性建模为边长的概率分布:例如,在道路网络中,它可以对特定路段上的行驶时间的概率分布进行建模。此外,我们还研究了MPSP-Betweenness-Centrality,并提出了有效的抽样策略来计算前k个中心节点,并给出了理论上的质量保证(4)。
    我们进行了彻底的实验(5),展示了在大规模数据集上的可扩展性和相对于最先进方法的性能改进[12,59]。我们还开发了关于传感器(5.6)和大脑网络(5.7)的有趣案例研究。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    本文研究的主要问题要求找到最大概率为最短路径的路径。
    在这里插入图片描述

  2. Hardness of the Problem
    使问题1具有挑战性的一个因素是,对于给定的路径,即使计算两个给定节点之间的最短路径的概率也是困难的
    在这里插入图片描述
    除了#P-hardness之外,MPSPs还有其他一些特性 让我们的问题变得很难。确定图上最短路径的许多经典性质在不确定图中不再成立。例如,两个MPSPs的连接和一个MPSP的子路径不一定是MPSP。接下来,我们使用图2中的不确定图来演示这些属性。
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    我们在这一节的结尾指出,MPSP的长度可能不同于早期在不确定图中引入的关于最近邻查询的概念[36,49]。我们首先定义中间距离、多数距离和期望可靠距离。
    在这里插入图片描述
    在这里插入图片描述
    2.2 Baseline: Filtering-and-Verification
    在我们的实验(5)中,我们使用[59]的过滤和验证方法作为基线。该方法包括两个步骤:生成一组包含MPSP的候选路径,并使用卢比-卡普采样在该集合中找到MPSP在这里插入图片描述
    在这里插入图片描述
    在这里插入图片描述
    两个主要缺点影响了该方法的性能。首先,生成的候选数量可能非常大,甚至是输入大小的指数级。对于[59]中给出的两个下限LB,它认为LB(Pj) ≤ Pr(X(Pj))。路径Pi是SP的概率的上限是这样计算的在这里插入图片描述
    。如果MPSP存在的概率很低,那么其他更短的路径的概率通常会很低。因此,上限将非常缓慢地降低,并且在候选生成终止之前可能需要很多时间
    第二个缺点直接关系到候选生成的计算成本。假设我们在候选生成终止之前生成k条路径。此步骤时间复杂度O(k|V|(|E| + |V| log |V|))。如第一个缺点所述,候选数k可以变得很大,即使很小,我们也有|V||E|因子。经验上(5)我们发现,对于我们更大的数据集,候选生成不会在一个小时内完成

  3. PROPOSED SOLUTION
    我们提出了一个两阶段算法来近似不确定图中两个节点之间的MPSP。算法在3.1中有所描述,返回路径质量的理论保证在3.2中有所提供。在最后一部分,我们展示了如何扩展我们的算法来寻找k > 1 ( 3.3)的前k个MPSPs ,并计算不确定多图中的MPSPs (3.4)
    在这里插入图片描述
    第一阶段:Dijkstra+MC。
    给定一个不确定的图G = (V,E,W,P)和两个节点(S,t) ∈ V ×V,第一阶段包括计算从S到T的MPSP候选路径。这是通过在G上执行Dijkstra算法的m次独立运行来完成的,其中m是超参数(算法1的第2行到第7行)。Dijkstra在不确定图上的算法类似于在确定图上的经典算法,除了当算法到达不确定图中的一个节点时,它的输出边根据它们各自的概率被采样(算法2)。在任何阶段,选择下一个节点时只考虑采样的边。这相当于在一个可能的世界G ⊑ G上运行Dijkstra算法,如果在采样的可能世界中t可以从s到达,那么g上的Dijkstra算法产生一个s-t路径,该路径被添加到由CP表示的候选路径集合中。否则,如果t不可达,则返回空路径(表示为Pϕin算法1和2)。
    在这里插入图片描述
    阶段2:概率近似。
    在第二阶段,使用卢比-卡普算法(算法3)来计算每个候选路径是g中最短s-t路径的概率的近似值。直观地,给定路径P和从s到t的一些其他较短路径,以及超参数N,该算法首先通过经由蒙特卡罗采样生成N个合适的可能范围来估计任何短于P的路径的存在概率 p,然后它返回值作为Pr(Shts§)的估计。
    在这里插入图片描述
    请注意,为了近似路径P是G中最短路径的概率,如[59]中所述,卢比-卡普算法要求输入所有比路径P短的路径。虽然在算法2的m次运行后计算的候选路径集不一定包括所有这样的路径,但我们将在3.2中表明,我们仍然可以提供良好的近似保证。
    3.3 Extension to Top-k MPSPs
    3.1中提出的方法可以很容易地扩展到计算k > 1的前k个最大功率点。我们注意到,如果候选路径的数量小于或等于k,我们返回所有的候选路径。否则,我们修改算法1,使其存储每个候选路径P和按概率降序排序的Pr(Shts§)的近似值,然后返回前k个元素。由于空间限制,我们省略了该算法准确性的技术细节。然而,我们在5.5中实验性地演示了该算法的性能。
    3.4 Extension to Uncertain Multi-Graphs
    一个不确定的多图是一个四元组(v,e,w,p),其中v是一组节点,
    在这里插入图片描述
    是一组有向边,边长(w)和存在概率§,这样每对节点可以由零个、一个或多个边连接,称为平行边,边长和存在概率有明显的组合。取决于交通状况,可以使用这种更通用的数据模型,例如道路网络的一段上的行驶时间的概率分布。
    我们在3.1中描述的算法可以很容易地适用于在不确定的多图中寻找MPSPs。主要区别在于候选路径的生成。在阶段1中,当我们到达不确定图中的一个节点时,用它们各自的概率对它的输出边进行采样,并且为了更新算法2的第5行中的路径,只考虑从当前节点到每个相邻节点的一个采样边(在从当前节点到该相邻节点的所有采样边中具有最小长度)。

  4. MPSP-BETWEENNESS CENTRALITY
    接下来我们定义了不确定图的MPSP-Betweenness Centrality,并设计了一种有效的采样策略,在理论保证的情况下快速逼近每个节点的中心性。
    在这里插入图片描述
    在这里插入图片描述
    v
    在这里插入图片描述
    在[46,56]中给出了不确定图的介数中心性的不同定义,它被称为期望介数中心性。节点的期望介数是其在所有可能世界上的介数的加权平均值。
    这些概念中的任何一个都是有意义的,这取决于应用。例如,当应用程序涉及从一个节点到另一个节点的消息广播时,期望中心性的概念值得研究,在这种情况下,消息可以通过不同的可能路径传播。另一方面,当应用程序涉及路由或路由推荐时,MPSP-介数-中心性的概念给出了更准确的描述,其中路径需要预先固定,并且我们只能使用单个路径从起点到目的地。
    在这里插入图片描述
    节点v ∈ V的介数中心性的另一个概念是基于可能的最短路径[56]的,它被称为PSP-
    Betweenness-Centrality
    4.1 Efficient s-t Pairs Sampling
    通过考虑所有s-t对来计算节点MPSP-Betweenness Centrality,然后计算最大概率点的朴素方法对于大型不确定图是不可行的。此外,在我们的环境中,为这项任务设计一个有效的算法是具有挑战性的。如2.1所述,在不确定图中,MPSP的子路径不一定是MPSP。因此,我们不能将一条最短路径分解成两条较小的最短子路径,也不能将两条最短子路径串联起来得到一条较大的最短路径。由于这些原因,我们既不能应用诸如布兰德斯算法[10]中开发的优化技术,也不能应用基于节点采样的技术,在节点采样中,对一小组节点进行采样,并累积它们对中间中心性的贡献来估计其他节点的中间性[4,11,21]。
    因此,我们设计了一种基于高效s-t路径采样策略的新算法来代替节点采样。在下文中,为简单起见,我们假设每对节点只有一个MPSP。由于这个假设,随机一致地选择一个MPSP相当于使用算法1在它们之间找到唯一的MPSP。然而,如果一对节点有多个MPSPs,我们可以使用3.3中的top-k方法来识别它们,然后在它们之间统一随机选择一个。
    我们提出的方法,其伪代码如算法4所示,对s-t对进行抽样,对每一个样本计算MPSPP,然后将P的每个内部节点的介数中心性增加1。现在出现的主要问题是:需要多少个样本才能以高概率产生每个节点介数中心性的非常精确的估计?在本节的剩余部分,我们提供了这个问题的答案。具体地说,给定ϵ,δ > 0,我们找到样本数r的下界,使得概率至少为1-δ,每个节点的近似中心性和精确中心性之间的差至多为ϵ.
    在这里插入图片描述

  • 0
    点赞
  • 3
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值