1. 引言
在图论的研究领域中,子图搜索是一个至关重要的问题。随着数据规模的增长和複杂性的增加,如何在大型图中有效地发现具有特定性质的子图,已成为社交网络分析、推荐系统以及其他图数据处理领域中的核心挑战。密子图搜索(Densest Subgraph Search)是其中一个关键的问题,旨在找出图中密度最高的子图,即平均度数最大的子图。这些子图通常代表了图中高度连接的节点集合,对于社群发现、垃圾链接识别、专家提取等应用场景具有重要价值。
然而,传统的密子图搜索方法在某些应用中存在局限性。具体而言,这些方法通常只能返回一个密度最高的子图,这可能不足以满足需要多样化结果的应用需求。为了解决这一问题,研究者提出了一种新的解決方式,即锚定最密子图搜索(Anchored Densest Subgraph, ADS),并设计了相应的演算法来有效地解决这一问题。
2. 锚定最密子图搜索的定义
锚定最密子图搜索问题的核心在于引入了两个新的概念:锚定节点集合 A 和参考节点集合 R 。给定一个图 G(V, E) ,需要找到一个包含锚定节点集合 A 的子图 S* ,使得该子图相对于参考节点集合 R 的密度最大化。这里的密度定义如下:
ρ
R
(
S
)
=
2
∣
E
(
S
)
∣
−
∑
v
∈
S
∖
R
d
(
v
)
∣
S
∣
\rho_R(S) = \frac{2|E(S)| - \sum_{v \in S \setminus R} d(v)}{|S|}
ρR(S)=∣S∣2∣E(S)∣−∑v∈S∖Rd(v)
其中, d(v) 是节点 v 的度数。与传统的密度定义不同,这一新的密度定义结合了节点的中心性考虑,避免过度「热门」的节点被纳入结果子图中。这种设计的目的是确保结果子图能够更好地反映与参考节点集合 R 的局部关联性,而不是仅仅依赖于全局的密度最大化。
解释:
图 𝐺 有9个顶点和11条边。图 𝐺 的密度为 𝜌(𝐺) = 11/9。由顶点集 𝑆1−7 = {𝑣1, 𝑣2, ··· , 𝑣7} 诱导的子图的密度为 𝜌(𝑆1−7) = 9/7,这是图 𝐺 的最密子图。设 𝐴 = {𝑣1} 为锚定节点集,𝑅 = {𝑣1, 𝑣3} 为参考节点集。锚定最密子图(ADS)为 ADS(𝐴, 𝑅) = {𝑣1, 𝑣2, 𝑣3},其𝑅-子图密度为 6−2/3 = 4/3,因为在 𝑆 中唯一不属于 𝑅 的节点是 𝑣2
3. 锚定最密子图搜索的应用场景
锚定最密子图搜索的应用场景非常广泛。例如,在社交网络中,一个人可能希望组织一场活动,并希望找到一个包括所有关键人物的密切联繫的社群。在这种情况下,该人可以将必须参加的人作为锚定节点集合A,而将其他可能参加的人作为参考节点集合 R 。然后,ADS搜索能够帮助找到最符合要求的社群。
另一个应用场景是在电子商务的联合购买网络中,系统可以基于用户最近浏览的商品集合 R 和已加入购物车的商品集合 A 来推荐最可能被联合购买的商品。这种方法能够避免推荐过于普遍的商品,而是更倾向于推荐那些与用户偏好更相关的商品。
4. 全局演算法
为了解决锚定最密子图搜索问题,研究者们首先提出了一种全局演算法。该演算法的核心思想是使用二分搜索来逼近最大 R -子图密度 ρR∗。具体来说,他们构建了一个增强图 Gα,并通过最小s - t切割来检查给定的密度 α 是否小于ρR∗。
4.1 增强图的构建
增强图Gα 是在原始图 G 的基础上,增加两个特殊节点:源节点 s 和汇节点 t 。增强图中的边定义如下:
- 对于参考节点集合 R 中的每个节点 u ,添加一条从 s 到 u 的边,其容量为 u 的度数 d(u) 。
- 对于锚定节点集合 A 中的每个节点,从 s 到该节点的边的容量为无限大。
- 图中每个节点 v 都连接到 t ,其边的容量为给定的密度值 α 。
通过这种设计,研究者们将密度最大化问题转化为在增强图中找到最小 s - t 切割的问题。具体来说,对于给定的 α ,如果最小切割的值小于 R 的总度数之和,则表明 α 小于 ρR∗,需要增加 α 的值;反之,则减小 α 的值。
4.2 演算法步骤
全局演算法的步骤如下:
-
初始化 α 的上下限为 0 和参考集合 R 中的最大度数。
-
使用二分法调整 α 的值,并构建对应的增强图 Gα
-
在增强图中计算最小 s - t 切割。如果切割值小于 R 的总度数,则增加 α 的值;否则减小 α 的值。
-
反复步骤3,直到找到最小的 α ,使其满足条件。
-
返回对应于最小 α 的子图,即为锚定最密子图。
该演算法能够在理论上给出精确的解,但由于其计算複杂度与整个图的大小相关,因此当图的规模较大时,计算成本可能过高。
5. 局部演算法
由于全局演算法在处理大规模图时效率不高,研究者们进一步提出了一种局部演算法。这种演算法的设计理念是仅在图的局部进行计算,以减少计算量。
5.1 局部算法的设计思路
局部演算法的核心在于局部地计算最小 s - t 切割,而不是全局地考虑整个增强图。具体来说,演算法利用了源节点 s 仅与参考节点集合 R 中的节点相连的特性,从而可以在较小的子图上进行计算。
局部演算法从一个仅包含锚定节点集合 A 和参考节点集合 R 的子图开始,然后逐步扩展子图的边界,直到满足没有边缘饱和(即流量达到容量的边缘)的条件为止。如果在某次迭代中,所有从当前子图到汇节点 t 的边都未饱和,则该流量即为全局最优解。
5.2 局部算法的步骤
局部算法的具体步骤如下:
- 初始化子图 B 仅包含锚定节点集合 A 和参考节点集合 R 。
- 在子图 B 中计算最大流和对应的最小 s - t 切割。
- 如果切割边未饱和,则停止计算,并将当前子图作为结果返回。
- 如果切割边饱和,则扩展子图,包含更多的节点,并继续计算最大流。
- 反复步骤2-4,直到找到满足条件的最小 s - t 切割,返回对应的子图。
5.3 理论分析
局部演算法的效率依赖于参考节点集合 R 的体积,即所有节点度数的总和,而非整个图的大小。因此,该算法在处理大规模图时能够保持较低的时间和空间複杂度,适合应用于需要高效计算的大型图数据中。
6. 实验与结果分析
为了验证所提出算法的有效性,研究者们在多个实际数据集上进行了广泛的实验。实验结果表明,局部演算法在时间和空间消耗方面远远优于全局演算法,尤其是在处理包含数百万节点和数十亿边的大规模图时,局部演算法的性能提升了数个量级。
此外,实验还显示,在电子商务的联合购买推荐场景中,基于锚定最密子图搜索的推荐结果能够更好地反映用户的偏好,并且有效避免了过度推荐热门商品的问题。
这张图比较了不同算法在各种数据集上的计算时间、内存消耗以及相对性能。结果显示,LA算法在大多数情况下具有较低的计算时间和较高的性能增益,但在某些数据集上消耗了更多的内存。此外,算法在不同图密度下的表现差异显示了选择算法时应根据具体应用场景进行调整。
7. 结论与未来工作
本文提出了一个新的密子图搜索问题——锚定最密子图搜索(ADS),并设计了全局和局部两种演算法来解决这一问题。全局演算法能够给出理论上的精确解,但在大规模图上计算成本较高;而局部演算法则能够在大规模图上高效运行,具有较强的实用性。
未来的工作将包括进一步优化局部算法的性能,探索更多应用场景中的实际效果,以及将这一方法扩展到加权图、有向图等更複杂的图结构中。研究者们相信,锚定最密子图搜索问题在社交网络分析、推荐系统、群体检测等领域具有广泛的应用前景。
论文地址:https://dl.acm.org/doi/10.1145/3514221.3517890