abstract
影响力最大化被认为是一个关键的优化问题,其目的是确定一组有限的影响者,以最大化社交网络中影响力传播的覆盖范围。然而,现实世界的社交网络通常是动态的、大规模的,这导致难以捕获实时用户和扩散特征,从而有效、准确地选择关键影响者。在本文中,我们提出了一种基于自适应代理的进化方法,通过基于代理的建模和遗传算法来解决这一具有挑战性的问题。这种新颖的方法以分布式方式识别用户的影响力,并在动态环境中优化影响者集的选择。提出自适应解决方案优化器作为关键组件之一,驱动进化过程并动态调整候选解决方案。由于其分布式框架,所提出的方法也适用于大规模网络。我们的方法的评估是通过使用合成网络和现实世界的数据集来进行的。实验结果表明,所提出的方法在影响力最大化方面优于最先进的种子算法。
关键词: 影响力最大化 进化计算 遗传算法 基于代理的建模
1. Introduction
近年来,在线社交网络等复杂网络中的影响力扩散建模和最大化引起了研究人员和实践者的广泛关注。它在许多领域都有应用,包括决策、营销和社会影响力分析[1-6]。另一方面,影响力最大化也被认为是一种有争议的技术,它已被应用于散布谣言或假新闻[7,8]、操纵舆论[9,10]甚至压制少数群体。在此背景下,许多研究工作致力于对用户特征进行建模并模拟影响过程,以最大化积极的社会影响并最小化负面影响[11,12]。
影响力最大化对于优化信息传播以在社交网络中实现最大影响力至关重要[13],例如,扩大目标市场和赢得政治竞选[14]。它通常是通过识别少数能够快速、广泛地传播影响力的用户来实现的,从而最大限度地扩大影响力整个社交网络[1,3]。然而,影响力最大化已被证明是一个 NP 难题,并表示为一个组合优化问题 [1]。此外,影响者挖掘的过程(称为种子选择)在动态和大规模网络中获得一组影响者(称为种子集)非常具有挑战性。例如,在不同结构的社交网络中,例如随机网络[15]或无标度网络[15,16],影响力增长将基于各种网络模型,例如配置模型[17]和Barabási-Albert(BA)优先附着模型[16],动态增加网络规模。这是因为用户加入和退出,关系形成和消失,并且这些关系的强度随着时间的推移而变化,导致网络拓扑在现实世界的社交网络中不断演变[18,19]。
基于传统的影响力扩散模型,如独立级联(IC)模型和线性阈值(LT)模型[1],现有影响力最大化算法大多无法实现动态、大范围内种子选择的高效、持续优化。扩展社交网络。例如,几种经典的基于贪婪的算法,如贪婪算法[1]、CELF算法[20]、CELF++算法[21],表现出较低的时间效率,特别是对于大规模网络[22,23] ,并且不适用于动态社交网络。
同时,一些启发式算法,如随机启发式[1]、度启发式[24]、Pagerank启发式[25,26]、离散粒子群优化(DPSO)[27,28]、蚁群优化(ACO)[29] ,和差分进化(DE)[30],不能同时保证快速而准确的种子选择过程,并且适合动态和大规模的社交网络[22,23]。此外,大多数基于社区的算法,例如基于社区的影响最大化(CIM)算法[31]和检测影响节点(DIN)算法[32],无法处理社区特征的时间信息或呈现高时间大规模社交网络的复杂性[33]。因此,基于代理的建模(ABM)和遗传算法(GA)被用来处理影响最大化问题,因为ABM被认为是模拟个体行为的合适工具之一,并且进化计算(EC)技术已被广泛采用解决优化问题[34]。
ABM,也称为基于个体的建模,在复杂系统建模方面已显示出其优越性[35-37]。 ABM 是一种特定的基于个体的计算模型,其中个体被建模为交互式自主代理[38]。与传统的中心化模型不同,ABM 被认为是通过定义社会系统微观层面来探索宏观世界的适当方法[35,36]。 ABM 已应用于建模和模拟社会影响力扩散,其中扩散过程被视为由个体行为驱动的进化过程[38-40]。
遗传算法作为典型的进化计算方法之一,由于三大优点而被用来代替传统的启发式方法[22,23,34,41-43]。首先,遗传算法提供了灵活的搜索和优化策略来适应一系列复杂的网络条件[34]。其次,遗传算法中的进化元启发法有助于在明确定义的问题空间中进行有效的搜索过程,该空间包含大量编码的候选解决方案,在影响力最大化问题中被称为种子集[34]。第三,遗传算法中不断进化的多个种子集不仅保证了算法解的多样性,而且自然地优化了算法解的质量[23,41]。然而,现有的影响力最大化的遗传算法不具备捕获动态拓扑信息的能力。
为了提高和扩展 GA 处理动态大规模社交网络的能力,我们提出了一种新模型,称为基于自适应代理的进化模型(ABEM),通过集成 GA 和 ABM 来解决影响力最大化问题。在所提出的模型中,我们利用 ABM 将每个人建模为主动代理,可以实时探索其影响力。根据每个代理的自动影响力评估和提名机制,ABM 通过生成影响者池来提供初步的优化过程。影响者池的设置有利于缩小遗传算法的搜索空间并从动态网络中收集最新信息。此外,我们构建了一个自适应解决方案优化器,将影响池的动态信息从 ABM 传输到 GA。优化器能够从 ABM 中检索更新的影响者候选者,并随着 GA 的演变重新校准潜在的候选者。最后,我们开发了一种 GA 变体,以根据潜在的候选解决方案启动影响者挖掘。结果展示了动态和大规模社交网络中一系列连续实时影响力最大化解决方案。
因此,我们提出的模型的优点可以从三个方面得到证明。首先,ABEM具有很强的优化能力,利用ABM和GA发起的两级优化过程可以保证种子集的质量,从而使影响力最大化。其次,ABEM 通过将自动影响力评估和提名的计算成本分配给每个代理,显着提高了挖掘影响者的时间效率。它还缩小了遗传算法的搜索空间,并根据不断变化的环境不断重新校准潜在的解决方案。第三,ABEM可以同时反映真实社交网络的大规模和动态特性。这主要是由于 ABM 的性质和分布式框架中的自适应优化器组件。最后,我们通过收敛分析、动态网络中的连续影响最大化、经典影响最大化比较和参数分析等四个实验来评估ABEM的性能。实验结果表明,ABEM不仅在影响力最大化的性能上优于最先进的算法,而且可以应用于动态的大规模环境。
总而言之,我们这项研究工作的主要贡献如下。
• 我们首先采用分布式方法,通过改进遗传算法来解决在线社交网络中的影响力最大化问题。
• 我们提出了一个结合GA和ABM的新框架,从个体层面和全局层面两个层面优化种子选择。
• 我们开发了一种新颖的方法,该方法可以通过将主要计算成本分配给个人但将优化过程保留在核心组件中来处理大规模社交网络。
• 我们开发了一种新颖的机制来挖掘具有适应能力的影响者,该机制可以应对在线社交网络快速变化的环境。
本文的其余部分安排如下。在第 2 节中,我们回顾了相关工作。第 3 节给出了正式的定义和问题表述。在第 4 节中,我们演示了整个过程并提供了所提议的 ABEM 方法的详细描述。第 5 节介绍了实验和实验结果分析。第 6 节对本文进行了总结。
2. Related work
2.1. Classical influence maximization
影响最大化问题 (IMP) 最初由 Kempe 等人将其表述为离散组合优化问题。 [1,44–46]。他们提出了一种基本的贪婪算法,为优化基于 IC 和 LT 模型的种子集选择提供了近似保证 [1]。然而,由于计算耗时长,贪心算法无法有效地处理大规模和动态的社交网络。随后,Leskovec等人提出了CELF算法。 [20] 以及 Goyal 等人开发的 CELF++ 算法。 [21]旨在通过单独使用传播的子模块化和边际递减效应来提高可扩展性和时间效率。然而,它们无法通过高效计算应用于动态和大规模环境。
同时,人们开发了许多启发式算法来降低IMP中贪心算法的时间复杂度。随机启发式随机选择种子,没有近似保证 [1]。度折扣启发式 (DDH) 利用确定性度策略进行种子集选择 [24]。最大度启发式(MDH)和高页面排名启发式(HPRH)分别利用节点度和页面排名的值来选择顶级用户进入种子集[44]。龚等人。 [27]提出了离散粒子群优化(DPSO)优化局部搜索策略,加快种子集选择速度。类似地,Singh 等人将蚁群优化(ACO)应用于影响力最大化。 [29]。他们重建了蚂蚁沉积信息素的原理和相关启发式信息,以优化当地的影响力。李等人。 [30]开发了一种基于差分进化算法的方法来获得影响者。尽管这些启发式算法节省时间并且具有高度可扩展性,但它们降低了所选种子集的质量,难以在动态和大规模社交网络中实现影响力最大化。
此外,还建立了一些基于社区的算法来平衡 IMP 的可扩展性和时间效率。 CIM算法建立候选种子集的社区结构,以选择最终种子集进行影响力最大化传播[31]。然而,这种算法的性能依赖于一些参数,没有任何近似保证。相比之下,DIN是一种无参数方法,结合了重叠的社区结构和用户兴趣的网络语义,从候选者中识别出种子用户[32]。然而,在处理大规模网络时,DIN 的高时间复杂度成为一个障碍。
对于上述经典影响力最大化算法,Peng 等人。 [45]提出了一篇从理解社会影响力到分析影响力最大化算法的调查论文。研究挑战之一提到了社交网络的动态演化,这与上述评论相对应。与此同时,班纳吉等人。 [44]在一篇调查论文中讨论了上述影响力最大化算法的类型。该分类主要基于与 IMP 相关的主要研究挑战,例如现实网络的实用性以及准确性和计算时间之间的平衡。因此,大多数经典的影响力最大化算法并不是专门针对动态社交网络,它们在大规模网络中的有效性和效率的平衡方面存在一些缺陷。
2.2. Dynamic influence maximization
动态影响力最大化方法旨在通过捕获动态社交网络中不断变化的网络拓扑和不确定的用户特征来解决实时 IMP,这些特征更接近现实世界的传播环境。卞等人。 [47]回顾了识别前K个影响节点的算法,发现近年来的研究趋势从计算效率和可扩展性转向动态网络。已经进行了许多研究来调查动态社交网络中的影响力最大化。
庄等人。 [19]提出了最大间隙探测(MaxG)算法,通过最小化观测网络和实际网络之间的探测节点的可能间隙来近似影响最大化。然而,尽管MaxG算法的实时性表现出色,但其稳定性却受到容忍概率值的限制。同样,韩等人。 [48]通过利用提出的分而治之的策略来处理社交网络的自然变化,开发了一个实用的动态探测框架。然而,该方法仅探测几个社区以提高时间效率[48],缺乏网络拓扑的个体和全局视图。童等人。基于动态独立级联(DIC)模型开发自适应贪婪(A-Greedy)算法和自适应启发式贪婪(H-Greedy)算法来优化影响最大化解决方案[49]。此外,王等人。提出了影响检查点(IC)框架及其升级版本稀疏影响检查点(SIC)框架来处理高速社交流上的连续动态 IMP [50]。虽然这两个框架具有优化效率的优势,但最终的影响力最大化结果并没有优于其他基线。此外,Murata 和 Koga 通过将以前的静态方法扩展到动态社交网络,开发了动态学位折扣、动态 CI 和动态 RISA [51]。然而,这些动态方法的性能并不比贪婪算法好[51]。李等人。提出一种基于内聚熵的动态算法,通过考虑重叠社区和可选的动态影响传播来识别最有影响力的节点[52]。然而,实验并没有证明其实时影响力最大化的性能。同时,该动态算法在应用于大规模社交网络时并未表现出明显的优势
此外,李等人。 [46] 和 Hafiene 等人。 [53]全面回顾了影响力最大化算法和动态IM解决方案。前者强调了不同社交网络环境下的设计目标和方法应用,讨论了动态IMP的概念、边界和解决方案。后者将动态网络细分为快照网络和动态网络,并总结了动态搜索最佳影响者时空间和时间的限制。
因此,现有的大多数动态影响力最大化算法在平衡有效性和效率方面都不同程度地存在局限性。
2.3. GA-based influence maximization
遗传算法受“适者生存”理论的启发,近年来被应用于IMP。在遗传算法中,编码为有限大小染色体的个体代表潜在的种子集,而染色体的基因则指种子使用者。同时,遗传算法可以利用选择、交叉、变异等算子不断优化潜在的种子集,直到接近最优解。蔡等人。将GA与贪心算法相结合,提高IMP解决方案的有效性[54]。 Bucur 和 Iacca 利用简单的遗传算法获得多种不同的解决方案,这些解决方案显示出同样高的网络影响力,而无需对网络结构进行任何假设 [41]。 Kromer 和 Nowakova 通过考虑缩小搜索空间和提高 IMP 中固定长度子集选择的进化效率的指导概念来扩展 GA [55]。张等人。在遗传算法中采用多种群来保证算法解的多样性,并通过竞争和进化来优化种子集[23]。 Agarwal 和 Mehta 利用具有与节点实时出度相关的动态概率的 GA,旨在找到最佳种子集并达到最大影响覆盖范围 [56]。崔等人。通过将度数下降搜索策略与进化算法相结合,提出了度数下降搜索进化(DDSE),以克服基于贪婪算法的时间效率问题[57]。 Konotopska 和 Iacca 开发了图感知进化算法,通过近似适应度函数和图感知机制来优化影响最大化结果并减少运行时间 [14]。王等人。研究多层网络中的 IMP,并提出一种具有问题导向算子的多因素进化算法,其中结合了遗传和适应度领域的信息知识[58]。尽管IMP中上述基于遗传算法的方法表现出了优化过程、时间效率和解决方案多样性等多种优势,但大多数方法都无法处理社交网络的动态,特别是大量的个体动态信息。 Lotf 等人除外。提出一种动态广义遗传算法来解决动态社交网络中的影响最大化问题[59]。鉴于,所提出的方法是集中式的,需要整个动态网络作为算法输入。这不可避免地导致高计算空间的问题。相比之下,我们的方法是分散的,将影响能力估计的计算分配给各个用户.
此外,ABM 已被广泛认为是通过在微观层面定义问题来建模复杂系统的合适工具。李等人。利用 ABM 协助在微观层面捕获个体的行为和影响力状态,以建模影响力扩散[40],然后提出一种基于增强型进化的后向(2E2B)算法[38],用于在网络进化过程中挖掘影响者。尽管该算法可以捕获动态网络信息,但所选择的种子集仅通过测量单个代理的影响力最大化来优化,缺乏全局层面的种子集优化。
因此,与基于贪婪算法、基于启发式算法、基于社区的算法和动态影响力最大化方法相比,遗传算法在最优精度和时间成本方面呈现出综合优势。同时,结合 GA 和 ABM 被证明是动态社交网络中 IMP 的一种有前途的方法。这种混合模型利用了遗传算法的优化过程、时间效率和多样化解决方案的优势,使得能够从ABM获取网络动态特征,以解决动态和大规模社交网络中的IMP问题。在下一节中,我们将详细阐述 ABEM 并解释如何在动态和大规模网络中实现影响力最大化。
3. Formal definitions and problem formulation
在本节中,我们给出与 ABEM 方法相关的正式定义,并制定动态环境中的影响最大化问题。
3.1. Formal definitions
我们从基本概念开始,包括图、用户、邻居和边。图 G = (V , E) 被定义为用户集合 V = {v1, v2, ... 。 。 , vn}, n ∈ N 对应的连接 E = {eij|i, j ∈ N, i ̸= j}。用户 vi 有一组邻居 Γvi 。 vi 的度数是指邻居的基数,即|Γvi |。如果 vi 和 vj 之间存在联系,则有 eij ∈ E、vi ∈ Гvj 和 vj ∈ Гvi 。边 eij 表示为一个元组,即 eij = (vi, vj),暗示 vi 和 vj 之间潜在的影响关系。
定义 1. 动态社交网络 GD = {G(t)|t ∈ N} 被定义为一系列图,捕获随时间变化的图快照。因此,G(t) = (V (t), E(t)),其中 t 表示时间步长,G(t) 表示 t 时的网络状态。 V(t)和E(t)分别描述t时网络的用户和边缘。网络 G(t) 在 t 时的用户和边缘是固定的,但它们随着时间的推移而演变。
定义2. 用户代理vi ∈ V (t) 是指社交网络G(t) 中活跃的、自主的、交互式的用户。在动态环境中,vi可能存在于V(t+1)中,也可能不存在,并且Γvi(t)也会在下一个时间步t+1发生变化。
用户代理 vi 能够访问其本地上下文,即有关邻居和边缘的所有信息。特别是, Γvi (t) 描述了 vi 在 t 处的相邻邻居。 vi 的节点度 di(t) 表示 t 时 vi 的邻域 Γvi (t) 的大小。在数学上,di(t) 通过使用 vi 邻域的大小来表示,即
同时,在有限的局部视图内,用户代理vi在邻域的帮助下进行影响能力估计,其中影响能力描述了受vi影响的用户数量。具体来说,给定有限数量的影响扩散级别 l,智能体 vi 根据经典 IC 模型 [1,24,60] 以最大跳数 l 扩散影响。代理 vl 需要 l 跳才能到达 vi,可以向 vl−1 提供状态反馈,依此类推。将受影响用户的数量视为本次尝试的影响能力程度。发起多次试验,取平均值作为vi估计的影响能力,记为σ(vi)。
定义 3. 影响者池 C(t) 定义为 t 时影响者候选人的集合。这些候选人的影响力超过预定义的阈值 θs 并大于其邻居的 θq 百分比,即
影响者池中的用户可能被选为种子集的成员(参见定义 4)。 C(t)是通过用户代理V(t)发起的主动提议构建的。
影响者池由所有用户代理共享。影响者池的大小根据网络拓扑结构的变化而变化,例如|C(t)|可以与 |C (t + 1)| 不同。元素 vc ∈ C (t) 描述影响者候选者。具体来说,用户代理vc主动估计在t时刻对Γvc的影响能力,并确定是否提议作为C(t)中的潜在影响者之一。详细行为在算法 1 中描述。在当前上下文中,仅当用户代理 vc 的影响能力超过特定阈值 θs 并且大于 t 时其邻居的百分比 θq 时,用户代理 vc 才会将自己提名为种子候选者。
定义 4. 种子集 S(t) = {v1, v2, . 。 。 , vk}, S(t) ⊆ V (t) 指的是在 t 时刻来自社交网络 G(t) 的一组已识别影响者的有限集合,其中 k = |S(t)|代表需要选择的影响者的数量。影响者选择算法被称为种子算法。
在遗传算法中,种子集对应于“染色体”或“个体”。映射到问题空间,每个染色体或个体都意味着问题的潜在解决方案。在种子集中,每个元素都称为“基因”。
定义5. 总体通常是指遗传算法中预定义问题空间的候选解决方案的集合。在当前设置中,群体 Ri(t) 对应于 G(t) 种子集的集合,它们被认为是影响力最大化问题的潜在解决方案。具体来说,总体 Ri(t) = {S1(t), S2(t), . 。 。 ,Sj(t)}表示整个进化过程的第i代,Sj(t)表示种子集的候选解。 R0表示初始代。 Ri(t)通过GA算子演化为下一代Ri+1(t)。
3.2. Problem description
给定一个动态社交网络 G(t) = (V (t), E(t)) 和 t 处的整数 k,目标是从 V(t) 中有效地选择 k 个用户作为种子集 S(t),期望他们能够传播影响力并最大化 G(t) 上的影响 σ (S(t))。 σ (S(t)) 表示影响范围,描述了预期受影响的数量如果选择 S(t) 作为种子集,则扩散过程结束时的用户。请注意,我们的目标是在每个时间步最大化 σ (S(t)),因为动态社交网络随着时间的推移不断发展。目标如方程式所示。 (4)。
在 n 个时间步之后,给定 G(t + n) = (V (t + n), E(t + n)),最初识别的种子集 S(t) 需要有效地调整为 S(t + n)适应新的问题空间而无需重新计算。总体而言,该解决方案需要自动适应在线社交网络的快速发展。
4. Agent-based evolutionary model for mining influencers
在本节中,我们首先解释利用 ABEM 从社交网络中挖掘影响者的整个过程。接下来,我们从宏观角度(即用户代理的行为建模)和微观角度(即自适应解决方案优化)深入研究细节,并对算法进行详细阐述。
4.1. Overall process of ABEM
ABEM 结合了基于代理的建模和进化计算的优点,同时采用了代理的本地计算能力和集中式优化器。图1说明了ABEM的主要思想。
关键过程从图 G(0) 中的本地用户代理开始,通过与邻居进行比较来主动评估其影响力,并通过合并到影响者池 C(0) 中决定是否将自己推荐为影响者。在时间步t,如果用户代理vi的本地环境发生变化,例如与其他人建立新的链接,vi将重新评估影响能力并在t更新影响者池C(t)。通过这种方式,所有代理共享的影响者池可以始终保持最新状态。更重要的是,影响者池缩小了大规模网络的搜索范围,只留下少量数据供中心化组件处理。
自适应解决方案优化器在 ABEM 中发挥着关键作用,它能够从影响者池中实时检索影响者候选者。同时,它通过重新校准“基因”来优化遗传算法生成的解决方案。随着遗传算法的进化,自适应解优化器有助于种群的修改,导致每一代都快速进化以达到最优解。最佳解决方案是具有最大影响范围的种子集。影响覆盖率σ(Sj(t))是指种子集Sj(t)的影响能力。 σ (Sj(t)) 可表示为:
简而言之,每个用户代理都会对相应的影响力进行自我评估,帮助识别潜在的影响者。这可以有效处理大规模社交网络的动态。同时,进化算法通过不断优化解决方案来驱动种子选择过程。接下来,我们详细阐述用户代理行为的建模和自适应解决方案优化。表 1 列出了以下算法中使用的符号。
4.2. Influencer nomination by autonomous agents
在ABEM中,用户被建模为自主且主动的代理,它们能够与邻居进行通信,从本地环境中检索信息并估计影响能力。影响者提名由用户代理主动发起。此类提名的结果是修改影响者池,使其与不断发展的社交网络保持同步。
算法1描述了基于代理的影响者提名过程,其中所有计算均由代理在本地进行。输入包括用户代理 vi、程度阈值 θs 和影响力四分位数阈值 θq。输出是时间步 t 更新的影响者池 C (t)。第 1-3 行旨在初始化变量并检查 t 处的邻域。第4-9行请求邻居的最新信息,包括影响能力,并计算影响能力弱于vi的邻居的数量。第 10-14 行分别将 vi 的影响能力和影响四分位数与阈值 θs 和 θq 进行比较,并确定如何更新影响者池。
4.3. Adaptive solution optimization
自适应解优化包含两个关键的并发过程,即解优化和自适应。前者采用遗传算法随着时间的推移不断优化解决方案,其中搜索空间由自适应解决方案优化器(ASO)定义。在后者中,ASO 通过考虑最新影响池和现有结果来重新校准解决方案。显然,ASO 在连接用户代理的决策和进化算法的输出方面发挥着关键作用,这也反映了我们提出的 ABEM 解决影响力最大化问题的主要思想。
算法 2 描述了通过促进 ABEM 来挖掘影响者的整个过程,其中四个基本算子,包括初始化、选择、交叉和变异,都是为了适应问题空间而定制的。此外,由于网络的演变可以通过影响者池的变化来反映,因此解决方案将在连续两代之间进行调整,将过时的候选者替换为影响者池中出现新的影响者,即重新校准操作。
第 1-3 行从当前影响者池 C(t) 中初始化一个群体,并评估每个个体的影响覆盖率,其中适应度函数 σ (·) 的输出表示基于 IC 模型的估计影响覆盖率。第 4 行开始播种过程,当最佳解 Sm 的 σ (·) 开始收敛并在多代中保持不变时,终止条件被触发。这是在固定的 g 代(即最大迭代次数)内测量的。第 5-12 行运行优化算子,其中 Sel(·)、Cro(·)、Mut(·) 和 Rec(·) 分别表示选择、交叉、变异和重新校准算子。第13-18行评估当前一代每个解决方案产量的适应度值,并找出最佳解决方案,即影响范围最大的种子集。第 20 行返回最佳解决方案。
在下面的小节中,我们将解释 ABEM 中使用的关键算子,包括初始化、选择、交叉和变异,以及解决方案适应的重新校准。
4.4. Key operators
运算初始化。种子集的初始群体被证明非常重要,因为它定义了探索影响力最大化问题的“最佳”解决方案(即种子集)的起点。 ASO 生成初始种群 R0 = {S1, S2,... 。 。 , Sm} ,人口规模为 |R0| = m,即 m 个候选解决方案(染色体或种子集)的集合。染色体 Sm = {v1, v2, . 。 。 , vk} 对应于一个种子集,其中 k = |Sm|表示种子集大小。
选择运算符。选择算子协助识别种子集的集合以供进一步改进,其中每个个体的适应值被认为是关键因素。换句话说,影响力覆盖率较高的种子集被选为下一代的机会更大。此外,由于原始解决方案和通过算子修改的解决方案都将保留,因此候选解决方案的数量远远大于总体规模。选择算子还过滤掉“坏的”并控制种群规模。
因此,从要选择的群体Ri(t)中个体Sj(t)的选择率ps可以用公式(1)表示。 (6)。 N = |Ri(t)|是 Ri(t) 的总体规模。
算法 3 描述了选择运算符的工作原理。第 1-3 行检查大小差异并确定选择是否继续。第 4-11 行根据等式 1 中的选择概率将解决方案从增强总体 Ri(t) 复制到 R′ i(t)。 (6)。如果 R′ i(t) 的大小未达到 |Ri (t )|,则第 12-15 行填充 R′ i(t)。
交叉运算符。影响力最大化问题中的交叉操作重新组合两个种子集(父母)并生成两个新的解决方案(后代)。换句话说,两个选定的种子集在随机切片点交换影响者并产生两个新的种子集。混合两个解决方案可能会导致种子集中出现重复的元素。因此,需要修复功能通过用影响者池中的随机用户替换重复的影响者来修复解决方案。
交叉算子在算法 4 中描述。第 2-3 行检查是否选择当前种子集 Sm 进行交叉。第 5-7 行通过获取另一个种子集、生成切片点并初始化两个后代来准备操作。第 8-15 行进行交叉。第 16-23 行通过添加影响者池中的用户来修复生成的种子集。因为后代被建模为哈希集,其中重复的项目仍然是单个副本。换句话说,体型较小的后代需要被“固定”。第 24 行通过附加新生成的后代来扩展当前一代,第 26 行返回交叉后更新的 Ri 作为 R' i。
变异算子。变异算子作用于种子集的单个用户,用另一个潜在影响者替换特定种子(用户)。该算子有助于保持种子集从一代到下一代的多样性,这使得 ABEM 能够拥有广泛的可行解决方案,避免快速覆盖局部最优解。具体来说,种子应该被从当前影响者池中以一定概率随机选择的种子候选者替换。该运算符在算法 5 中进行了描述。
重新校准操作员。重新校准算子的目的是根据不断变化的环境来适应现有的人口。由于引入当前群体的种子的影响能力随着时间的推移而变化,因此有必要通过替换部分“过时”的影响者来更新现有的解决方案。具体来说,重新校准操作员检查群体内的所有种子集,找出影响力显着下降的用户。这些用户将被新引入影响力池的用户所取代。
算法 6 描述了重新校准过程。输入包括时间步 t 处的用户集 V (t)、影响者池 C (t) 和要适应的当前群体 Ri(t)。输出是重新校准的总体 R′ i(t)。第 3-5 行标识 Ri(t) 中的用户,这些用户退出网络并用影响池中随机选择的用户替换这些用户。第 6-13 行根据估计的度数变化率启动适应。
5. Experiments
在本节中,进行了四个实验来评估 ABEM 的性能。第一个实验分析了不同实验设置下 ABEM 的收敛性。在第二个实验中,我们评估了 ABEM 在动态环境中影响最大化的连续性能。第三个实验通过影响最大化将 ABEM 的性能与几个基线进行比较。最后一个实验进一步探讨了ABEM的参数设置。以下小节分别介绍实验设置、展示实验细节并讨论结果。
5.1. Experimental settings
实验使用了三个真实世界的数据集,包括 Ego-Facebook、1 [61] Git、2 [62] 和 Flixster。3 [63] 这些数据集的属性如表 2 所示,ABEM 的参数为如表3所示。所有实验均采用影响力覆盖率,即影响力最大化问题的经典评价指标。影响力覆盖率是指被识别出的影响者激活(影响)的用户数量。最重要的是,我们在实验3中使用运行时间作为评估指标,表明算法找到解决方案的时间成本。综上所述,影响覆盖率和运行时间分别代表了所提出算法的有效性和效率
以下影响最大化问题的基线用于性能比较,其中贪婪算法被认为是最强的基线之一。
• 贪婪:通过迭代所有用户来选择每个种子,旨在达到最大影响力边际收益。贪心算法不可扩展,因为它依赖于大量的蒙特卡罗模拟。
• 基于学位的选择:具有最高学位的用户将被选为影响者。 • 程度折扣启发式(DDH):通过确定性程度策略选择种子。该算法是基于度数高的用户通常聚集在一起的思想而开发的。因此,没有必要选择所有这些[24]。
• 遗传算法(GA):传统的GA,没有任何优化或剪裁。具体来说,种子是在使用经典 GA 算子进化几代后选择的。
• 具有影响力池的遗传算法:具有优化初始群体的传统遗传算法,其中解决方案基于影响者池进行初始化。
• 随机:在每个时间步随机选择种子。执行时间最快,但通常影响范围最低,因为它不遵循任何启发式。
5.2. Experiment 1: Convergence analysis
实验 1 通过跟踪不断优化的解(即种子集)的演化模式来分析 ABEM 的收敛性。对于每一代,都会估计平均影响力覆盖范围(平均适应度)和最高影响力覆盖范围(最佳适应度)。进化算法通过使用两个数据集(即 Git 和 Ego-Facebook)进行验证。该实验还定义了固定的代数,即 1000。
图 2 显示了通过影响者池促进 ABEM、GA 和 GA 的每个群体的进化趋势。很明显,经过一系列的迭代,三种算法都开始收敛,最终达到最优解。此外,ABEM 展示了所有方案中的最佳性能,这可以通过在 1000 代结束时将最佳解决方案与其他解决方案的影响范围进行比较来揭示。
实验结果也隐含地揭示了ABEM的优势。首先,ABEM 的收敛速度比 GA 快得多,这一点可以通过比较图 2(a) 和图 2(b),或者图 2(d) 和图 2(e) 来观察。原因是ABEM利用影响者池进行初始化,这使得ABEM能够从更高的起点开始,并且有更好的机会快速获得最优解。其次,ABEM 仍然有更大的机会改进现有的解决方案,甚至达到收敛状态。然而,拥有影响力池的 GA 几乎没有机会收敛后。这是因为ABEM明确定义了搜索影响者的范围,但其他算法在世界范围内进行搜索过程。因此,在ABEM中,所有种群的平均适应度总是显得高于其他种群。第三,ABEM 表现出更高的计算效率。从平均适应度的振荡程度来看,ABEM表现出相对稳定的趋势。然而,其他算法的平均适应度波动很大。其背后的原因还取决于搜索范围。在ABEM中,影响者的探索范围被各个用户代理缩小,这大大降低了中心化的计算成本。相比之下,其他算法必须处理更大范围的人口剧烈变化。
5.3. Experiment 2: Continuously influence maximization in dynamic social networks
实验 2 旨在评估动态环境中 ABEM 在影响力最大化方面的连续性能。该实验还明确证明了ABEM的适应性,即在不断变化的环境中不断更新已识别的种子集,并根据过去的经验调整解决方案
在本实验中,使用 Flixster 数据集中 2006 年至 2008 年连续 12 个季度的交易来模拟动态环境[63]。数据集的统计数据列于表4中。由于某些快照的大小显得很小,我们给出k = 5,θs = 2,θq = 0.7。采用五种种子算法,即贪婪算法、度数算法、DDH算法、GA算法和带影响力池的GA算法作为对应算法。在影响力最大化问题中,贪婪算法被认为是最强的基线之一[1,24]。除此之外,影响力扩散模型采用IC模型,均匀概率为0.1,蒙特卡洛模拟次数为100次。我们还列出假设如下。
• 用户在第一次评分时加入网络,并在最后一次评分后退出。仅当用户在社交网络中显示为活跃用户时,他或她才会受到影响。 • 当用户加入网络时,相应的关系立即建立。同样,如果用户退出网络,相关链接也会被删除。
• 贪婪算法每年重新校准选定的种子集。这是因为贪婪算法对于大规模网络来说不可扩展。频繁启动贪心算法是不现实的。
• 学位和DDH 也每四个季度重新选择影响者。这是因为这些启发式算法需要整个网络拓扑。频繁地对大规模网络中所有用户的程度进行排名是不现实的。
首先,我们将 ABEM 的影响覆盖范围 [1,64] 与具有不同种子集大小(即 k = 5、k = 10 和 k = 15)的其他基线进行比较。图 3 显示了使用 12 个连续季度的实验结果,其中网络拓扑(包括节点和链路)随着时间的推移而演变。无花果。图 3(a) 至 3(c) 比较了每个季度的影响覆盖范围。无花果。图 3(d) 至 3(f) 比较了每个季度的累积影响覆盖率,即从时间步 0 到 t 的总体影响覆盖率。从图中可以看出,ABEM 优于经典的种子算法,这意味着贪心算法在没有任何校准的情况下在变化的环境中失去了优势。相比之下,ABEM 随着时间的推移调整解决方案,这一特性源于其内部设计,即多智能体系统和进化计算的混合。此外,在动态网络中,ABEM 优于其他两种进化方法,即 GA 和带有影响池算法的 GA。这是因为 ABEM 利用影响者池进行初始化和重新校准,这为 ABEM 提供了更好的起点和更高的机会快速收敛到最优解决方案。
其次,我们进一步研究 ABEM 如何使用相同的数据集来调整动态网络中的种子集,其中选择了 Flixster 的连续四个季度,即从 2007 年第一季度到 2007 年第四季度。 ABEM的演化过程如图4所示,其中x轴表示离散时间步长,即网络快照,y轴表示算法产生的影响范围。任意两个连续季度之间分配 1000 个单元,每个单元代表进化算法产生的一代。我们为探索选择了 k = 5、k = 10 和 k = 15 的种子集大小。从这些图中可以看出,2007年Q2,ABEM仅仅在500代之内就很快达到了最优解。随着网络的发展,在 2007 年第二季度,ABEM 的性能下降,但经过几代之后才迅速攀升。这是因为现有的潜在影响者被保留在影响者池中,并且解决方案可以快速适应。 2007 年第三季度,ABEM 需要更多代数才能收敛。原因是此时网络中发生了巨大的变化,许多现有的影响者需要在人群中被替换。因此,可以证明ABEM具有很强的适应性,可以有效地处理社交网络的动态。
第三,我们进一步验证了ABEM在不同参数设置下的自适应能力。回想一下,ABEM 的影响者池由所有代理共享,并限定了问题搜索空间的范围。因此,影响力池显着影响ABEM的性能。在本实验中,我们通过改变影响者池的程度阈值 θs 和影响四分位数阈值 θq 来观察结果。
图 5 显示了 Flixster 数据集 12 个季度中三种不同设置的影响覆盖范围: (1) θs = 1 且 θq = 0.5 (2) θs = 2 且 θq = 0.3 (3) θs = 2 且 θq = 0.7,种子集大小为 5。图 5 的表格描述了基于各种设置的详细结果。
当网络规模较小时,即从 2006 年第一季度到 2006 年第三季度,观察不到太大差异。但是,随着网络规模的增加,池大小对影响力覆盖范围产生很大影响。较大的池大小(θs = 1 且 θq = 0.5)导致性能相对较低。这是因为ABEM的搜索空间扩大了,需要更多代才能达到最优解。相比之下,给定较小的池大小(即 θs = 2 和 θq = 0.7),ABEM 比大多数快照中具有不同设置的性能更好,但在 2008 年第二季度和第三季度表现出相对较弱的性能。这表明网红池的过度萎缩不可避免地会过滤掉一些潜在的网红。
5.4. Experiment 3: Influence maximization comparison
实验3旨在通过经典影响力最大化比较来评估ABEM的性能。我们将 ABEM 与第 5.1 节中介绍的基线进行比较,其中采用了两个静态网络,即 Ego-Facebook 和 Git。在本实验中,种子集大小k的范围为5到10,步长为5。最重要的是,它有利于IC模型作为影响力扩散模型,统一概率为0.1。
Ego-Facebook 和 Git 上的实验结果如图 1 和 2 所示。分别如图6(a)和6(b)所示。如上所述,贪婪选择已被认为是影响力最大化问题中最强的基线之一,但不可扩展。从两个图中可以看出,贪婪选择产生了这两个数据集的最佳性能。尽管具有与贪婪类似的性能,但 ABEM 能够缓解可扩展性问题,因为主要计算分布到各个代理并且搜索范围有限。
在图 6(a) 中,ABEM、度数、DDH 和贪婪选择之间没有观察到显着的性能差异。这是因为 Ego-Facebook 网络的规模较小,并且识别出的种子集也相似。尽管如此,ABEM 的表现仍略优于 Degree 和 DDH。给定一个相对较大的网络,在图 6(b) 中,ABEM 优于其他基线,并表现出与贪婪选择类似的性能。值得注意的是,当需要较小的种子集时,例如 k = {5,10,15},ABEM 的性能可以超过贪婪选择。
5.5. Experiment 4: Parameter analysis
在实验4中,我们通过改变参数(包括代数g、度阈值θs和影响四分位数阈值θq)进一步研究ABEM的性能。
首先,我们分析增加代数对影响覆盖范围和运行时间的影响。从图7中我们可以观察到,随着进化代数的增加,运行时间线性增加。影响力覆盖范围也呈现出稳步上升的趋势,500代后略有改善。这是因为几乎所有潜在的影响者都被纳入了人群中,并且需要时间通过重新组织现有的影响者来找出更好的种子集。
其次,我们通过调整程度阈值 θs 和影响四分位数阈值 θq 来研究影响者池大小的变化。这两个参数都控制着个人的“提议成为影响者”行为,这直接影响影响者池的规模。随后,它决定了搜索范围并影响ABEM的性能。高度数阈值 θs 意味着只有那些邻居大小较大的人才能被提议为影响者。同样,高四分位数阈值 θq 允许在其社交圈中具有影响力的用户加入影响者池。
图 8(a) 和 8(b) 分别展示了通过改变 Ego-Facebook 和 Git 数据集中的两个参数对影响者池大小的影响。很明显,在这两个图中,影响者池规模随着 θs 或 θq 的增加而呈现下降趋势。然而,在 Git 数据集中,影响者池大小对 θs 比 Ego-Facebook 数据集更敏感。这是因为 Git 中的节点连接似乎比 Ego-Facebook 稀疏得多。
第三,我们研究影响者池规模如何影响 ABEM 的性能。在效率和效果之间取得平衡很重要。具体来说,较大的影响者池规模使 ABEM 能够找到更好的解决方案,但由于范围较大,效率较低。 ABEM 可以通过较小的影响者池更快地收敛,但可能不会产生更好的解决方案。
这是因为当减少影响者池的规模时,潜在的影响者可能会被过滤掉。
图 9(a) 和 9(b) 使用两个数据集演示了影响者池大小分析。在 Ego-Facebook 数据集中,当减少影响者池大小时,没有观察到显着的性能改进。换句话说,最小的大小使 ABEM 能够产生与较大池大小几乎相同的性能。这种现象也意味着 ABEM 将执行与 Ego-Facebook 网络中基于学位的选择类似的种子集。这也与实验2的结果一致。相比之下,图9(b)揭示了不同的模式。最佳适应度呈现稳定趋势,直到 θq 达到 0.9。从这一点开始,最佳健康度和平均健康度都急剧下降。这是因为由于缩小了搜索范围,潜在的影响者被过滤掉了。因此,综合考虑效率和效果,ABEM将采用θq=0.9,影响者池大小为 600。在这种情况下,ABEM 肯定会优于基于程度的选择,这也与实验 2 的结果一致。
6. Conclusion
在本文中,提出了一种新颖的基于代理的进化方法,即 ABEM,来挖掘在线社交网络中的影响者。我们详细阐述了所提出的方法,包括算法、挖掘过程和 ABEM 的每个组成部分。我们还阐明了 ABEM 的主要功能,即处理大规模网络和动态环境。前者依赖于基于代理的建模,其中主要计算成本可以分配给 ABEM 中的各个代理。行为结果为ABEM提供了合理的搜索范围。此外,基于代理的建模使 ABEM 能够以分布式方式识别潜在的影响者,这适用于网络发生变化而无需捕获任何快照的现实情况。 ABEM 的搜索范围由用户代理更新。后者由所提出的算法处理,该算法可以保留现有的潜在影响者并修改部分解决方案。进行了大量的实验来评估ABEM的性能和能力,包括收敛分析、动态网络中的连续影响最大化、经典影响最大化比较和参数分析。实验结果表明,ABEM不仅在影响力最大化的性能上优于最先进的算法,而且可以应用于大规模的动态环境。
未来,我们计划通过采用一些启发式方法进一步改进ABEM,这可以加快不断变化的环境中的收敛速度。此外,我们将开发 ABEM 的增强版本,以适应更复杂的影响扩散过程并考虑上下文。