Deep reinforcement learning-based approach for rumor influence minimization in social networks

最新推荐文章于 2025-04-24 17:28:08 发布

流浪的诗人，

最新推荐文章于 2025-04-24 17:28:08 发布

阅读量1.1k

点赞数 10

分类专栏：读论文文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_59482564/article/details/142467328

版权

读论文专栏收录该内容

81 篇文章

订阅专栏

Abstract

在脸书、推特、微信等社交网络上散布恶意谣言，可能引发政治冲突、影响舆论、造成社会混乱。谣言可以在网络中快速传播，一旦获得关注就很难控制。谣言影响最小化 (RIM) 是信息传播和网络理论的核心问题，涉及寻找最小化社交网络内谣言传播的方法。现有关于 RIM 问题的研究主要集中在阻止有影响力的用户的行为，这些用户可以推动谣言传播。这些传统的静态解决方案无法从全球角度充分捕捉谣言演变的动态和特征。考虑到广泛因素的深度强化学习策略可能是应对 RIM 挑战的有效方法。本研究介绍了动态谣言影响最小化（DRIM）问题，这是一种用于控制谣言的逐步离散时间优化方法。此外，我们还提供了一种基于深度强化学习的动态谣言拦截方法，即RLDB。首先，提出了基于独立级联模式的静态谣言传播模型（SRPM）和动态谣言传播模型（DRPM）。 DPRM的主要好处是它可以根据社交网络中受谣言影响的个体数量动态调整概率矩阵，从而提高谣言传播模拟的准确性。其次，RLDB策略通过观察用户状态和社交网络架构的动态来识别要阻止的用户，以最大程度地减少谣言影响。最后，我们使用四个不同大小的真实数据集评估阻塞模型。实验结果证明了该方法在出度（OD）、介数中心性（BC）和PageRank（PR）等启发式方法上的优越性。

关键词在线社交网络 · 深度强化学习 · 谣言影响最小化 · 深度 Q 网络

1 Introduction

Facebook、Twitter 和微信等在线社交媒体平台已成为个人互动、访问数据和分享帖子的重要平台。然而，社交媒体已成为虚假信息、谣言和恐怖言论快速传播的便捷平台[1]。这种现象对社会和网络媒体的监管提出了重大挑战。日本福岛地震（2011 年）期间发生的一个经典谣言事件，清楚地提醒人们潜在的可能性核泄漏的后果[2]。人们相信电离盐可以保护身体免受核辐射。于是，不少中国消费者第一时间抢购盐，多家超市也抢购盐，引起了公众普遍的恐慌和困惑。另一个例子是关于 COVID-19 的信念，即摄入纯酒精可以根除受感染体内的病毒，这导致伊朗 800 人死亡，另有 5876 人因甲醇中毒住院 [3]。这些案例表明，恶意谣言的传播对社会舆论产生了不利影响，扰乱了社会正常秩序，削弱了政府公信力[4]。一旦网络谣言在社交媒体上被发现，应采取积极措施将其负面影响降至最低。

谣言控制对于社交平台服务提供商至关重要，他们必须提供准确、真实的信息，防止谣言进一步传播并可能造成更大的危害。阻止谣言的技巧以往的研究讨论可以分为三类：

• 通过阻止节点控制谣言传播[511]：这些方法的目的是通过识别社交网络中有影响力的节点并在谣言传播时阻止它们来减少谣言的传播；

• 通过阻止关键边来控制谣言传播[12-14]：这些技术通过阻止对谣言传播有用的特定边集来限制谣言传播；

• 通过传播真相澄清谣言[15-17]：这些方法背后的假设是，一旦个人了解真相，他们将不再相信谣言。他们的主要想法是通过识别一组用户可以信任的节点来传播真相。

此前的研究表明，限制关键用户在谣言传播中的影响力可以成为控制谣言传播的有效途径。然而，这些作品将阻止谣言视为静态过程，并利用贪婪技术来解决它。他们没有考虑阻塞节点如何在多个周期后影响谣言传播。本文研究了最小化谣言对社交网络影响的新问题，称为动态谣言影响最小化问题，以阻止谣言传播。

为了保证谣言传播过程的可理解性，用独立的级联模型表示的过程被分为多个时间步。在每个时间步，我们的目标是发现适当的消息阻塞个体（阻塞者）组，用 B 表示，由 k 个成员组成。对拦截者发送的消息进行过滤或拦截，以防止谣言从拦截者传播到其他节点，从而形成谣言控制的基础。我们应对 DRIM 挑战的策略涉及两个组成部分。首先，基于谣言流行度和独立级联模式开发静态谣言传播模型（SRPM）。接下来，通过将谣言流行度作为随时间步长演变的动态变量来构建动态谣言传播模型（DRPM）。其次，我们提出了一种使用深度强化学习技术的谣言拦截模型，该模型可以在与 DRPM 交互时选择最合适的拦截器来控制谣言传播。最后，实验结果表明，深度强化学习学习到的模型在各种情况下都取得了更好的效果。本文的主要贡献可概括如下：

• 我们正式引入动态谣言影响最小化（DRIM）问题，该问题比其前身静态RIM 问题更好地融合了社交网络中谣言传播引起的动态变化。

• 谣言的流行程度是根据社交网络中信息传播的特点来确定的。本文提出了两种类型的谣言传播模型：假设流行度保持不变的静态模型（SRPM）和考虑流行度变化的动态模型（DRPM）。从这项研究中获得的模型可能有助于模拟现实世界的谣言。

• 我们提出了一种基于深度强化学习的谣言拦截模型来控制谣言的传播。该模型能够根据社交网络的状态演化来修改控制策略。分析阻塞模型可以通过提供网络演化的动态视角来深入了解谣言控制。

本文的其余部分组织如下。第二节回顾了与谣言影响最小化和强化学习相关的工作。第三节介绍了社交网络、谣言传播模型和强化学习的基础知识。第 4 节形式化了动态谣言影响最小化问题，其解决方案在第 5 节中提供。实验结果和结论分别在第 6 节和第 7 节中报告。

2 Related work

在本节中，我们将研究有关谣言影响最小化和强化学习应用的现有研究。

2.1 Rumor influence minimization

人们对减少谣言影响的方法进行了大量研究。 Domingos 等人的工作首次认真探索了社交网络中用户之间的影响。 [18]。肯佩等人。 [19]将病毒式营销视为一个优化问题，称为影响力最大化（IM）。受到影响力最大化问题的启发，Fan 等人。 [5]探讨了相反的问题，即成本最低的谣言拦截。他们试图确定充当保护者的最小节点集。保护者积极参与限制谣言的负面影响，即减少受谣言影响的人数。用户体验上Wang 等人研究了如何减少谣言影响。 [6] 提供了一种解决 IM 问题同时保持高水平用户体验的方法。在谣言分析中提出的各种传播模型中，Adil 等人。 [16,17]研究了社交网络中多重谣言传播的问题，并提供了 HISBM 模型来解决这个问题。 Yan 等人的动态规划方法。 [7]描述了如何解决树网络中的谣言影响最小化问题。本文提出了一种基于强化学习的方法来减少谣言的影响，这与以前的方法不同。该方法可以根据社交网络中谣言的传播动态调整其阻止策略，并且该过程的结果用于优化（细化）策略。

2.2 Deep reinforcement learning

随着深度学习技术的进步，计算机视觉和自然语言处理的最新进展。此外，深度学习在强化学习挑战方面也取得了成就，例如在围棋游戏[20]和雅达利游戏[21]中取得了显着的进步。强化学习是机器学习的一种，代理学习与其环境交互以最大化奖励。这个学习过程允许代理随着时间的推移提高其性能。与其他类型的机器学习不同，强化学习涉及使用奖励函数，这有助于代理确定其行为的价值并指导其决策过程。强化学习算法一般可以分为两类：

• 重视基于功能的方法。这些方法的特点是在保留价值体系的同时优化策略。 Watkins 等人提出的 Qlearning 算法就是一个例子。 [22]。 Mnih 等人的算法。 [21] 在 Atari 游戏的研究中，通过将 Q 学习与深度学习相结合，优于之前的所有算法。作者将改进后的算法称为深度Q网络（DQN），通过使用冻结目标网络和经验回放来提高算法的稳定性和效率。

• 基于政策的方法。这些方法直接建模和优化策略，不需要保留价值函数。 Williams 等人在基于政策的方法方面开展了类似的工作。 [23]通过随机游走收集轨迹并提出了 REINFORCE 算法。基于策略的训练的特点是轨迹变化很大，这对训练来说是一个挑战。银等人。 [24]开发了一种确定性策略梯度（DPG）算法。 Lilicrap 等人。 [25]采用DQN来估计基于DPG算法的函数值，从而产生深度确定性策略梯度（DDPG）算法。

价值函数与策略的显式表示的组合可以生成行动者批评家方法。价值函数用作计算策略梯度的基线。演员批评家方法与基线的不同之处仅在于它们采用了学习的价值函数。
受影响力最大化强化学习研究[26]的推动，我们率先使用强化学习来解决影响力最小化问题。与之前的RIM方法相比，基于强化学习的方法在各种场景下取得了更成功的结果。

3 Preliminaries

本节简要介绍三个概念及其相关定义：社交网络、谣言传播模型和强化学习。

3.1 Social networks

图 1 Zachary 空手道俱乐部社交网络的插图。 Zachary 的空手道是一个大学俱乐部，由 34 个节点、78 个边和两个意见领袖组成。两位意见领袖产生了不同的追随者，从而建立了不同的社区

社交网络通常用有向图 G = (V, E) 表示，其中节点集合 V 和边集合 E 分别表示用户和用户之间的关系（例如关注或被关注）。图 1 展示了 Zachary 空手道俱乐部的社交网络，其中不同颜色的节点代表不同的社区。每个节点的大小表明其在社区内的影响力。影响力强的节点在传播谣言方面的作用突出。据观察，连接越多的节点传播信息的能力越强。因此，具有较高影响力的节点通常具有更大的影响力。谣言传播场景中的边 (u, v) ∈ E 表示用户 v 关注用户 u 的事实。结果，用户u被允许与用户v分享谣言。设puv ∈ [0, 1]表示节点u激活v的概率，即谣言从用户u传递到用户v的概率。具体来说，当边 (u, v) / ε E 时，我们有 puv = 0。

3.2 Rumor propagation models

随着深度学习的发展，人们对社交网络的研究更加深入[27-29]。谣言的传播方式与普通信息有许多相似之处。大多数谣言传播解决方案可以归类为特定类型的信息传播模型。多项研究已经探索了模拟谣言的模型 [6,16,17,30]。他们中的许多人认识到线性阈值和独立级联模式所发挥的关键作用。

线性阈值模型的特征是每个节点都有一个预定的阈值 θ。当节点的邻居的影响力超过固定值 θ 时，节点就会激活。激活将继续，直到没有不活动节点可以满足阈值条件。与线性阈值模型相反，独立级联模型具有固定的阈值参数，依赖于一定的概率进行信息传播。传播通常可以描述为以从初始时间零 (t = 0) 开始的离散时间步长表示的节点状态分布。令 Su(t) 表示节点 u 在时刻 t 的激活状态。然后，如果 Su(t) = 1 或 Su(t) = 0，则节点 u 在时刻 t 分别处于活动状态或不活动状态。在 ti 时刻激活的节点将以 puv 的概率在 ti+1 时刻激活其不活动的邻居 u。如果在 ti 时刻没有节点被激活，则由独立级联模式模拟的传播过程终止。在本文中，独立级联模型被用作我们的模型基础来结合谣言传播特征。

图2 独立级联模型示意图。四个时间步长的分解图显示了概率如何影响独立级联模型中的传播

图2展示了一个独立的级联模型来表示谣言的传播。网络的用户状态可以分为三类：未感染、感染和激活。未感染的节点不会受到谣言的影响。受感染的节点已经暴露于谣言，但无法传播它。激活的节点刚刚受到谣言的影响并且可以传播谣言。每条边都有一个权重值，表示沿着该边传播谣言的概率。例如，边 (1, 3) 上的权重为 0.7 意味着谣言从节点 1 传播到节点 3 的概率为 0.7。图2(a)展示了以节点1为原始节点的谣言传播初始点的情况。根据图2(b)，谣言从节点1传播到节点3，但不传播到节点2。独立级联模型中的节点只有一次机会激活其相邻节点。因此，在时间步骤2，节点1从活动状态切换到感染状态，从而失去激活其他节点的能力。相反，节点 3 继续激活节点 2 和 4。唯一的活动节点 6 没有可以在最后时间步激活的后继节点，如图 2（d）所示。最终，传播过程结束。

3.3 Reinforcement learning

人工智能的最新发展增加了对强化学习的需求[31-33]。强化学习涉及调整策略以最大化期望基于与环境的持续交互，由两个主要对象组成：代理和环境。代理可以识别环境中的任何变化并采取相应的行动。环境对代理的行为做出反应并改变其状态，这也向代理提供反馈作为奖励。除了代理和环境之外，还有一些其他关键组件。

• 状态：某一时刻的环境描述称为状态，用s表示，指社交网络中谣言传播的离散情况。

• 动作：代理的节点阻塞行为称为动作，记为a。

• 策略：谣言分析中的策略是一个函数，用π表示，指代理的行为，它决定代理在特定状态s下是否采取某个动作a。例如，策略 π(s) = a 用于表示动作 a，该动作 a 决定在状态 s 中应阻止哪些节点传播谣言。

• 马尔可夫决策过程：“马尔可夫性”是“未来”状态独立于“过去”的属性。马尔可夫决策过程是表现出这种特性的随机过程。几乎所有的强化学习问题都可以表述为马尔可夫决策过程。图 3 提供了 MDP 中主体与其环境之间交互的可视化表示。每次交互都可以分为三个步骤：（1）智能体从环境中感知状态st和奖励rt； (2) 智能体根据状态 st 采取动作 a ； (3) 交互将状态 st 和奖励 rt 分别更新为 st+1 和 rt+1。相互作用重复多次以形成轨迹 τ 。

图 3 马尔可夫决策过程中主体与环境交互的图示。 Agent感知环境中的状态st，然后根据状态st采取动作a。由于处的动作，环境的状态变为 st+1，智能体感知到新的状态 st+1。一旦环境状态st达到终止状态，该过程将完成

• 价值函数：智能体期望从状态s 获得的未来奖励由价值函数表示，用Vπ (s) 表示。价值函数可用于评估策略的优点和缺点。不同时间步的未来奖励之和表示为：

其中 γ 表示折扣因子。类似地，我们可以定义状态价值函数 Qπ (s, a)，根据状态 s 和动作 a 给出未来奖励的期望 R。

强化学习的突破之一是 Q-learning 的发展 [22]，其定义为

Q 学习方法学习与最优动作价值函数 Q* 非常相似的动作价值函数 Q。算法1展示了Q学习的过程。必须确定算法第 5 行表示的具有 Q 最大值的动作 a，这使得 Qlearning 不适合具有连续状态或动作的环境。

随着深度学习的兴起，深度强化学习的概念也被提出。姆尼赫等人。 [21]提出了深度Q学习（DQN）算法，该算法通过使用参数为θ的神经网络Qθ（s，a）来近似Q*（s，a）。 DQN的提出解决了Q-learning无法处理连续状态和动作空间的问题。图 4 显示了 DQN 模型如何玩 Atari 游戏。

图 4 Atari 游戏的 DQN 模型。 Atari游戏的屏幕分辨率为210×160，每个像素有两种状态：黑色和白色。因此状态总数为2210×160。 Q-Learning 没有能力保留所有状态。因此，设计了价值函数逼近技术，利用神经网络来逼近最优Q函数。 Atari 游戏的 DQN 模型过程涉及以下四个步骤：（1）将屏幕划分为单个像素； (2)计算每个像素点的灰度值并作为向量输出； (3)将向量输入神经网络，得到状态s的Q值； (4)选择Q值最大的动作a并执行

4 Problem formulation

本节从两个方面描述谣言影响最小化（RIM）问题：动态谣言传播模型（DRPM）和基于动态谣言传播模型的RIM问题的形式化。

4.1 Dynamic rumor propagation model

许多专注于谣言传播的研究都采用固定的传播概率 puv。真实社交网络中信息传播的概率通常随着时间的演变和参与者的数量而变化。因此，本研究提出了动态谣言传播模型（DRPM），可以动态计算和更新谣言传播的概率puv。影响 puv 的三个主要因素。

(1)传播者的可信度。如果传播者可信的话，谣言更有可能被相信。例如，在线社交网络倾向于奖励拥有更多关注者并发布更可靠信息的博主。这项研究通过每个用户的关注者数量来衡量传播者的可信度。

(2)不活跃节点相信谣言的概率。通常，一小部分社交网络数据专门用于谣言。关注关系较多的用户由于互动时间有限，可能不会注意到谣言。用户关注的博主数量越多，可以扩大信息来源，从而更好地判断谣言。因此，不活跃节点关注的用户越多，该节点最终相信谣言的概率就越低。

（3）谣言盛行。用户更有可能相信社交网络上流行的谣言。社交平台的机制将使人们的注意力集中在新的热点话题上。因此，这些主题的受欢迎程度可能会动态变化。因此，当有足够多的人分享有关谣言的信息时，谣言就会变得流行。

本研究首先描述了结合因素（1）和（2）的静态谣言传播模型（SRPM），其中概率 puv 计算如下：

式中，α、β为平衡系数，满足α、β ε (0, 1)、α + β = 1。OUT(u)表示节点u的出度。传播者的影响力可以使用函数log(1 + OUT(u))来计算。该公式比直接用out度计算影响力更好地避免了极值的影响。例如，大型网络上可能有拥有数百万粉丝的博主。由于影响力线性增长，这些博主传播谣言的概率将非常接近1。类似地，我们使用 IN(v) 表示节点 v 的入度，并使用 log(1 + IN(v)) 表示用户 v 接收并相信用户 u 发布的谣言的概率。根据参数α和β的平衡，puv的表示可以简化如下。

静态参数α用于调整传播概率p的分布。不幸的是，很难使用静态参数来模拟流行度的变化。因此，我们将 SRPM 中的静态 α 替换为动态变化的流行度 αt ，即由 (6)atmomentt 给出的流行度。

其中 c1 和 c2 是用于平滑流行度变化的常数。参数λ是一个比例因子，用于控制当前受感染用户数量影响的动态流行度的大小。 |在 |和 |I t |分别表示t时刻的激活节点数和谣言感染节点数。由（6）更新的静态模型（SRPM）称为动态谣言传播模型（DRPM）。当t时刻的激活节点数量与历史时刻相比显着增加时，受欢迎程度就会增加。随着时间的推移，由于 |I t | 的增加，受欢迎程度 αt 下降。直到传播过程结束。根据(4)和(6)，DRPM中的传播概率pt uv 形式化如下：

4.2 Dynamic rumor influence minimization

DRPM 的建立是为了动态模拟谣言。对于 DRPM 如何促进谣言影响力分析仍缺乏系统的了解。本节介绍基于所提出的 DRPM 的动态谣言影响最小化问题。

定义1 阻塞者：如果在时间步t选择一个不活动节点u作为阻塞者，则它在时间步t+1不会被激活。

定义2 动态谣言影响最小化（DRIM）：社交网络G=（V，E）的DRIM旨在找到每个时刻的拦截器集合Bt（包含k个拦截器节点），以最小化最终被谣言感染的用户数量| I T |,其中T是谣言传播终止的时刻。 DRIM 问题可以形式化为

其中B是由{B1,B2,…,Bt}组成的序列。

图5 动态谣言影响最小化问题图示

令正整数 k 表示阻塞器预算，即每个时间步允许选择的阻塞器数量。图 5 显示了当阻止者预算等于 1 时社交网络的动态谣言影响最小化过程。网络的初始状态如图5（a）所示。假设节点 1 是初始状态下的唯一种子。然后，如果在初始时间步选择节点 2 作为阻止者，它将保持不受影响，即 B1 ={2}，而谣言激活节点 4 和 5。通过选择阻止者确定的谣言阻止行为（K = 1) 在时间步 2 类似于图 5(a) 中所示的情况。在时间步 2 选择节点 6 作为阻止者后，即 B2 ={6}，谣言就被阻止从节点 5 传播到节点 6。节点 8 将被节点 4 的谣言扩散激活。最后，节点 9在时间步 3 被选为阻止者，阻止来自节点 8 的谣言传播。因此，没有活动节点，因此传播过程完成。

5 Methodology

最近，研究人员 [6,16,17] 研究了生存理论对每个时间步激活节点的似然计算的影响。生存理论的主要缺点之一是它忽略了阻塞节点对未来的影响。利用强化学习来选择阻塞节点的主要优点是它可以预测多轮传播后的结果，使我们能够根据阻塞节点的情况选择最优节点进行阻塞。最终谣言传播结果。为此，我们提出了动态阻塞强化学习（RLDB）的新模型，该模型通过综合考虑阻塞者的作用而获得了优异的性能。我们提出的模型的工作流程可以分为两个核心过程：训练模型和利用训练后的模型来识别阻塞者。第一阶段涉及训练模型，包括收集和分析数据、初始化参数以及开发算法 3。第二阶段涉及利用经过训练的模型使用算法 2 选择拦截器。使用此工作流程，我们提出的模型可以准确有效地识别阻滞剂，从而解决 RIM 问题。

5.1 Reinforcement learning model for blocker selection

使用RLDB模型时遇到的主要困难是确定有效的阻塞策略。图6说明了当阻塞者预算满足k = 1时，RLDB模型如何选择阻塞者。选择过程可以用以下三个步骤表示：

图 6 阻止者选择的强化学习模型

(1) 确定给定社交网络中的哪些节点可能在即将到来的时间步中被激活，并将它们添加到候选集 C 中。例如，候选集为图 6 中的 C ={4, 6}。(2 ) 分别计算通过深度 Qnetwork 阻止候选集 C 中每个候选的未来奖励 R。 (3)采取未来回报最大的行动。

算法 2 概述了选择 RLDB 模型阻止者的算法。特别是，在算法 2 的第 7 行和第 10 行之间，我们采用神经网络来预测在选择单个阻止者后受谣言影响的个体数量。同时预测和选择多个阻止程序会大大减少所涉及的计算量，并且对性能的影响可以忽略不计。

5.2 Parameter learning

图 7 具有经验回放和目标函数冻结的深度 Q 网络图示

图7描绘了具有经验回放和目标函数冻结的深度Qnetwork（DQN）[21]的总体框架。本节将探讨深度 Q 学习与经验回放的应用。这种学习方法的特点是代理在每个时间步的经验都存储在重播存储器中以进行参数更新。模型训练的损失函数可以表示为：

其中 rt =−|At |和 θ − 是目标网络 ^ Q 的参数。类似地，参数 θ 属于策略网络 Q。策略网络由 Qθ 表示，由 DQN 用来做出决策。对于每个时间步长 T '，θ 的值被复制到 θ − 。 θ − 在其他时间保持不变。因此，这个优化过程的唯一焦点是优化 θ

DQN 的参数训练通过算法 3 进行演示，该算法基于 (9) 并利用经验回放。重要的是要认识到 DQN 中有两个神经网络，即 Qθ− 和 Qθ ，其中 θ − 和 θ 是神经网络的参数。在每个时间步T'，wesetb与a相同。通过利用这种方法，可以更有效地训练目标网络并更快地达到稳定状态。

6 Experiment

本节评估了在特定 DRPM 下开发的谣言影响最小化方法用于谣言控制的有效性。首先，我们提供数据集和实验设置的概述。其次，通过检查实验结果并从不同角度解释它们来进行彻底的评估。最后，我们将动态阻塞的强化学习与其他基线进行比较。我们使用 PyTorch 作为基本深度学习框架和 NetworkX 来操作图结构来实现实验。参考健身房图书馆的环境搭建强化学习环境，使用PyTorch实现强化学习算法。我们采用了配备RTX3090 GPU的服务器来进行硬件层面的模型训练。

6.1 Datasets

我们选择了四个现实世界的社交网络来评估所提出方法的可行性和性能。

1.扎卡里的空手道俱乐部[34]。 Wayne W. Zachary 报告的这个数据集涉及大学校园空手道俱乐部的社交网络，它经常被用作社区结构分析的例证。 2.脸书[35]。该数据集由 Facebook 的“圈子”（或“朋友列表”）组成。该数据集是从使用特定应用程序访问 Facebook 的参与者收集的。 3.科拉[36]。 Cora 是与机器学习相关的学术论文集，以引文网络格式提供。提取论文之间的引用关系，并利用这些关系形成网络拓扑。 4.电子邮件[37]。从欧洲一家主要研究机构获得的电子邮件数据被用来开发该网络。电子邮件仅代表机构成员（核心）之间的沟通。该数据集不包含发送到外部源或从外部源接收的任何消息。

谣言控制研究只需要社区结构信息。因此，通过采用原始 Facebook 和 Cora 的社区结构创建了两个版本的数据集，即 Facebook-s 和 Cora-s。数据集的详细信息如表1所示。

6.2 Evaluation criteria

为了评估我们提出的方法的性能，我们考虑感染率[6,16,17]，即受谣言影响的人数占总人数的比例，作为衡量谣言结果的最直观方法传播。感染率较低表明谣言控制是有效的。

本研究对该方法进行了彻底的评估，不仅包括感染率，还包括精确度、召回率和 F1 评分。这些指标侧重于评估预测的准确性，而不是感染率，无法充分考虑对谣言控制的影响。

6.3 Hyperparameter setting

超参数，例如神经网络层数、批量大小和学习率，是我们方法的设置，无法从数据中学习。它们通常由从业者选择，并且通常针对当前的问题。这些值通常在训练模型之前设置，它们可以显着影响模型的性能。令 n 表示重点数据集中的节点数。首先，我们尝试减小神经网络的大小以防止过度拟合。每个神经网络层的参数n如表2所示。其次，在训练过程中增加batch size可以取得更好的训练结果[38]。因此，我们使用的批量大小随着实验的进行而增加。第三，学习率取决于数据集的大小。较大的数据集需要较低的学习率。因此，通过将学习率加倍或减半，可以显着改善训练过程，如表 2 所示

ReLU函数用于激活隐藏层，Adam[39]用于其优化。超参数的确定需要结合专业知识和反复试验来确定最佳配置。神经元数量最多为 210 个，神经网络最多包含 4 层。批量大小配置应基于 GPU 的内存容量。较大的批量大小有助于使训练过程更加稳定。值得一提的是，深层的Dropout强化学习模型可以防止训练损失的收敛。

6.4 Baseline methods

我们选择了四种基线方法来比较所提出的 RLDB 模型的性能。我们的实验为具有可调参数的算法提供了最佳设置。

(1)随机。从候选节点集合C中随机选择一个节点作为阻塞者。

(2)Out-Degree(OD)[19]。网络中节点 u 的出度等于 u 的出边数。与其他基于中心性的方法相比，使用出度节点来推断社交网络中个体的影响更加精确。

(3)介数中心性(BC)[40]。节点u的介数等于所有节点经过节点u到达其他节点的最短路径的条数。社会网络研究越来越强调介数中心性的重要性。

（4）PageRank（PR）[41]。 Google 通常使用 PageRank 分数来确定网站节点的重要性。在我们对数据集的所有实验中，PageRank 的阻尼因子参数均设置为 0.85。

6.5 Results

6.5.1 Study of parameter α

本实验旨在分析SRPM中流行度α对谣言传播的影响。图8中的图表显示了谣言从开始到结束所经过的时间以及整个社交网络的感染率。知名度低的谣言很难在社交网络上传播。因此，其预期寿命将很短。当流行度较高时，谣言在社交网络中传播的时间大致等于整个网络的直径。这样的谣言也能很快传播开来。

当流行程度适中时，谣言的传播时间最长。我们可以根据谣言在社交网络中传播所需的时间来确定合适的流行度α。当传播时间最长时，达到最佳流行度，用 α' 表示。同样可以检查谣言感染率来分析社交网络中谣言的传播情况

图 8 显示四个数据集之间流行度 α 存在类似的趋势变化。随着流行度α的增加，谣言传播时间先增加然后减少。这种一致的趋势强化了我们关于谣言流行度对传播持续时间影响的发现。然而，每个数据集都需要不同程度的受欢迎程度才能获得最佳性能。电子邮件数据集的最佳流行度为 α' = 0.1，而 Cora 数据集的最佳流行度为 α' = 0.1。就实现最佳流行度而言，稀疏网络往往优于密集网络。当α=α′时，谣言感染率估计在0.5到0.7之间。

6.5.2 Study of the parameter λ

本节研究 DRPM 中比例因子 λ 的影响。本次探索旨在发现缩放因子 λ 在确定传播时间和感染率中的作用。图 9 显示了四个数据集中 λ 与传播时间或感染率之间的相互关系。需要注意的一个有趣的点是，如果 λ 的值太大或太小，都会减少谣言在社交网络中传播所需的时间。相反，我们可以根据谣言在社交网络中的传播时间来确定合适的缩放因子λ。另外，如果λ与最长传播时间相关，则将因子λ指定为最佳缩放因子λ'。

6.5.3 Performance comparison

本节根据经验将 RLDB 方法与基线（即随机、OD、BC 和 PR）在两种谣言传播模型（SRPM 和 DRPM）下进行比较。 SRPM 和 DRPM 的五个阻碍预算的评估指标的感染率分别记录在表 3 和表 4 中。四个数据集的趋势比较如图 1 和 2 所示。 10和11。

图 10 显示了 SRPM 模型下的基线比较。总体而言，RLDB 方法在所有数据集中都保持了显着的谣言控制影响，特别是在最小阻止集大小 k = 1 的情况下。有显着的积极性能改进（最小RLDB 方法与基线方法相比的感染率）。随着k值的增加，RLDB与其他比较方法之间的差距逐渐缩小。一些控制边界可以在 Zachary 空手道俱乐部和 Cora 的数据集中找到。当k等于10时，谣言感染率保持在极低的水平。目前，RLDB和比较方法在性能上差异较小。当应用于 Facebook 和 Email 数据集时，随着 k 值的增加，RLDB 方法仍然比其他方法具有一些优势。

从 Facebook-s 数据集中可以得出一个有趣的观察结果。随着阻断剂集大小 k 的增加，PR 和 BC 方法的感染率发生逆转。当k<4时，PR策略比BC方法在控制上更有效。增加 k 值可以提高 BC 技术的能力，最终获得比 PR 更好的结果。这种逆转可以用网络拓扑的复杂性来解释。基于单一指标的技术的性能可能会受到数据集参数波动的不利影响。相比之下，数据驱动的 RLDB 方法通过学习过程中衍生的策略，在多个场景中实现了卓越的性能。

图 11 显示了 DRPM 模型下的感染率。与 SRPM 模型相比，DRPM 模型引入了动态流行度，从而导致更复杂的模型传播过程。 RLDB模型优越的控制效果证明了其优越的泛化性，特别是对于复杂的传播模型和网络结构。

图 12 和图 13 分别显示了 SRPM 和 DRPM 模型的精确度、召回率和 F1 分数。当按每个指标对 SRPM 和 DRPM 进行评估时，RLDB 的性能优于其他方法。当在多个数据集上使用 DRPM 进行分析时，RLDB 表现得尤为出色。值得注意的是，Random 在准确率、召回率和 F1 分数方面优于除 RLDB 之外的其他比较方法，而 OD 在感染率方面表现最差。这些分数是由于基于节点统计属性的 OD、BC 和 PR 方法倾向于选择高影响力的节点。尽管影响力很大，但高影响力节点的意见通常不会受到其他节点的影响，这使得这些方法不如随机选择节点成功。

7 Conclusion and future work

本文是对强化学习控制社交媒体谣言传播潜力的初步探索。本研究获得的模型构建见解可能有助于综合降低谣言的感染率。首先，我们提出基于独立级联模型的静态和动态谣言传播模型SRPM和DRPM。其次，该研究项目推进了谣言传播的知识，并提出了动态谣言影响最小化问题。与传统的静态谣言影响最小化问题相比，该问题通过将阻止过程分解为多个部分，可以更好地控制谣言的传播。另一个重大成就是实施动态阻止强化学习（RLDB）作为防止来自多个来源和阻止过程的谣言传播的实用策略。在广泛的真实社交网络上测试我们的方法已被证明是有效的。然而，大规模人工数据集的结果表明，在处理具有超过 1500 个单独节点的网络时，RLDB 需要花费更多时间。解决这个问题的一个潜在方法是通过创建不同的社区将大型网络分成较小的网络。在未来的研究中，我们将优化RLDB在大型网络中的效率，以提高其适用性。