Minimizing the spread of misinformation in online social networks: A survey

ABSTRACT

   在线社交网络提供了快速广泛传播消息和新闻的机会。人们可能会欣赏合法新闻和消息的快速传播,但错误信息也可能会快速传播,并可能引起担忧,质疑此类网络的可靠性和信任。因此,检测错误信息并遏制其传播已成为社交网络分析的热门话题。当检测到错误信息时,可能需要采取一些措施来减少其传播和对网络的影响。此类行动旨在最大限度地减少受错误信息影响的用户数量。本文回顾了解决社交网络中错误信息传播最小化问题的方法,并提出了不同方法的分类。

1. Introduction

   互联网技术的激增导致在线社交网络和用户数量不断增加。多项指标表明,用户数量不断增加,大量人已接受在线社交网络作为新闻的主要来源。社交网络的潜力引发了重大研究,试图通过识别所谓的有影响力的用户来广泛传播新闻(Zareie 等人,2019 年;Sheikhahmadi 和 Zareie,2020 年)。这个问题被称为影响最大化(Domingos 和 Richardson,2001;Kempe 等,2003),最近引起了广泛的关注。然而,新闻的快速传播也会带来负面影响:错误信息也可能被快速传播。

   用户可能会无意中或出于不同的经济和社会动机传播错误信息(Meel 和 Vishwakarma,2019)。错误信息传播已成为社交网络中的重大威胁,并降低了用户对新闻和消息的可靠性和信心。正如 Tong 等人所引用的那样。 (2018b),世界经济论坛发布的一份报告将传播错误信息视为全球最大的经济风险之一。传播错误信息或未经证实的谣言可能会产生广泛的负面影响,并可能导致经济损失、重大混乱甚至广泛的恐慌;文献中提到了各种例子(Wen et al., 2015; Fan et al., 2013; Wu et al., 2017; Fan et al., 2014; Tong et al., 2020; Fang et al., 2020 )。错误信息可能有不同的形式。在本文中,“错误信息”一词作为一个通用术语,是指可能有意或无意地在在线社交网络中传播的任何虚假或不准确的信息。

  面对社交网络中的错误信息引起了研究人员的广泛关注。应对有几个方面必须解决的问题: (i) 在新产生的信息中识别错误信息(也称为错误信息检测)非常重要,因为及早发现错误信息可以减少广泛传播并产生潜在不利影响的机会; (ii) 检测错误信息的来源非常重要,因为它有助于识别肇事者和发起传播错误信息的潜在恶意用户; (iii) 跟踪已检测到的错误信息随后(重新)出现的情况,可能形式略有改变,但仍然是错误信息; (iv) 尽量减少错误信息的传播是另一个重要方面,旨在防止错误信息在网络中传播。文献中针对这些方面中的每一个都提出了大量的方法。

   Bondielli 和 Marcelloni (2019)、Meel 和 Vishwakarma (2019)、Alzanin 和 Azmi (2018) 以及 Meel 和 Vishwakarma (2019)、Shelke 和 Attar (2019) 分别综述了检测错误信息和识别来源的方法。检测错误信息的方法是将社交媒体帖子流映射到分类系统,将帖子标记为错误信息或非错误信息。识别来源的方法基于网络结构和传播图,从中识别发起错误信息的用户或位置。在夏尔马等人。 (2019),对错误信息检测和缓解的干预方法进行了分类和审查。 Zubiaga 等人回顾了开发用于错误信息跟踪和验证的数据挖掘工具的方法。 (2018)。在阿赫桑等人中。 (2019),从多学科(心理学、社会学和流行病学)的角度回顾了社交网络中谣言的检测和控制方法;阿桑等人。 (2019)还回顾了有利于错误信息广泛传播的特征。然而,文献缺乏对明确提出的旨在最大限度地减少错误信息传播的方法的全面审查和分类,而这些方法在对抗错误信息时起到了重要的威慑作用。尽管(Meel 和 Vishwakarma,2019;Ahsan 等人,2019;Sharma 等人,2019)很快就关注了这个话题,但他们并没有专注于最大限度地减少错误信息的传播。本文旨在通过回顾和分类文献中的所有现有方法来填补这一空白,以最大限度地减少错误信息的传播。与以往的调查相比,我们工作的显着差异是:

• 我们重点关注在发现错误信息后最大限度地减少社交网络中错误信息传播的方法。

• 提出了新的分类法和对最先进方法的全面回顾,广泛覆盖了该主题。

• 还提出了评估策略,包括真实世界数据集和随机模型,以生成用于评估目的的合成数据集。

• 深入讨论了当前的挑战和潜在的未来方向。

   本文的其余部分组织如下:第 2 节包含定义和背景信息。第 3 节介绍了最小化错误信息传播 (MSM) 问题的正式定义以及解决该问题的关键策略。第 4 节和第 5 节详细讨论了寻找 MSM 问题解决方案的不同方法。第 6 节介绍了评估不同方法的评估策略和数据集。最后,第七节总结了本文并讨论了未来的研究方向。

2. Preliminaries

2.1. Online social networks

   在线社交网络是一种抽象概念,它依靠某些基于互联网的基础设施捕获人们之间的交互。人们出于不同的目的加入在线社交网络,例如社交、与朋友保持联系以及阅读和/或分享新闻。每个用户传播新闻的能力是在线社交网络的一个重要好处,但它也有负面影响。除了合法信息之外,传播错误信息可能会产生一些破坏性影响,包括对新闻的不信任和不可靠性(Shu et al., 2017)。

   在线社交网络是一种抽象概念,它依靠某些基于互联网的基础设施捕获人们之间的交互。人们出于不同的目的加入在线社交网络,例如社交、与朋友保持联系以及阅读和/或分享新闻。每个用户传播新闻的能力是在线社交网络的一个重要好处,但它也有负面影响。除了合法信息之外,传播错误信息可能会产生一些破坏性影响,包括对新闻的不信任和不可靠性(Shu et al., 2017)。

   原则上,边被视为有向还是无向取决于网络中关系的性质。例如,Facebook 上的友谊是无向关系,而 Twitter 上的关注关系是有向关系。此外,在一些研究中,网络被认为是无权图,这意味着所有边具有相同的影响力。如果有附加信息,则可以确定每对用户之间的影响力;然后,为边分配不同的权重,并将网络建模为加权图。

2.2. Diffusion modele

   已经提出了不同的扩散模型来模拟传播信息的过程并确定初始传播器节点集的影响。对社交网络中用户接受和转发信息的行为进行建模是一个具有挑战性的主题(Song 和 Dinh,2014)。扩散模型旨在基于对网络的一些观察来描述传播过程。因此,应用不同的扩散模型来模拟扩散过程。原则上,常用的扩散模型主要分为三类:阈值模型(Borodin 等,2010;Granovetter,1978)、级联模型(Carnes 等,2007;Goldenberg 等,2001)和流行病模型(Buscarino 等人,2008;Zhou 等人,2012)。

   已经提出了不同的扩散模型来模拟传播信息的过程并确定初始传播器节点集的影响。对社交网络中用户接受和转发信息的行为进行建模是一个具有挑战性的主题(Song 和 Dinh,2014)。扩散模型旨在基于对网络的一些观察来描述传播过程。因此,应用不同的扩散模型来模拟扩散过程。原则上,常用的扩散模型主要分为三类:阈值模型(Borodin 等,2010;Granovetter,1978)、级联模型(Carnes 等,2007;Goldenberg 等,2001)和流行病模型(Buscarino 等人,2008;Zhou 等人,2012)。

  已经提出了不同的扩散模型来模拟传播信息的过程并确定初始传播器节点集的影响。对社交网络中用户接受和转发信息的行为进行建模是一个具有挑战性的主题(Song 和 Dinh,2014)。扩散模型旨在基于对网络的一些观察来描述传播过程。因此,应用不同的扩散模型来模拟扩散过程。原则上,常用的扩散模型主要分为三类:阈值模型(Borodin 等,2010;Granovetter,1978)、级联模型(Carnes 等,2007;Goldenberg 等,2001)和流行病模型(Buscarino 等人,2008;Zhou 等人,2012)。

   易感-感染-康复(SIR)模型(Pastor-Satorras et al., 2015)是文献中广泛使用的流行病模型。在此模型中,每个节点可以处于易受影响 (SU )、受感染 (IN) 或已恢复 (RE) 状态。在时间戳 t = 0 中,初始传播器节点设置为 IN ,所有其他节点设置为 SU 。在每个时间戳 t > 0 中,每个受感染节点 vi 在尝试以概率 α 感染其每个易受影响的邻居后,以概率 β 移动到恢复状态。感染过程持续进行,直到图中没有受感染的节点为止。在该过程结束时,恢复的节点数量代表初始传播器组的影响。 SIR 模型可以被视为 IC 模型的推广,因为后者似乎是 SIR 的特例,其中 β = 1。

   在实践中,扩散过程可以重复多次,并且所获得的结果的平均值可以用来估计初始扩散器节点的影响。

2.3. Influence detection models

   在本小节中,描述了确定包含一个或多个节点的集合的影响的不同模型。

  • 基于模拟的模型:该模型应用扩散模型,通过多次重复模拟扩散过程,并将获得的结果的平均值视为集合的影响。用于确定有影响力的 k 大小集的基于模拟的模型的时间复杂度为 (kr|V |2|E|),其中 r 是扩散过程重复的次数。

   • 基于路径的模型:最大影响树状(MIA)(Chen et al., 2010)是最流行的基于路径的模型,其基于节点的影响扩散仅限于局部区域的思想。生成两棵树,称为树状内最大影响力 (MIIA) 和树状上最大影响力 (MIOA),分别表示节点的影响者和影响者。这些树的大小可以通过给定的参数 θ 来调整,以满足准确性和时间效率之间的权衡。基于路径的模型确定有影响力的 k 大小集的时间复杂度为 (|V |tiθ + knoθniθ(niθ + log|V |));其中 tiθ、noθ 和 niθ 分别是每个节点构建 MIIA 的时间复杂度、MIIA 的最大大小和 MIOA 的最大大小。

  • 基于采样的模型:反向影响采样(RIS)(Borgs 等人,2014 年;Tang 等人,2014 年)是最流行的近似集合影响力的采样模型。这个想法是随机生成图的 θ 个样本。在每个样本中随机选择一个节点,并确定能够到达该节点的一组节点作为该节点的反向可达集。一个集合覆盖的样本数量越多,该集合的影响力就越大。用于确定有影响力的 k 大小集的基于采样的模型的时间复杂度为 ( k(|V |+|E|)log2|V | ε2 );其中ε表示采样误差。

• 基于中心性的模型:该模型应用中心性度量(Lü et al., 2016),使用图结构来确定每个节点或边的影响力和活力。一些流行的中心性度量包括介数、接近度、程度或加权程度。该模型效率很高,时间复杂度为线性,但精度较低。

根据所使用的影响力检测模型,我们可以大致确定本文其余部分中每种方法的时间复杂度。一般来说,就时间复杂度而言,这些模型可以按从高到低的顺序排列:基于模拟、基于路径、基于采样和基于中心性。

3. The problem of minimizing the spread of misinformation

   人们采用了不同的方法来检测错误信息(Bondielli 和 Marcelloni,2019)。独立于这些方法,一旦发现错误信息,就应采取遏制策略,以尽量减少错误信息的传播。简而言之,最小化错误信息传播(MSM)的问题可以定义如下。一组恶意节点 (MN) 意图在社交网络中传播错误信息。 MSM 问题的解决方案旨在最大限度地减少接受这种错误信息(或受其影响)的节点数量。

该解决方案可广泛基于以下两种策略之一(Wen 等人,2014 年;Yan 等人,2019 年;Yang 等人,2020 年):

• 阻塞策略(网络中断):一组节点或边被阻止(或删除)以最大程度地减少网络中错误信息的流动。

• 澄清策略(反谣言或制衡):传播真实信息,以提高用户的认识并减少错误信息的接受或传播。

  形式上,给定图 G = (V , E)、扩散模型 μ、大小为 |MN| 的集合 MN ≥ 1,解决MSM的目的是找到并应用策略S来最小化错误信息的影响。错误信息的影响力由在传播过程中接受错误信息的用户数量决定,遵循扩散模型μ。该目标通常使用等式定义。 (1).

MSM 问题也可以定义为最大化问题:

  其中 φμ(G, MN) 和 φS μ(G, MN) 表示在不采取遏制策略时,集合 MN 的影响力(本质上,这个影响力是接受集合 MN 中用户发起的错误信息的用户总数)分别应用策略 S 来遏制扩散。也就是说,MSM 的目标是找到一种策略 S,以最大限度地保护免受错误信息影响的用户数量。

   选择一组节点或边来最大化 S* 是一个 NP 完全问题(Kempe et al., 2003)。在某些情况下,问题如方程式中所定义。 (1) 和 (2) 可能是单调和子模的,在这种情况下,贪婪启发式可能会在最优解的一个因子内找到解(Kempe et al., 2003)。在函数 f (S) = φμ(G, MN) − φS μ (G, MN) 中,单调性意味着如果通过策略 S 将一个元素添加到集合中,它不会导致 f 值的减小。如果 f 是单调子模函数,则对于每个元素 a,f (S ∪ a) ≥ f (S)。

   如前所述,解决 MSM 问题的策略可分为两大类:基于阻塞和基于澄清。基于阻塞的策略会降低图的拓扑结构,并且可以进一步细分为节点阻塞和边缘阻塞。根据策略的不同,问题如方程式中所定义。 (2) 可以进一步阐述如下。

    节点阻塞策略的目标是找到一组节点,即 NS ⊂ V ,其移除最小化 MN 在 G(V ′, E′) 中的传播能力; V ′ = V − NS 且 E′ = E − {eij ∣ vi ∈ NS 或 vj ∈ NS}。然后问题被正式定义为等式。 (3)。

  如果一个节点被阻塞,这意味着连接到该节点的所有边都被删除。这可能导致过度去除边缘,这可能是不期望的。阻塞边可能被认为是比阻塞节点更微妙的策略。

   边缘阻塞策略旨在找到一组边缘,即 ES ⊂ E,其去除可以最大限度地减少 G(V , E′) 中错误信息的传播,其中 E′ = E − ES。该问题的正式定义如式(1)所示。 (4)。

在实践中,屏蔽策略可能会影响用户的体验,用户可能会抱怨或退出网络(Wang et al., 2017),同时也可能被视为侵犯言论自由(Hosni et al., 2019)。这为基于澄清的策略提供了更多基础,其中选择一组节点 T N 来开展真相活动并传播真实(说明性)信息。在基于澄清的策略中,MSM 问题的正式定义如式(1)所示。 (5)。

 其中 φμ(G, {MN, T N}) 表示当 MN 和 T N 集合传播两个相反消息时 MN 的传播能力。收到真实信息的用户不会接受错误信息,也不会在网络中进一步转发,从而减少错误信息的传播。换句话说,提高用户意识会阻碍采用该策略中的错误信息不会像阻塞策略那样降低图的质量。然而,正如 Hosni 等人也指出的那样,基于澄清的策略在减少错误信息传播方面可能效率较低。 (2019)。事实上,Wen 等人对阻止策略和澄清策略的优缺点进行了评估。 (2014) 提出了一种试图将两个世界的优点结合起来的复合方法。

   当一些用户成为错误信息的受害者时,即使他们后来收到了正确的信息,他们也可能会拒绝改变自己的信念。因此,基于阻止的策略可能优于基于澄清的策略,因为它们通常可以防止收到错误信息。另一方面,长时间阻塞边缘甚至节点可能会对用户体验产生负面影响,并可能导致用户退出网络。与边缘阻塞相比,节点阻塞策略可能会导致更高的破坏,因为连接到被阻塞节点的所有边缘都被删除。

   总体而言,根据所讨论的关键策略,为解决最大限度地减少错误信息传播问题而开发的方法可以根据图 1 中的层次结构进行大致分类。以下各节将使用此分类来回顾所有相关方法。

4. Blocking-based methods 

   本节介绍依赖于阻塞节点或边的方法。正如所讨论的,在阻塞策略中,一组节点或边被删除,以最大限度地减少网络中错误信息的传播。

4.1. Node blocking methods

   在这些方法中,识别出一组关键节点(NS),并将这些节点从社交图中删除;与这些节点关联的所有边都会相应地被删除。节点阻塞方法在文献中也称为节点免疫方法(Yang et al., 2018; Wu et al., 2015, 2017)。原则上,节点阻塞有两种不同的方法:(i)在静态方法中,选择NS并在传播过程开始时阻塞节点; (ii)在自适应方法中,选择NS并在过程中选择性地阻塞节点,以考虑错误信息的流动,从而提高阻塞的性能。

  表1 节点封锁方法的属性,包括类、图类型、传播扩散模型(线性阈值(LT)、独立级联(IC)、易感-感染-恢复(SIR))和影响检测模型(影响模型)。

 表 1 总结了静态和自适应节点阻塞方法的关键属性。对于每种方法,该表列出了有关用于表示网络和扩散模型的图类型的信息。当没有表明所使用的扩散模型时,这是因为相关工作偏离了三种常见的选择。为了近似地展示每种方法的时间复杂度,表中还示出了每种方法中用于影响力检测的模型。

4.1.1. Static approach

   在霍姆等人。 (2002),施耐德等人。 (2011)、Dey 和 Roy (2017),评估了删除高中心性节点的影响,以确定哪种中心性度量是最小化错误信息传播的最有效标准。在霍姆等人。 (2002),目标是识别一组节点,其删除会增加图中每对节点之间的平均距离,因为这会延迟信息的传播(因此也会延迟错误信息)。评估去除具有高度和高介数的节点的效果。作者表明,去除(或免疫)高介数节点是遏制网络中错误信息传播的更有效方法。在施耐德等人中。 (2011),信息传播被视为最大连接簇大小总和的函数。迭代地使用高介数去除策略来识别免疫的节点。 Dey和Roy(2017)中采用随机游走算法来衡量中心性高的阻塞节点对信息传播的影响;高中心性考虑程度分布、介数和接近中心性。结果表明,当具有高紧密度中心性的节点被阻塞时,性能会更好。在所有这些方法中,错误信息的来源(即MN集)都被忽略,因此它们可以被视为源无知的节点阻塞方法。

   在其他方法中,选择用于阻塞的节点是通过考虑 MN 集来完成的。这些方法可以看作是源感知节点阻塞方法。在其中一些方法中,考虑了预算约束,例如阻塞节点的数量或阻塞的最大成本,而一些方法旨在假设阻塞每个节点都有成本,从而最小化阻塞的总体成本。

   在王等人。 (2013),Tanınmış 等人。 (2020),姚等人。 (2015),使用约束 | 选择一组 k 个节点 NS。 NS | ≤ k 且 NS ⊆ V −MN (参见方程(3));移除这些节点(及其相关边)的目的是最小化 MN 的影响。在王等人。 (2013),NS 最初是空的,其成员是迭代选择的。在每次迭代 t 中,具有最大边际增益的节点被添加到 NSt−1 中。在迭代 t 中从阻塞节点 vi 获得的边际增益使用等式计算: (6)如下:

式中,G′是去掉节点NSt−1以及与其相连的边得到的; G′′ 也是通过去除 NSt−1 ∪ {vi} 以及与其相连的边而获得的。函数 φ(G, MN) 表示 MN 对图 G 的影响。 (2013),影响力是使用 IC 扩散模型计算的。 Tanınmış 等人提出了随机双层编程(以领导者-跟随者博弈的形式)以及一种基于 Tabu 的搜索元启发式和一种贪婪启发式来解决该问题。 (2020)。在姚等人。 (2015),提出了一种主题感知方法。在该方法中,考虑主题向量T P = {tp(1),...,tp(l)}来确定社交网络中的不同主题。权重向量 Wij = {w(1) ij , ... , w(l) ij } 也与每条边 eij 相关联,其中 w(z) ij 表示用户 vi 对 vj 对主题 tp( z)。在网络中传播的错误信息由向量 ψ = {ψ(1), ... , ψ(l)} 表示,其中 ψ(z) 表示错误信息与主题 tp(z) 的相关性。给定向量 Wij 和 Ψ ,计算在每条边上传播错误信息的概率。然后,选择MN中节点邻域中的top-k个中心节点进行阻塞。为了定义top-k中心节点,提出了主题感知介数和主题感知程度中心性度量。

   在范等人。 (2018b),阻塞每个节点 vi 都有一个成本 ci。目标是识别一组节点,以便阻止节点的总成本不超过给定的预算 b。还假设错误信息传播距离错误信息源不超过 T ≥ 2 跳。作者首先考虑只有一个节点作为错误信息源的问题。构建深度为 T 的子树,其根是错误信息的来源。基于深度搜索优先算法计算每个节点vi对其子节点的影响。然后使用动态规划找到接近最优的解决方案。为了解决一般情况下,以多个节点作为错误信息源的问题,提出了一种贪心算法。贪婪算法的低效率促使人们使用加速方法(Zhang et al., 2016)来提高其性能。在改进算法中,错误信息源被合并为超级源节点I,并应用MIA方法(Chen等,2010)来确定每个节点的影响力。迭代地选择每成本影响力最大的节点,直到预算用完或剩余预算无法选择节点。

     在吴等人中。 (2017),假设只有一个节点作为错误信息的源,即 ∣ MN ∣= 1,并且错误信息从源传播最多 T 跳。目标是阻止传染概率最高的节点,即最有可能被错误信息感染的节点。为此,根据 SIR 扩散模型计算每个节点的传染概率。概率大于给定阈值的节点是被视为阻塞的候选节点。通过从候选集中去除传播能力低的节点,最终识别出集合NS。在范等人。 (2017),LT扩散模型被扩展,提出了时间约束确定性LT模型。然后提出基于模拟的贪婪算法来选择一组节点,其删除可以最大限度地减少错误信息的传播。由于基于模拟的方法的时间复杂度较高,因此还提出了一种有效的启发式算法。

  最后,在一些研究中,目标是选择最小的节点集,这些节点的阻塞会导致错误信息的传播减少到大于给定阈值。 Pham 等人的作者。 (2018a, 2019) 应用采样方法来查找最小节点集,将其删除可确保不超过 λ 个用户受到错误信息的影响。在范等人。 (2018a),具有最大边际增益的节点通过贪婪方法添加到 NS 中。为了计算节点的边际增益,作者尝试了不同的机制,例如 live-edge 方法(Kempe 等人,2003)、加速方法(Zhang 等人,2016)和惰性前向方法( Leskovec 等人,2007b)。 Pham 等人的作者。 (2019) 使用 LT 和 IC 扩散模型模拟扩散过程。他们表明,减少大于给定阈值的错误信息传播的问题在 IC 模型中不是子模块的。他们应用加速方法(Zhang et al., 2016)将 MN 节点合并为超级源节点,并构造图 G 的实例 ̂ G;然后使用liveedge方法获得不同的样本图。对于每个样本,使用深度优先遍历构建以超级源节点为根的有向无环图(DAG),以计算阻塞每个节点的增益。具有最大增益的节点被迭代地添加到 NS 中,并且在每次迭代中更新剩余节点的增益。

    Cheng 和 Pan (2018) 考虑了网络的社区结构。假设错误信息源自社区 Cr 中的一组用户。除了将 MN 的影响降低到低于给定阈值之外,作者还尝试防止影响所谓的桥节点(将 Cr 连接到其他社区的节点)。这可以防止错误信息传播到整个网络。基于最小顶点覆盖集,提出了一种两步贪心算法来选择NS。第一步,使用从 MN 中的节点开始的广度优先遍历来识别桥接节点和可达节点;然后,保护网桥所需的最小数量的节点被阻止。第二步,当MN的影响力大于阈值时,将边际增益最大的节点迭代添加到NS中;可到达的节点集在每次迭代中都会更新。

4.1.2. Adaptive approach

  图 2.节点阻塞的自适应方法。

可以在传播过程中识别并阻止关键节点,而不是在传播过程开始时选择和阻止节点。以图2的示意图为例。假设节点 M 是一个恶意节点,是错误信息的来源,我们可以选择阻止两个节点。使用静态方法,明智的做法是在传播过程开始时(即 t = 0)阻止节点 A 和 B(因为与 C 相比,节点 A 和 B 的数量更多),因为这会屏蔽图的很大一部分(请参阅图2(a))。然而,假设在 t = 1 时,来自节点 M 的传播如图 2(b) 中的红色边缘所示流动。在这种情况下,节点 B 似乎不受影响,因此,保持节点 B 阻塞不会带来任何好处。相反,在 t = 2 时阻止节点 D 对于阻止来自节点 C 的错误信息的进一步传播可能更为重要。此示例强调了根据错误信息流而定的自适应操作可能是更有效地遏制错误信息的传播。依赖自适应方法的方法的目标是根据传播过程中的错误信息流来阻止节点。

  Wu 等人考虑了静态方法和自适应方法之间的联系。 (2015)。为此,SIR 扩散模型被扩展以模拟它们的关系,然后应用于评估自适应方法对传播过程的影响。还研究了 MN 大小和传播概率对这些方法的影响。研究结果表明,本质上,静态方法和自适应方法总体上可能表现相似,但自适应方法可以通过更少的节点阻塞来实现这一结果。

    在杨等人。 (2018),石等人。 (2019),宋等人。 (2015),在传播过程中的每个时间戳t,一些节点被动态识别和阻塞。目标是最大限度地减少传播过程结束时受错误信息影响的节点数量。在杨等人。 (2018),提出了一种启发式方法,根据节点与网络中所有其他节点之间的传播概率来计算阻塞每个节点的增益。在每个时间戳 t,如果 t + 1 处的最大增益期望小于 BGt max,则确定具有最大增益 BGt max 的节点并阻止该节点。该算法在每个时间戳 t 重复,直到 k 个节点被阻塞。 Shi 等人的作者。 (2019)提出了两种不同的在传播过程中阻止节点的策略。 k-R策略中,节点分T轮被阻塞,每轮选择并阻塞同等数量的节点,即k∕T,边际增益最大;应用实时边缘技术来确定节点的边际增益。在α-T策略中,在每一轮中,根据受感染节点可到达的节点数量来决定阻止某些节点。反向影响抽样方法(Borgs 等人,2014 年;Tang 等人,2014 年)也用于提出这些政策的可扩展实施。在宋等人。 (2015),假设除了受到在线社交网络中邻居的影响之外,用户在传播过程中还可能受到外部来源的影响。在这种情况下,在传播过程中对区块节点使用自适应方法的重要性就增加了。提出了一种基于模拟的方法来估计每个时间戳 t(例如 kt)中阻塞的节点数量。然后提出一种启发式方法来计算每个节点的免疫能力(相当于阻塞增益)。在每个时间戳t内,确定并封锁kt个免疫能力最高的节点;然后更新剩余节点的免疫能力。

   Wang等人考虑了一种基于用户体验的动态节点阻塞方法。 (2017)。考虑到谣言热度(表明用户对谣言话题的兴趣)以及用户对被屏蔽时间段的容忍程度。使用 Ising 模型(Chelkak 和 Smirnov,2012)整合全球流行度和个人趋势,以对传播时间内的谣言流行度进行建模。通过用户体验来确定用户对阻塞时间的容忍阈值。目标是在用户容忍阈值的约束下,通过屏蔽k个关键节点来最小化谣言的影响。 Wijayanto 和 Murata(2019)研究了一种节点阻塞方法,以最大限度地减少时间网络中错误信息的传播。假设节点和边在传播过程中是动态的,并且节点在这个过程中是动态阻塞的。应用最小顶点覆盖来查找每个时间戳的关键节点。由于其时间复杂性,图嵌入技术用于构造每个节点的基于特征的表示,并借助细化学习确定近似解。

  每种节点阻塞方法都有优点和缺点。用于节点阻塞的静态方法简单且廉价,但可能会不准确,因为它们不直接处理传播模式。另一方面,自适应方法可以通过考虑网络中的传播模式来改善阻塞效果,但由于需要监视和跟踪传播模式,因此需要付出更高的计算成本。

4.2. Edge blocking methods

  在节点阻塞方法中,目标是删除节点。当连接这些边的节点被阻塞时,边被阻塞。然而,由于每个节点可能通过许多边连接到其他节点,这可能会删除大量的边,以至于可能会极大地改变网络结构。边缘阻止方法旨在通过识别一组要阻止的关键边缘来解决此问题,从而最大限度地减少错误信息的传播。边缘阻塞有两种方法:(i)无源方法忽略错误信息的来源,旨在识别一组边缘,将其删除最小化网络中的信息流; (ii) 源感知方法考虑错误信息的来源来识别一组用于阻塞的边缘。在这两种方法中,目标始终是最大限度地减少网络中错误信息的传播。表 2 总结了边缘阻塞方法的关键属性。

表2 边缘阻塞方法的属性,包括源(无知或有意识)、图类型、传播扩散模型(线性阈值(LT)、独立级联(IC)、易感-感染-恢复(SIR))和影响检测模型(影响模型)。

4.2.1. Source-ignorant approach

   Kimura 等人将错误信息传播最小化的问题表示为污染度最小化问题。 (2008b,a,2009)。网络的污染度是根据网络中所有节点的影响力来计算的。在木村等人。 (2008b),该问题被定义为识别一组k 个边,其去除最小化了 LT 扩散模型下所有节点的平均污染。然后提出迭代贪心算法来解决该问题;在每次迭代中,选择一条边进行阻塞,该边的去除使节点的平均污染度最小化。由于LT扩散模型的时间复杂度,提出了一种基于Bond Percolation的方法(Kimura et al., 2007)来近似求解。 Kimura 等人在 IC 扩散模型下定义了污染度最小化问题。 (2008a)。然后提出了一种基于贪婪和键渗滤的方法来解决该问题。 Kimura 等人扩展了污染程度最小化问题。 (2009)定义网络中节点的最坏污染程度。最差污染度是指图中节点的最大影响力,平均污染度是指节点的预期影响力。然后提出一种贪心算法来找到一组 k 条边,其去除可以最小化图中节点的最差污染程度。由于贪心算法的时间效率低下,还提出了一种基于键渗流的方法来近似解决该问题。

   Khalil 等人的作者。 (2013) 的目标是阻止一组 k 个边以最小化网络的扩散敏感性。网络的传播敏感性定义为所有节点影响力的总和。他们证明了该问题在 LT 扩散模型下是次模且单调的。然后提出了一种使用活边方法的贪心算法,该算法保证解在最优解的 1− 1 ε 范围内。在童等人中。 (2012),网络矩阵的特征值被认为是网络中扩散敏感性的度量;目标是识别一组边缘,将其移除可以最小化矩阵的特征值。根据特征值计算每条边的分数。然后,得分最高的k条边被认为是问题的解。 Schneider 等人将图的最大连接簇的大小之和定义为网络的传播敏感性。 (2011);边缘的介数中心性被认为是选择边缘的一种度量,其去除使扩散敏感性最小化。该问题是在 Dey 和 Roy (2017) 的随机游走模型下定义的,并且边缘的介数中心性再次用于选择边缘。

4.2.2. Source-aware approach

   在这种方法中,假设一组已知的恶意节点 MN 是网络中错误信息的来源。目标是识别一组边,其阻塞(移除)可以最大限度地减少节点 MN 发起的错误信息的传播。

   在姚等人。 (2014),哈利勒等人。 (2014),目的是找到一组大小为 k 的边 ES,以最大限度地减少错误信息的传播。 Yao 等人提出了 IC 扩散模型下的迭代贪婪算法。 (2014);在每次迭代中,将边际增益最大的边添加到 ES 中。由于使用扩散模型计算集合影响力的计算时间较长,Khalil 等人采用 liveedge 方法提出了一种高效的迭代贪婪方法。 (2014)。此外,提出了一种后代计数树结构,以有效地更新贪心算法每次迭代中的边际增益。在严等人。 (2019),目标是阻止候选集的 k 个边,以最小化网络中节点的激活概率之和。节点的激活概率表示该节点受MN中节点影响的概率,换句话说,即该节点容易受到MN中节点传播的错误信息的影响。然后,提出一种贪心算法,迭代选择具有最大边际增益的边并更新节点的激活概率。在库尔曼等人中。 (2013),假设阻塞每条边都有成本。定义了预算约束下的问题,然后提出了几种贪婪算法。

   王等人。 (2018)、Song 和 Dinh (2014),该问题被认为是基于目标的问题。在这个问题中,目标是最小化错误信息向给定目标集 T S 的传播。 (2018),该问题在两种情况下得到解决:(i)无约束,可以阻止无限数量的边来保护 T S ; (ii) 受约束,其中最多 k 个边被阻挡,以最大程度地保护 T S 。无约束场景使用最小割问题来解决(Papadimitriou 和 Steiglitz,1982)。提出了一种基于采样的解决方案,以贪婪(和迭代)的方式选择 k 个关键边来解决受限场景。基于目标的问题是在 Song 和 Dinh (2014) 的级联扩散模型的扩展下定义的;然后提出了一种数学规划方法来识别一组关键边缘。

   与源无知的边缘阻塞策略相比,源感知的边缘阻塞策略在阻止错误信息方面可能更有效。然而,试图准确、快速地确定源是一个具有挑战性的问题,并且实现这一目标的努力可能会以牺牲对实际边缘阻挡的关注为代价。

5. Clarification-based methods

图 3. 基于澄清的错误信息最小化与竞争影响力最大化。

   在这些方法中,再次假设错误信息源自一组特定的恶意节点 MN。然而,其目的是识别一组节点 T N 来发起真相运动,即传播澄清消息,以反击源自 MN 的错误信息。最终目标是最大限度地减少接受错误信息(或受错误信息影响)的用户数量。值得注意的是,这个问题首先由 He 等人建模。在他等人中。 (2012),与竞争影响力最大化的相关问题(Bharathi et al., 2007)不同,其中多个活动试图最大化其影响力,同时最小化所有其他竞争活动的影响。为了说明这一点,请考虑图 3 中所示的有向图。假设节点 M 是错误信息活动的发起者。当目标是通过澄清消息最大限度地减少错误信息的传播时,选择节点 B 是最佳选择,因为它可以阻止节点 M 进一步传播错误信息。然而,在竞争影响力最大化中,目标是最大化发起者自己的消息的传播,选择节点 A 看起来是最佳选择。

   基于澄清的方法大致分为两类:(i)以运动为导向的方法,在给定真相运动规模的限制下,其目的是识别适当的节点来发起真相运动,以便错误信息的传播被最小化; (ii) 面向保护的方法,其目的是确定发起真相活动的最小数量的节点,以便保护网络中给定比例的用户免受错误信息的影响。

表3 基于澄清的方法的属性包括:类别(Str代表结构,Beh代表行为感知,Pro代表面向保护),图类型,扩散模型(线性阈值(LT),独立级联(IC),易感-感染-康复(SIR))、影响力检测模型(Influence Model)、传播概率(SP)和Bias

表 3 总结了基于澄清的方法的关键属性。如上所述,在这些方法中,错误信息和真相同时传播。因此,除了图和扩散模型的类型之外,用附加信息注释每种方法也是有用的。 SP 列(代表传播概率)显示某些研究是否假设错误信息和真实信息在每条边上的传播概率相同还是不同(表中相同或不同)。列偏差显示当一个节点同时被错误信息和真相活动激活时会发生什么:负面意味着前者获胜,正面意味着后者获胜,而无偏见意味着使用其他一些标准来决定(例如消息流行度、用户对消息的兴趣等)。

5.1. Campaign-oriented methods

   在这些方法中,有一个预算 k,通常等于可用于真相活动的节点数量。目标是确定一个最多包含 k 个节点的集合 T N 来发起真相运动,以最小化 MN 的影响,即最小化受错误信息激活的节点(即影响的用户)数量。根据选择T N 所考虑的信息,面向活动的方法可以分为两类:(i)结构方法,简单地根据图的结构信息选择T N ; (ii)行为感知方法,除了图结构之外,还可以考虑用户的个人行为,例如偏好、兴趣、个人利润或位置来选择TN。

5.1.1. Structural methods

  在这些方法中,选择一组节点来发起真相活动。选择是基于网络图的结构属性,这使得这些方法广泛适用,因为结构信息应该是容易获得的。一些结构方法使用 LT 扩散模型来考虑这个问题。事实上,这是该主题中第一篇论文(He et al., 2012)所考虑的方法,其中提出了竞争性LT扩散模型来模拟MN和TN的两个相反活动的扩散过程。模型中,每个节点有两个阈值 θ− 和 θ+,分别对应于错误信息和真实信息的接受阈值。每条边都有两个权重 w− ij 和 w+ ij ,分别对应于错误信息和真实信息的传播概率。在此过程中,每个节点都可以处于非活动、+活动或-活动状态。在时间戳 t = 0 时,MN 和 T N 中的节点分别设置为 - active 和 + active;所有其他节点均设置为非活动状态。在每个时间戳 t > 0,正面(真相)和负面(错误信息)影响按照 LT 扩散模型独立传播。每个新激活的节点根据激活节点的活动将其状态更改为 - active 或 + active,并且在后续时间戳中不再更改其状态。如果在时间戳 t > 0 时,一个节点被两次活动激活,则负面影响获胜。为了识别有影响力的用户添加到TN中,利用MIA方法(Chen等人,2010)构建局部有向无环图并确定每个节点在包含错误信息传播中的影响力。 T N 中的节点在 k 次迭代中被识别;在每次迭代中,将具有最大边缘遏制影响力的节点添加到T N 中。

   在张等人。 (2015),刘等人。 (2016),假设当一个活动发起某些信息的传播时(无论该消息是否真实),传播被限制在 T 跳内,并在此时间后消失。在张等人。 (2015),每个节点都有两个不同的阈值来接受错误信息和真实信息;每条边都有两个不同的权重,指示错误信息和真实信息的传播概率。然后将 LT 传播模型扩展为同时模拟错误信息和真相活动的传播过程。在这个模型中,如果一个节点在同一时间戳被两个活动激活,则该节点根据自己的偏好决定采用什么消息。然后提出一种算法来找到一组节点以包含在真相活动中。为此,将可能受到错误信息活动影响并具有高传播能力(因此它们具有影响力)的一组节点检测为网关节点。然后使用基于模拟的策略选择真相活动的节点,其目的是让真相活动在网关节点受到错误信息影响之前影响网关节点。 Liu 等人还提出了 LT 扩散模型的扩展。 (2016)通过错误信息活动计算每个节点的激活概率。然后提出一种迭代方法来选择真相活动的节点;在每次迭代中,通过错误信息最小化所有其他节点的激活概率的节点被添加到真相活动中。

   在杨等人。 (2019,2020),假设受错误信息影响的用户的意见可能会在收到真相活动的信息后发生变化。 LT扩散模型被扩展来模拟该假设下的传播过程。然后考虑问题的两个方面:网络中的每个节点都可以被选为真相活动的成员,或者仅是预定义节点的子集。然后提出了基于贪心模拟的方法和基于页面排名中心性的方法来解决该问题。

   在其他结构方法中,问题是使用 IC 扩散模型来定义的。 Budak 等人提出了 Campaign-Oblivious IC (COICM) 模型。 (2011)。在此模型中,每个节点可以处于三种状态之一:C 状态(由错误信息激活)、L 状态(由真相激活)或非活动状态。错误信息活动和真相活动同时开始传播,t = 0。在每个时间戳 t,在 t − 1 中激活的每个节点 vi 有机会激活其每个不活动的邻居。如果 vj 被 vi 激活,则 vj 的状态将更改为 vi 的状态,并且在后续时间戳中无法更改。此过程持续进行,直到不再有节点被激活。如果一个节点同时被两个活动激活,则真相活动获胜。应用 COICM 模型,提出了一种贪婪算法来识别接近最优的真相活动。由于贪心算法的时间复杂度算法中,还提出了三种基于高度节点、早期感染者和最可能感染者的启发式方法。

     Wu 和 Pan (2017)、Arazkhani 等人也采用了 COICM 模型。 (2019),Lv 等人。 (2019)来模拟传播过程。在 Wu 和 Pan (2017) 中,该问题在两种情况下考虑:(i) CMIA-H,其中真值边缘的传播概率为 1; (ii) CMIA-O,其中真值边缘的传播概率是 [0, 1] 之间的值。应用 MIA 方法(Chen et al., 2010),提出了一种迭代贪婪方法,其中在每次迭代中将具有最大遏制影响力的节点添加到真相活动中。在阿拉兹哈尼等人中。 (2019),利用度、介数和接近中心性度量,提出了一种基于中心性的方法来选择真相活动的节点。 Lv 等人提出了一种使用 COICM 模型的基于社区的方法。 (2019)。在该方法中,首先应用COCIM模型来确定社区以及每个社区中恶意节点(错误信息活动中的节点)的数量。根据每个社区中的恶意节点数量,从社区中选择一定比例的真相竞选节点。在童等人中。 (2020)、Tong 和 Du (2019),使用 IC 扩散模型提出了两种基于采样的方法。 Tong 等人使用图采样来确定一组反向元组。 Tong 和 Du (2019) 等人 (2020) 提出了一种近似算法来选择 T N。 应用 RIS 方法 (Borgs et al., 2014; Tang et al., 2014),提出了一种混合采样方法告知贪婪方法来识别真相运动.

   他在 Li 等人的著作中写道。 (2013) 认为,一些节点可能会受到错误信息的污染,并可能传播错误信息(无意中成为错误信息活动的成员),因为它们不了解真相。如果这些节点面对真相,他们会改变主意。在这些情况下,问题是选择 λ × k ∈ MN 和 (1 − λ) × k ∈ {V − MN} 节点来传播真相并包含错误信息。应用LT和IC扩散模型,提出了一种基于贪婪模拟的方法来迭代选择具有最大边际遏制影响力的节点。在童等人中。 (2018a),假设不止一场真相运动可能试图遏制错误信息的传播。为了解决这种多活动扩散问题,提出了一种扩展的多级联 IC 扩散模型;然后,应用博弈论,描述了一种选择节点的方法。

5.1.2. Behaviour-aware methods

   除了网络结构之外,行为感知方法还考虑用户特征和行为。其动机是,与纯粹的结构方法相比,个人用户行为可能允许更精细地区分节点。

   在宋等人。 (2017),范等人。 (2014),引入时间延迟来捕获两个用户可能需要在他们之间交换信息的时间;目标是在截止日期 T 之前最大限度地减少错误信息的传播。在宋等人。 (2017),每条边都与登录概率相关联,以表示可以多快地接收信息。首先应用深度优先遍历,通过MN确定图中每个节点的威胁级别,并构建DAG。然后利用广度优先遍历来构造加权反向可达树。然后,对于每个节点,根据威胁级别和节点的影响力计算分数。选择得分最高的节点进行真相活动。然后,更新剩余节点的分数,并迭代重复该过程,直到选择所有需要的节点。在范等人。 (2014),除了登录概率之外,还考虑了每个用户对错误信息和真相的个人兴趣。然后在 LT 和 IC 扩散模型下考虑该问题。选择t≤T时间戳内可达的节点作为候选节点。利用蒙特卡洛方法,迭代选择真值运动的节点;在每次迭代中,将具有最大遏制影响力的候选节点添加到真相活动中。

   在方等人中。 (2020),按照来源无知的方法,还考虑了与错误信息相关的个人兴趣。 RIS 方法(Borgs et al., 2014;Tang et al., 2014)用于生成随机反向集的集合。然后描述了一种贪婪方法,用于最大化加权覆盖范围,以识别相当大地覆盖反向随机集的 T N 。

   在Litou等人中。 (2017),认为当用户接受某个意见时,他们可能会在收到其他意见后进行更改。每个节点 vi 考虑可信度分数和放弃阈值在Litou等人中。 (2017);前者代表了 vi 的可信度,后者则表达了 vi 放弃其观点的容易程度(或困难程度)。提出了 LT 扩散模型的扩展来模拟具有这些特征的传播。真相活动的节点是使用模拟退火算法确定的。 Hosni等人考虑了用户的背景知识、犹豫机制和遗忘记忆因素。 (2020, 2018a) 来模拟用户如何受到错误信息的影响。然后提出了“人类个体和社会行为”扩散模型来模拟用户对错误信息的接受和传播。在 k 次迭代中使用贪婪算法来识别真相活动,并在每次迭代中将具有最大边际遏制影响力的节点添加到真相活动中。

   在陈等人中。 (2019),活动利润分配给每条边。目标是确定真相活动的一组节点,以便高利润边缘得到更多保护,并且不太可能被用来传播错误信息。作者证明了该问题不是子模问题,也不是单调问题,然后提出了一种近似算法。在童等人中。 (2018b),假设错误信息运动和几个真相运动同时发生。目标是确定一场真相运动,以尽量减少错误信息的传播。提出了多级联扩散模型来模拟传播过程。在此模型中,每个用户对于每个级联以及如何感知来自每个级联的消息都有优先级。该优先级是根据消息来源的声誉、个人观点和消息的可靠性来确定的。然后提出贪心算法来确定上近似值和下近似值并获得解决方案。

   Zhu等人考虑了用户的位置。 (2018、2019)。在朱等人。 (2018),目标是最大限度地减少位于 R 区域并受到错误信息活动激活(影响)的用户数量。根据节点的位置构建四叉树;遍历这棵树确定 R 中的节点。然后提出动态规划,使用 MIA 方法确定不同节点对 R 中节点的影响(Chen 等人,2010)。最有影响力的节点被贪婪地识别以遏制 R 中错误信息的传播。为了提高所提出方法的效率,建议修剪影响较小的节点。在朱等人。 (2019),这个问题受到更多限制,因为真相活动的节点是从特定区域的节点中选择的;解决方案是通过扩展 Zhu 等人的方法。 (2018)。 Wu 等人考虑了用户移动性。 (2018) 并将 SIR 扩散模型扩展到模拟车辆社交网络中的谣言传播。为了遏制错误信息的传播,然后选择一组车辆节点在其他节点之间传播真相。

   与结构方法相比,行为感知方法在考虑用户行为和偏好时可以更有效地减少错误信息的传播。然而,这些信息在现实应用中并不总是可用,这意味着结构方法可能具有更广泛的适用性。

5.2. Protection-oriented methods

   在面向保护的方法中,问题是识别最小大小的集合 T N ,以便保护给定百分比的用户或部分网络免受错误信息的影响;这些用户不会受到错误信息活动的影响。

   Nguyen 等人将该问题建模为 βI T 节点保护器。 (2012、2013)。在该模型中,假设错误信息的传播是由集合 I(错误信息源)触发的,并且可以从源最多传播 T 跳。目标是确定最小大小的集合 T N 来保护一小部分节点 β,0 < β < 1。集合 I 可以是已知的或未知的; T 可以不受约束 (T = ∞) 或受整数值约束。因此,该问题有四种变化。当 I 未知(源无知)时,问题会改变以影响最大化,并且涉及影响部分节点 β 的集合 T N 的选择。提出了一种迭代贪心算法来解决无约束和有约束 T 的问题;只要 TN 的影响力小于 β× ∣ V ∣,则将具有最大边际影响力的节点迭代地添加到 TN 中。该算法可以使用 LT 和 IC 扩散模型来计算 T N 的影响。当 I 已知(源感知)时,对于无约束和约束 T ,如果 I 可达节点数大于(1 − β)× ∣ V ∣,应用迭代贪心算法来保护其中一些节点并达到所需的 β 保护。选择有影响力的节点并将其添加到 T N 中,直到集合保护 β× ∣ V ∣。由于每次迭代中确定节点影响力的时间复杂度,还提出了基于社区的算法来保护每个社区中的一小部分节点β。

    Fan 等人考虑了网络的社区结构属性。 (2013)。假设错误信息的传播是由社区 Cr 中的某些用户触发的,即 MN ⊂ Cr。目标是遏制社区内的错误信息并防止其传播到其他社区。为此,首先确定所谓的桥节点,其是位于Cr之外并且在Cr中具有至少一个邻居的节点。最小的有影响力的节点集被确定为保护桥节点的一部分β。这个问题是在两种不同的情况下使用贪心算法来解决的:(i)机会主义的一激活一,其中每个活动节点试图在传播过程中影响其邻居之一; (ii) 确定性一激活多,其中每个活动节点尝试影响其所有邻居。在胡斯尼等人中。 (2018b),考虑了多路网络中错误信息传播的最小化;多重网络由多个通过重叠用户连接的社交网络组成。重叠的用户可以在多个社交网络中传播真实信息;目标是识别对重叠节点有影响的最小节点集,以此减少错误信息的影响。为了解决该问题,提出了一种贪心算法,利用 IC 扩散模型迭代选择具有最大边际影响力的节点。

   6. Evaluation strategies and datasets

   为解决该问题而提出的所有方法都需要对其性能进行评估。原则上,评估的目的是评估一种方法对最小化受错误信息影响的图节点数量的影响。使用不同的图,其中包括合成图和基于现实世界网络数据集的图。

   为了评估节点或边缘阻塞方法,一些节点被随机确定为恶意节点,并确定它们的传播能力(即有多少节点受到错误信息的影响)。然后,使用阻塞方法来阻塞一组节点(或一组边),并重新评估恶意节点的传播能力。错误信息传播的减少表明了该方法的影响。

  在基于澄清的方法中,再次随机确定一些节点为恶意节点并确定它们的传播能力。然后,使用一种方法来识别一组节点,这将启动真相活动。恶意节点和真相竞选节点都会传播他们的消息。计算受错误信息影响的节点数量。

   除了评估对最大限度地减少错误信息传播的影响之外,通常还会评估每种方法的运行时间。通常,一个方法会运行多次并报告平均运行时间。

   关于数据集,随机模型用于根据所需的节点数量、度分布、聚类系数等生成合成图。表 4 给出了常用模型以及使用每个模型的论文的简短描述。表 5 列出了一些广泛使用的现实世界数据集以及简短描述和使用它们的论文参考。现实世界数据集的存储库包括:http://snap.stanford.edu、http://konect.cc 和 http://networkrepository.com。

表 4 用于生成合成图的随机模型。

 表 5 基于真实数据集的图表。

7. Conclusion and future directions

   在本文中,提出的错误信息传播最小化方法分为两类。在基于阻塞的方法中,其想法是改变网络结构;一些节点和/或边缘被从网络中删除,以最大限度地减少错误信息的传播。阻塞节点和/或边缘会带来成本,如果需要很长时间才能恢复节点和边缘的连接,则可能会导致网络信誉受损。在基于澄清的方法中,目标是通过传播真相信息来提高用户的意识。这种方法不存在阻塞的挑战和成本,但它可能比阻塞方法效率低。

   比阻塞方法更高效。有各种问题可能会推动对该主题的进一步研究。首先,所提出的方法主要是在过去十年中开发的,仍然需要使用不同类型的网络、扩散模型等进行广泛的评估。然而,正如已经观察到的,时间复杂度通常是一个关键限制,随着需要处理越来越大的网络和复杂的模型,这可能会成为一个更大的问题。这表明,在最大限度地减少错误信息的传播时,必须更加关注所提出方法的效率和可扩展性,才能取得成功。实际上,找到一种能够最大限度地减少错误信息传播的解决方案所花费的时间比错误信息传播所需的时间更长的方法是不可行的,因为存在这样的风险:当找到解决方案时,情况已经发生了变化。可能已经完全改变了。

   其次,所有方法都假设所需的数据容易获得且正确。然而,数据可用性不能总是被认为是理所当然的。例如,访问有关网络及其功能的完整数据或与用户行为相关的数据可能并不总是可行。撇开与某些数据的隐私相关的问题不谈,似乎某些方法可能必须在某种不确定性下做出决策。

  第三,大多数提出的方法都是通过扩散模型设计和评估的。这些模型主要基于结构信息的近似值,可能无法生成准确的扩散模式。这意味着不同方法的性能可能会由于扩散模式的微小变化而发生显着变化。据 Pei 等人报道。 (2015)信息的实际传播模式可能受到人类行为、共同偏好或信仰以及社会强化等因素的影响。考虑这些因素的扩散模型可以更真实地模拟错误信息的传播,并有助于评估传播错误信息的方法。

  第四,正如本次审查所强调的,减少错误信息传播的大部分方法都是源头意识的。当发现错误信息时,我们必须停下来,首先检查错误信息的来源。显然,这些方法的成功取决于检测错误信息来源的良好方法。即使源检测存在一些不确定性,提出可以最大限度地减少错误信息传播的方法也可能有所帮助。

  最后,问题的一个关键要素是网络结构。现有研究本质上假设网络结构是固定的,不会随时间变化。这可能有助于找到解决方案,但人们可能很容易意识到,网络结构中更多的动态元素可能会使捕获现实世界社交网络中的实际交互更加现实。事实上,多重网络(由具有重叠用户的多个社交网络组成)已经在前面的一些相关研究中进行了讨论。人们可能认为,时态、动态(网络结构随时间变化)以及多重网络可能被视为比固定网络更相关的社会互动抽象。需要为此类网络开发最小化错误信息传播的算法。

  • 20
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值