论文阅读 - Detecting the Hidden Dynamics of Networked Actors Using Temporal Correlations

WWW'23

https://dl.acm.org/doi/pdf/10.1145/3543873.3587672

         煽动运动对基于事实的推理构成威胁,侵蚀人们对机构的信任,撕裂我们的社会结构。在 21 世纪,宣传运动迅速发展,以新的网络身份出现。其中许多宣传活动持续不断,资源充足,因此识别和清除它们既困难又昂贵。社交媒体公司主要通过优先控制 "协调的不真实行为 "来应对网络宣传的威胁。这一策略的重点是识别明确以欺骗为目的的精心策划的活动,而不是单个社交媒体账户或帖子。在本文中,我们研究了与俄罗斯政府有关的多年影响力活动在 Twitter 上的足迹。信息模型是一个描述网络化马尔可夫链之间互动的生成模型,我们利用该模型展示了单个社交媒体账户的顺序决策过程中的时间相关性如何揭示协调的不真实活动。

1 INTRODUCTION

        社交媒体平台已成为人们相互联系、参与对话和消费新闻的场所。它们现在也被不良行为者用作扩大影响的工具。宣传旨在塑造公众舆论,影响人们对事件的看法。虽然宣传具有典型的欺骗性质,但并不总是包含明确的虚假信息。它可以更加隐蔽--断章取义地展示图片,设置议程,或在信息环境中添加无关内容以混淆视听[10, 19]。鉴于宣传的表现形式多种多样,因此,要识别有问题的内容并打击其传播,仅审查内容是不够的。

        在本文中,我们转而研究了国家支持的信息活动的动态,展示了网络账户发帖活动的时间相关性如何能让人了解哪些账户参与了协调活动。我们表明,如果孤立地检查每个账户的发帖活动,就不容易发现这些协调账户(即它们并不都表现出简单的僵尸行为),并证明了量化它们之间因果关系的价值。此外,我们还将协调账户之间隐性的、行为驱动的联系与显性的、用户提及的网络进行了比较,说明了为什么隐性关系是理解活动的关键

        本文的其余部分安排如下。第 2 节简要总结了检测和描述信息操作和网络宣传的相关工作。第 3 节和第 4 节介绍了我们所利用的 Twitter 数据集,以及我们用于研究网络中时间相关性的方法。第 5 节介绍了我们的研究结果,最后讨论了这项工作的意义、局限性和未来方向。

2 RELATED WORK

        以往关于侦测和反击影响力运动的工作可大致分为描述性研究和以侦测为重点的研究。描述性研究可能侧重于了解个别活动的目标及其协调者采用的策略。例如,[6] 调查了与伊朗有关的影响力活动。作者发现,这些活动主要针对阿拉伯世界,支持与伊朗外交政策目标一致的第三方网站。其他研究利用从先前被认定参与与国家有关的信息行动的账户中获得的洞察力,寻找更多的共谋账户。例如,[14 ]将与土耳其执政党有关联并被 Twitter 管理团队删除的 Twitter 帐户的社交网络和互动行为,与同一时期收集到的仍然活跃的帐户的社交网络和行为进行了比较。研究人员根据这些账户的社交互动将其列为可疑账户,但这些账户后来被推特暂停了活动。还有一些研究旨在描述跨社交媒体平台的活动[9, 20]。

        以检测为重点的论文一般都提出了一些新方法,用于:1)识别单个帖子中的虚假谣言、低可信度内容或煽动性言论;2)根据社交媒体账户的个人资料和/或行为将其分为真实或不真实;或 3)协调活动。大多数研究侧重于内容[1, 13, 16 , 18 ]、网络结构[15, 17 ]或时间活动[3, 7, 12]。一些研究试图通过创建用户相似性网络和运行社群检测算法来识别相似用户集群,从而检测在线社交网络(OSN)中的虚假信息活动。在[ 12 ]中,作者通过计算每个用户发布的标签与其关注和/或转发的账号之间的雅卡德相似度,建立了用户相似度网络。然后,他们对用户的相似性进行加权,并运行社区检测算法来选择共序性最强的子网络。[17]同样使用聚类来发现账户的协调群体。作者根据账户间共同的行为痕迹(如共享图片、标签序列和转发)构建了协同网络。

        时间方法包括基于推文行为(标签和 URL)构建多视角协调网络[12]、迭代构建相似用户聚类并进行精细分析以区分有机和无机社区发展[3],以及利用时间相关性研究协调账户之间的影响[7]。我们的研究在三个方面借鉴了[7]的研究成果。首先,我们在一个新的数据集上展示了该方法的适用性,表明它能成功区分与来自两个不同国家(俄罗斯和中国)的影响力活动相关的协调账户。其次,通过将结果与考虑明确的用户提及网络时获得的结果进行比较,我们证明后者不足以揭示协调性。第三,我们考虑了比以往更广泛的推文行为--除了共享共同的标签或 URL,还共享相似的图片,或提及相同的用户

3 DATA

        我们研究了一个与俄罗斯有关的国家支持的影响力活动,该活动最初由 Twitter 识别并删除,随后作为其透明度报告的一部分公布。1 我们特别使用了 Guo 和 Vosoughi 发布的附带数据集,该数据集提供了背景数据(负类样本),以配合 Twitter 标记的与国家有关的账户(正面样本)[8]。反类样本是从 Inter- net Archive 2 的 Twitter Stream Grab 中收集的,它取自 Twitter 1%的实时推文样本流。然后,Guo 和 Vosoughi 对正负样本进行浮动处理,以确保两类推文都以相同的话题为中心,并通过使用共享标签来衡量。有关数据收集和筛选方法的更多详情,请参阅他们的论文。我们进一步剔除了数据集中发布次数少于十次的账户,以降低仅凭随机机会就能看到协调的可能性,这样就得到了来自 269 个账户的 122,815 条推文,其中正面类 174 条,负面类 95 条。数据集的摘要信息如表 1 所示。

4 METHODS

        我们的假设是,考虑到协调行动的行为可以相互预测,作为因果关系衡量标准的 "影响"(infuence)是协调的有力指标。为了揭示这些隐藏的动态,我们利用了影响力模型。

        信息模型描述了网络马尔可夫链之间的关系,并定义了一组演化方程,说明每条链如何根据自身及其邻居的状态进行演化。我们之所以选择该模型,是因为它可以揭示简单的时间序列分析可能无法识别的时间相关性,从而揭示参与组织活动的账户之间隐藏的协调关系。我们使用了[7]中介绍的信息模型的 Python 实现,该模型可在 PyPI 上获取。信息模型最早在[2]中提出,并在[4]、[5]和[11]中进行了扩展。对于状态链接活动,我们有一个 Twitter 账户系统。我们将所有账户表示为网络图中的节点,它们的标签(正面或负面)是隐藏的。每个账户a在时间t上可能处于两种状态之一,用 a[t]∈{0, 1} 表示。一个账户的状态取决于该账户在时间点t上是否有特定的推文行为b。我们定义了四种推文行为:推文标签、推文 URL、推文图片或用户提及。举例来说,如果账户a在时间t , 发送了给定的标签b,则 a[t] = 1,否则为 0.

        影响模型是一个生成模型,其参数可以从观察结果中学习。我们为每个账户生成一个观察向量,代表从 2015 年 3 月活动开始到 2019 年 12 月活动结束的所有一小时时间块。t是一个二进制指标,代表账户当时的状态。我们主要关注的是重建状态转换矩阵,它描述了账户在下一个时间步骤中的活动如何受到网络中其他账户当前活动的影响。我们使用最大似然估计法来实现这一目标,这与[4]中的方法类似。为了加快学习过程,我们对每个感兴趣的行为(标签、URL、图片哈希值或用户提及)单独学习参数。

        然后,我们可以通过计算每对账户的状态转换矩阵与同一矩阵的弗罗贝尼斯内积,得到每对账户的标量影响度量,其中零代表最大正向协调(模仿行为)。这种影响度量表示每个账户受网络中其他账户影响的程度。我们假设,对彼此的网络行为具有高度影响力的账户正在协调其网络行为

5 RESULTS

        我们发现,在研究的推文行为中,与国家相关的账户比背景账户表现出更多的协调性。

5.1 Coordination network

        为了创建协调网络,我们将正反两方面的 Twitter 账户表示为节点,如果用户 A 影响了用户 B(定义为影响得分低于 0.5),则从用户 A 到用户 B 之间存在一条有向边。每条有向边的权重都是由显示影响的行为数量决定的。图 1 展示了这一协调网络的可视化图形。

(图 1:俄罗斯(2020 年 5 月)数据集中协调账户的图表视图。节点按其外度缩放,并使用 Fruchterman-Reingold 布局显示,该布局使相邻节点在空间上彼此靠近)

        根据其外度(即受其影响的其他节点的数量)进行缩放。为清晰起见,仅显示施加影响或自身受到影响的节点。从图中可以看出两点--影响网络中的绝大多数账户都是正面账户,而且似乎存在两个不同的状态链接账户群体。图 2 显示了所有正负面账户的邻接矩阵。与国家有关的账户(正面类)的块状结构显而易见。

 (图 2:代表俄罗斯(2020 年 5 月)数据集中与国家有关的账户和背景账户的邻接矩阵。如果帐号a_i在一条或多条推文行为中对帐号a_j施加了影响,则"...... "着色。)

5.2 用户提及网络

        我们可以将协调网络与静态用户提及网络进行比较,其中如果用户 A 提及用户 B,则存在从用户 A 到用户 B 的有向边。然而,如表 1 所示,数据集中的用户很少提及其他用户,并且他们确实提到的用户位于网络之外。图 3 显示了用户提及的网络。与协调网络类似,它揭示的与国家相关的账户比背景账户更多。然而,图 4 强调网络非常稀疏,提供的洞察有限

 (俄罗斯(2020 年 5 月)数据集中的用户提及网络图视图。节点按其外度缩放,并使用 Fruchterman-Reingold 布局显示,该布局使相邻节点在空间上彼此靠近。)

6 DISCUSSION

        这项研究展示了直观的马尔可夫模型如何揭示与国家支持的信息操作相关的在线活动的隐藏动态。我们展示了基于影响模型的方法如何揭示出,与仅使用时间推文行为的背景数据相比,状态链接账户之间的协调程度更高。鉴于这两类推文的行为具有高度相似性,这一发现尤其有趣。所有推文都至少包含一个标签,而组成每个类别的推文都是基于包含一组共同的标签而选择的。此外,如表 1 所示,两类推文含有 URL 的比例相似,虽然有更多的状态链接推文提及用户或包含图片,但两类推文的比例都相对较低。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值