论文阅读-Fake news spreader detection using trust‑based strategies in social networks with bot filtratio

论文链接:Fake news spreader detection using trust-based strategies in social networks with bot filtration | EndNote Click

目录

 摘要

1 简介

2 相关工作

2.1 假新闻传播者检测

 2.2 社交网络中的计算信任

3 动机和准备工作

3.1 社区健康评估模型

 3.2信任和值得信任

3.3 可信度

4 拟议方法

4.1问题的表述

 4.2归纳表示学习模型

4.3 生成加权图

4.4采样邻域

 4.5聚合特征

 4.6学习参数

 4.7建立人际信任模型

5 实验和结果、

5.1 MinFN数据集的构建

 5.2 设置和协议

5.2.1仅节点特征

5.2.2 仅网络结构

5.2.3 节点功能+网络结构

5.3结果和分析

5.3.1边界节点分析(密度较低的NBR)

5.3.2核心节点分析 (更密集的Nbr)

6 额外的实验分析

6.1机器人检测

6.2 Effects of bots on performance

 6.3时间线数据量对性能的影响

 7结论和未来工作


 摘要

        防止虚假新闻在社交网络中传播的一个重要方面是主动检测可能传播此类新闻的用户

        与假新闻检测相比,传播者检测领域的研究还处于初级阶段

        在本文中,我们提出了一种基于图神经网络的框架来识别可能成为虚假信息传播者的节点

        利用社区健康评估模型和人际信任(使用网络拓扑和历史行为数据量化),我们提出了一个归纳表征学习框架来预测密集连接的社区结构中最容易传播假新闻的节点,从而使整个社区更容易受到感染。

        我们还分析了我们的模型在存在和不存在使用现有最先进的机器人检测模型检测到的机器人的情况下的性能

        利用从节点邻域中采样和聚合的基于拓扑和基于活动的信任属性,我们能够比反驳信息传播者更好地预测错误信息传播者。

1 简介

        社交媒体平台已成为日常生活中无处不在的一部分。人们使用这些平台与亲人联系,娱乐,并越来越依赖它们作为他们的主要新闻来源。事实上,研究表明,现在大约有70% 的人从在线来源获得新闻,其中37% 完全由社交媒体平台组成 (纽曼等人2020)。但是随着这种相关性的增加,通过这些网络大量传播错误信息的同时也在增加。这种上升带来了一系列后果,从选举期间的民意摇摆到大流行期间产生的大规模恐慌。因此,研究人员越来越多地研究用于检测和防止虚假信息(俗称假新闻)的计算模型也就不足为奇了。大多数文献都集中在识别信息的真实性上。这不仅对检测虚假信息很重要,而且对识别最有可能相信和传播虚假信息的人也很重要。这些检测策略的发展可以帮助遏制和防止假新闻在社交网络中的快速传播。虽然假新闻检测系统中的大多数现有工作都集中在基于内容和传播的特征上,但我们提出了一种补充方法,该方法使用社交网络拓扑和历史用户活动来量化人际信任。随着新型冠状病毒肺炎病毒在世界各地传播,有关其各个方面的各种谣言和虚假信息也在传播。对于假新闻的散布者检测模型和缓解策略的需求从未如此明显。因此,在本文中,我们提出了一种新颖的散布器检测模型,该模型使用归纳表示学习,使其能够在虚假信息深入到任何紧密连接的社区之前快速识别散布器。本文的主要内容如下:

        我们找出了现有文献中与缺乏权威基准数据集相关的空白,并因此收集和发布了MinFN数据集(Rath 2021),其中包含来自10个独特新闻事件的真实Twitter数据以及相关的虚假和真实推文、转发这些推文的用户、他们的用户元数据以及他们的关注者网络

        我们提出了一个使用社区健康评估模型 (Rath等2019) 和计算信任 (Roy等2016) 的假新闻传播者检测框架。据我们所知,这是第一个提出的假新闻传播者检测模型,该模型集成了从基础网络结构 (而不是传播结构) 和历史行为数据 (而不是新闻内容) 中提取的特征。

        我们使用归纳表示学习来实现我们的框架 (Hamilton等人2017),其中我们在加权网络中采样节点的邻域并聚合它们基于信任的特征

        我们评估了我们提出的基于人际信任的框架MinFN,并从经验上表明,基于信任的建模可以帮助我们高精度地识别虚假信息传播者,这使得该技术对于缓解假新闻很有用。我们还研究了机器人对我们模型的影响,并表明机器人过滤步骤对于确保我们模型的最佳性能至关重要

        我们进一步观察到,我们的模型在检测虚假信息传播者时的准确率高于对真实信息传播者的检测准确率。这表明,人们通常能够通过分析内容来推断真实信息,因此,对邻居的信任不是一个非常重要的因素。然而,从内容本身确定看似真实的虚假信息的真实性是困难的,因此我们必须依靠我们信任的来源来做出判断。这使得那些假新闻传播者,同时又被网络上的许多人高度信任的节点变得特别危险。我们承认,并非所有这样的超级传播者都有恶意,因为有些人可能只是无知。尽管如此,它们都有能力以极快的速度将虚假信息传播得更远更广。

        本文是Rath等人 (2020) 的扩展版本。我们以首先考虑机器人在我们网络中的影响的想法和框架为基础。我们分别对待机器人和人类,这是与Rath等人 (2020) 的主要区别。我们使用最先进的机器人检测技术来准确地检测机器人,然后通过在没有机器人的网络上运行我们的模型来研究它们的存在的影响,这些网络是由真实的人组成的更具代表性的社交网络。通过为每个用户提供更全面的活动特征集,我们还介绍了Rath等人 (2020) 中使用的数据集的扩展。我们构建新的模型来利用这组新的特性,并将它们的性能与我们以前的模型进行比较。此外,我们还公开了MinFN数据集,供其他研究人员在其模型的基础上进行构建和评估,以进一步努力创建通用基准(Rath 2021)。

        本文的其余部分组织如下: 我们首先讨论相关工作,然后从网络结构的角度描述一个用于激励传播者检测的例子,并总结了拟议研究所基于的过去思想。然后,我们解释了所提出的框架以及如何使用它对人际信任进行建模,然后进行了实验分析。在机器人过滤和增加时间线数据量之后,我们做了进一步的分析。最后,我们给出了我们的总结意见,并提出了今后的工作建议。

2 相关工作

2.1 假新闻传播者检测

        尽管在假新闻领域的大多数工作都集中在检测内容或新闻本身上。对于最有可能传播假新闻的用户,还有一部分工作。

        该领域的早期工作使用了常见的用户元数据功能,如追随者数量、追随者数量 (Almaatouq等人2016) 、用户配置文件名称、电子邮件等 (Ara-pakis等人2017) 来检测可疑配置文件。

        其他工作已经使用基于摄像头的传感器 (Castillo等人2011) 和移动电话跟踪数据 (Carlini等人2016) 来检测垃圾邮件发送者和虚假配置文件。

        Pennycook和Rand (2020) 进行了一项基于调查的研究,研究了识别那些相信假新闻的人的认知基础;

        Karami等人 (2021) 使用心理特征分析,Shu等人 (2018) 使用其他显式和隐式特征来识别真实新闻和假新闻传播者之间的特质差异

        PAN @ CLEF会议2020年的共享任务之一是在Twitter上分析虚假新闻传播者 (Rangel等人2020)。有60多份意见书都试图解决这一任务 (Cardaioli等人。2020; Pizarro 2020; Vogel和Meghana 2020);

        与我们的最佳模型相比,任何提交的最佳准确性都是75% 的,后者在检测假新闻传播者时获得了93% 的准确性;

        Giachanou等人 (2020) 使用CNNs和单词嵌入来区分传播假新闻的用户和对假新闻进行事实检查的用户。这是最接近我们的工作,但是虽然Giachanou等人 (2020) 提出了一种模型来区分撒布器和检查器,但我们的框架更通用,因为它能够区分撒布器和任何其他类型的用户。与Giachanou等人 (2020) 相比,我们的模型也获得了更好的性能 (F1得分为0.59 vs 0.93)。

 2.2 社交网络中的计算信任

        社交网络中的计算信任是一个广泛研究的领域,研究人员试图将信任分数分配给网络的节点

        Mui (2002) 提出了一种基于过去互动历史的社交网络信任和声誉计算模型。Kamvar等人的Eigentrust (2003) 将全球信任值分配给在P2P网络中共享和分发文件的人,这帮助网络中的普通用户识别恶意对等体并将它们与网络隔离。

        Mishra和Bhattacharya (2011) 提出了一种计算社交网络中节点的偏差和声望的模型,该模型使用了使用边缘权重的迭代矩阵算法。

        Roy等人 (2016) 提出了社交媒体中的信任算法,该算法将一对互补的信任分数 (称为可信赖性和可信赖性) 分配给节点。我们提出的研究建立在罗伊的工作基础上。

3 动机和准备工作

        为了了解网络结构在假新闻传播者检测中的作用,请考虑图1中所示的场景。该网络包含八个社区。节点的下标表示它所属的社区。在Twit-ter的上下文中,有向边B1 → A1代表B1跟随A1。因此,一条推文从A1流向B1。如果B1决定转发A1的推文,我们说B1已经认可了A1的推文,而B1信任A1。社交网络中的社区是模块化的群体,其中群体内的成员紧密联系,与不同社区的成员之间的信任相比,社区内的信任更高,而不同社区的成员之间的信任最多是松散的联系。B越信任A,B转发A推文的机会就越高,从而传播A的消息,无论消息是真是假。该图显示了从第1天开始,假新闻通过A3到A8在整个网络中传播的情况。我们考虑两种情况进行扩散器检测:

 1. 信息到达社区邻域:考虑社区3的邻域节点D1传播消息的场景,节点A3暴露,很可能传播信息,从而开始将信息传播到紧密相连的社区。因此,预测可能成为信息传播者的社区边界内的节点是很重要的

2.信息渗透社区:考虑A3决定传播消息的场景。作为A3的直接追随者的节点B3、D3和E3现在暴露于该信息。由于他们的距离很近,他们很容易相信代言人。通信的其余节点(C3、F3)距离A3有两步之遥。类似地,对于当消息已经到达节点A8时的社区8,节点D8和F8是一步之遥,而其余社区成员(E8、C8、B8)是两步之遥。直观地说,在紧密联系的社区结构中,如果其中一个节点决定传播一条信息,它在整个社区内迅速传播的可能性非常高。因此,重要的是检测社区内可能成为信息传播者的节点,以保护整个社区的健康。

        接下来,我们讨论一些概念,我们提出的模型建立在这些概念的基础上。

3.1 社区健康评估模型

        社交网络具有表现出基于节点间交互形成的社区结构的特征。社区往往是模块化的组,其中组内成员高度连接,而跨组成员则松散连接。因此,与不同社区的成员之间相比,社区内的成员之间的信任度更高。如果这些社区在其附近传播假新闻,那么所有社区成员被感染的可能性将很高。出于易于在社区内传播的想法,我们使用了社区健康评估模型。该模型针对社区确定了三种类型的节点: 邻居节点,边界节点和核心节点,如下所述:

1.邻居节点: 这些节点直接连接到社区的至少一个节点。邻居节点的集合由N_{com}表示。他们不是社区的一部分;

2.边界节点: 这些是直接连接到至少一个邻居节点的社区节点。边界节点的集合由B_{com}表示。重要的是要注意,B_{com}中只有具有指向邻居节点的传出边的社区节点。

 3.核心节点:这些是社区节点,只连接到社区内的成员。核心节点集由C_{com}表示。

        这个想法是在Rath等人 (2019) 中提出的,以表明与真实新闻相比,信任在传播假新闻方面如何发挥更重要的作用。图1中社区的邻居、边界和核心节点列于表2 (图2)。

 3.2信任和值得信任

        在社交媒体的背景下,研究人员使用社交网络来了解用户之间信任的体现方式。

        社交媒体中的信任(TSM)算法是一种技术,它为网络中的每个节点分配一对互补的信任分数,称为信任度和值得信任度。

        信任度 (ti) 量化了节点信任其邻居的倾向,而值得信任度 (tw) 量化了邻居信任节点的意愿。TSM算法将用户网络 (即有向图G⇐V⇔E⇒) 作为输入,加上一个指定的收敛准则或最大允许迭代次数。在网络中每个节点的每次迭代中,使用以下公式计算信任性和值得信赖性:

         其中u,v,x ∈ v是用户节点,ti(v) 和tw(u) 分别是v和u的信任度和可信性得分,w(v,x) 是从v到x的边的权重,out(v) 是v的外边的集合,in(u) 是u的内边的集合,s是网络的参与分数。参与基本上是节点在网络中创建链路时所承担的潜在风险,根据经验将其设置为常数。由于空间限制,该算法的细节被排除在外,并且可以在Roy等人 (2016) 中找到。

3.3 可信度

        可信度是从信任度和值得信任度得分得出的边缘得分 (Rath等人2017)。它可以帮助我们通过捕获发送方和接收方之间的连接强度来量化定向边缘传输信息的潜力或强度。根据发送者的值得信赖度和接收者的信赖度来计算有向边的可信赖性

        更具体地说,在Twitter等微博环境中,给定用户u和v,如果u关注v,则存在从u到v的定向边。可信度量化了当u决定关注v时,u信任v的强度。因此,如果满足以下条件,u很可能相信v:

        v的值得信任度得分较高,即v极可能被网络中的其他用户信任;

        u的信任度得分很高,即u极有可能信任他人;

        因此,可信度分数应该与上述两个值成正比,可以联合确定并计算如下:

       Rath等人(2017)已经应用了这一思想,他们建立了一个分类模型,基于可信度度量来识别Twitter用户网络中的谣言传播者。  

        基于Zhao和Rosson (2009),读者故意选择在Twitter上关注的人发布的信息被认为是有用且值得信赖的,这直观地暗示了关注关系可以被视为信任的代理;

4 拟议方法

4.1问题的表述

        给定一个有向社交网络G⇐V⇔E⇒,包括不相交的模块化社区 (\Phi),每个社区 (com ∈\Phi) 具有定义明确的邻居节点 (Ncom),边界节点 (Bcom) 和核心节点 (Ccom)。聚合基于拓扑 (top) 和基于活动 (act) 的信任属性来自从深度K采样的节点 (其中Nbr_{K=1}(b)\subseteq N_{com} ),我们希望预测最有可能成为信息传播者的边界节点b (b_{sp})。同样,我们聚合从深度K (其中Nbr_{K=1}(c) \subseteq B_{com}) 采样的节点,以预测最有可能成为信息传播者 (c_{sp}) 的核心节点c。

 4.2归纳表示学习模型

        大多数研究人员都研究了信息传播后的假新闻传播。但是,任何旨在最大程度地减少假新闻传播的缓解策略都必须动态工作,并适应假新闻传播的快速变化的性质。因此,牢记这一点,我们采用了一种可扩展的机器学习技术,可以有效地适应不断增长的图结构

        大多数研究都分析了假新闻传播后的传播情况。但是,任何可行的缓解系统都必须实时工作,并适应假新闻网络的快速发展。因此,牢记这一点,我们采用了一种自适应且可扩展的技术,该技术对于大型演化图结构非常有效。重要的是,该模型能够快速学习新看到的 (即,暴露的) 节点的有意义的表示,而无需依赖完整的网络结构。但是,大多数图表示学习技术都采用传导方法来学习节点代表,该方法基于整个图结构优化了节点的嵌入。随着信息传播网络的逐渐发展,我们采用了一种受GraphSAGE启发的归纳方法 (Hamilton等人2017) 来为节点生成嵌入。它学习了一种聚合器特征,该功特征通用于看不见的节点结构,这些节点结构可能成为潜在的信息传播者。这个想法是通过训练一组聚合器函数而不是单个节点嵌入,同时从邻域 (Nbr) 节点学习拓扑结构和节点特征

        使用归纳表示学习模型,我们通过聚集来自邻居节点的基于信任的特征来学习暴露人群(即传播者的追随者)的特征。图3显示了我们如何从社区健康评估的角度对所提出的方法进行建模。实心椭圆外部的节点表示Ncom,实心和虚线椭圆之间的节点表示Bcom,虚线椭圆内的节点表示Ccom。(A)表示虚假信息已传播到两个邻居节点(以红色突出显示)。三个边界节点(用红色圈出)暴露在信息中。在(B)中,我们通过聚合其局部邻域结构(由白色节点表示)的特征来学习暴露的边界节点的表示。突出显示了成为传播者的三个边界节点中的两个,并圈出了暴露的核心节点。同样,在 (c) 中,我们通过聚合暴露的核心节点的局部邻域特征来学习它们的代表。一个核心节点成为传播者,社区现在容易受到假新闻传播的影响。

         该框架的基本思想如下:首先,建立了一个基于人际信任的加权信息传播网络。然后,我们以与基于信任的边权重成比例的概率对邻域进行采样。对于采样的邻域,我们聚合它们的特征表示。最后,我们解释了用于学习模型参数的损失函数。

4.3 生成加权图

        信息传播网络的图形具有边权重,可以量化发送者和接收者之间信任形成的可能性。一旦我们使用表3中提到的技术计算了这些边分数,我们就对连接边界节点的所有外边的权重进行了标准化

         同样,我们对连接边界节点的所有内边的权重进行归一化;

4.4采样邻域

        我们不是将邻域采样为均匀分布,而是对与连接它们的边的权重成比例的邻居子集进行采样。采样是递归进行的,直到深度为K。这个想法是从邻居那里学习个人信任水平的特征。算法1解释了抽样策略。

 

 4.5聚合特征

        在将邻域采样为无序集之后,我们对每个边界节点的采样节点的嵌入进行了估计,直到深度K重复。直觉是,在每个深度,边界节点都会从采样的邻域中逐步学习基于信任的特征。可以使用Hamilton等人(2017)解释的三种聚合架构,即mean, LSTM和pooling。为简单起见,我们仅应用均值聚合器,它采用表示形式的平均值h^{k-1}_u,其中u\in Nbr_{k-1}(b)。聚合器表示如下:

 算法2解释了聚合策略.

 4.6学习参数

        在损失函数上使用随机梯度下降来调整算法2中的权重矩阵,以便学习参数。我们以最小化交叉熵训练模型.

         对损失函数进行建模,以预测边界节点是信息传播者(b_{sp})还是非传播者(b_{\bar{s}p})。Y表示实际的类别(对于撒播器为[1,0],对于非撒网器为[0,1]的二维多项式分布),Y表示预测的类别。

        我们扩展了Ccom的模型,以识别核心节点扩展器 (c_{sp}) 和非扩展器 (c_{\bar{s}p})。考虑到边界节点与核心节点相比具有更密集的邻域,我们随后分析了所提出的模型是否对邻域结构的密度或聚合特征更敏感。图4显示了我们模型的视觉表示。实施代码公开提供

https://github. com/BhavtoshRath/Proactive_ Spreader_ Detection

 4.7建立人际信任模型

        人际信任已被证明在谣言传播者的检测中是有效的 (Rath等人2017)。因此,我们使用信任度量作为我们网络的边缘权重。我们首先使用加权图 (其中边缘权重量化信任形成的可能性) 应用非均匀邻域抽样策略。然后,我们汇总了两个信任特征 :( 1) 信任他人的可能性和 (2) 被他人信任的可能性。我们使用两种人际信任: 根据社交网络拓扑计算的基于拓扑 (top) 和使用Twitter API为每个节点收集的时间轴活动数据计算的基于活动 (act)。

        我们使用从TSM算法获得的节点x的信赖度 (ti(x)) 和值得信赖度 (tw(x)) 分数作为基于拓扑的信任特征的代理,以及转发 (RT_x) 表示的x的时间线状态的分数\sum_{\forall i\in t}\{if \ i = RT_{x} \ else \ 0\}和x的推文被转发的平均次数 (n(RTx)) (计算方式: \sum _{\forall i \in t}i_{n(RT_x)}/n(t))表示为基于活动的信任特征 (t代表发布在x的时间线上的最新推文)。

        对于从x到v的边,基于拓扑的边缘权重是可信度分数 (bel_{xv}),基于活动的边缘权重是x被v转发的次数 (RT_{xv})。表3总结了基于信任的抽样和聚合策略。

5 实验和结果、

5.1 MinFN数据集的构建

        为了验证我们的模型,我们在真实世界的Twitter数据上进行了实证测试,这些数据属于10个独特的新事件。对于每个新闻事件,我们都会收集传播有关该事件的一些假新闻的推文,也收集相应的驳斥真实推文。我们依靠流行的事实检查网站altnews.in来辨别推文的有效性。从源推文中,我们提取源推文和该推文的转推文 (传播者代理)。然后,我们使用Twitter API(https://developer.twitter.com/en/docs/twitter-api)收集传播者的关注-关注者网络(网络工作的代理),以及网络中所有节点的时间线数据(以生成基于信任的特征)。

        我们分别在虚假信息网络 (F) 和反驳的真实信息网络 (T) 上评估了我们的模型,还对通过组合它们获得的网络 (F \cup T) 进行了评估。表4汇总了针对所有新闻事件汇总的网络数据集的元数据。

 5.2 设置和协议

        我们通过在每个网络上运行社交媒体 (TSM) 算法中的信任分数来生成基于拓扑的信任度量,以获得所有节点的ti,tw和所有边的bel。我们使用Roy等人 (2016) 的推荐来设置超参数 (迭代次数 = 100,参与分数 = 0.391)。

        我们使用Louvain社区检测算法 (Blondel等人2008) 提取每个网络的不相交模块化社区,并使用社区健康评估模型识别每个社区的邻居,边界和核心节点。

        然后,我们从节点的时间线数据生成基于活动的信任度量。使用算法2中所示的前向传播方法生成嵌入,同时使用等式6学习模型参数。

        由于类别不平衡,我们对多数类别进行了抽样,以获得平衡的传播和非传播者分布。隐藏单元的大小被设置为128,学习率被设置为0.001。

        我们使用整流线性单元作为非线性激活函数。根据训练数据集的大小,对批次大小进行了调整,以获得最佳性能。

        由于社交网络中边的度分布具有重尾性,因此我们在建模之前进行了下采样,从而确保了邻域信息存储在密集的邻接列表中。这大大减少了我们的运行时间,这是早期检测传播者的理想选择。我们还设置采样深度K = 1,因为网络仅构成传播者器的直接关注节点。我们比较了以下三种类型模型的结果:

5.2.1仅节点特征

        仅使用节点特征的分类模型。使用的三个基线如下 :( 1) 直观地信任他人,信任他人的可能性很高的用户往往是虚假信息的传播者。该模型基于 “信任他人” 特征 (基于拓扑和基于活动) 与用户groundtruth之间的相关性来学习阈值。

        (2) 被他人信任直观地说,被他人信任的可能性很高的用户往往是虚假信息的传播者。与之前的模型一样,该模型基于 “受他人信任的特征” (基于拓扑和基于活动的) 与用户地面真相之间的相关性来学习阈值。

        (3) 插值该模型线性地结合了 “受他人信任的特征” 和 “受他人信任的特征”,以找到最佳阈值。

5.2.2 仅网络结构

        使用从图结构中提取的特征的分类模型。使用的一个基线是(4)LINE:该模型应用LINE(Tang et al.2015),作为传导性学习基线。

5.2.3 节点功能+网络结构

        同时使用网络结构和节点特征提取的特征的分类模型。以下模型,包括基线 (GCN) 和建议模型如下

        (5) GCNtop: 该模型实现了基于图卷积网络 (Kipf和Welling 2017) 的学习模型,该模型从邻域聚合拓扑特征;

        (6) GCNact: 这是基于图卷积网络的模型,该模型汇总了邻域中的活动特征。

        (7)SArandGEtop:该模型通过对被视为均匀分布的邻域进行采样并仅聚合基于拓扑的特征来应用归纳学习。

        (8) SArandGEact: 该模型通过采样被视为均匀分布的邻域并仅聚合基于活动的特征来应用归纳学习。

        (9)SAtopGEtop:不是随机抽样,而是在可信度(BEL)加权网络上抽样,并聚集它们基于拓扑的特征。

        (10) SAtopGEact: 采样方法与 (9) 相同,但我们聚合了邻域的基于活动的特征。

        (11) SAactGEttop: 我们在retweet计数 (RT) 加权网络上非均匀地采样邻域,并聚合了它们基于拓扑的特征。

        (12) SAactGEact: 抽样方法与 (11) 相同,但我们汇总了邻域基于活动的特征。

        我们将我们的模型与基线模型 (1)-(3) 进行比较,这些模型来自 (Rath等人2018),考虑基于信任的特征。基线模型 (4) 仅考虑基于网络结构的特征 (Tang等人2015)。提出的模型 (5)-(13) 整合了邻域结构和节点特征。我们分析了采样和聚合策略的最佳组合,该策略可以以最高的精度预测传播者节点。为了进行评估,我们对数据集进行了80-10-10的训练验证测试拆分。我们使用了五倍交叉验证和四个常见指标: 准确性、精确度、召回率和F1得分。

5.3结果和分析

        我们在10个被揭穿的新闻事件上对我们提出的模型进行了评估。对于每个新闻事件,我们得到了三种类型的网络:虚假信息的网络(F)、驳斥它的真实信息的网络(T)以及由它们组合而成的网络(F∪T)。因此,我们在30个大型网络上运行我们的模型。

5.3.1边界节点分析(密度较低的NBR)

        表5汇总了所有新闻的边界节点预测结果。结果表明,F在几乎所有指标上的表现都优于T,而F∪T的表现较差。F ∪ T网络性能较差的原因在于F ∪ T网络中节点的重叠度很小(12%),这使得F ∪ T型网络具有更稀疏的社区。同时,将虚假信息散布器和真实信息散布器一起视为影响模型性能的传播者。与基线模型相比,对于F、T和F∪T网络,可信任度模型的精度分别提高了4.8%、5%和1.5%。对于F、T和F∪T网络,内插模型分别比可信性模型进一步提高了2.3%、2.3%和1.1%。LINE和GCN基线显示,与T或F∪T网络相比,F网络的所有指标都有显著改善。

         我们看到使用归纳学习模型的每种网络的性能都有进一步的大幅提高。比较两种随机采样器模型(即SArandGEtop和SArandGEact),我们看到基于拓扑的邻域特征比基于活动的特征表现更好。在基于拓扑的采样器模型(即SAtopGEtop, SAtopGEact)中也观察到类似的趋势,其中使用基于拓扑的聚合器的模型比基于活动的聚合器性能更好。基于活动的采样器模型(例如,SAactGEtop, SAactGEact)也是如此。与仅使用toponly模型相比,集成top and act并没有显示出任何显著的改进。因此,归纳学习框架中基于人际信任的建模能够比真实信息传播者更好地预测虚假信息传播者。我们还观察到,基于拓扑的采样和聚合策略比基于活动的策略执行得更好。基于活动的策略的低性能可能归因于这样一个事实:许多Twitter用户要么是不活跃的用户,要么是具有严格隐私设置的用户,他们的时间线数据无法检索。此外,用户时间线上最近的10个活动可能不足以捕获基于活动的信任动态。对于每种类型的网络,我们观察到SAtopGEttop模型的性能最佳,F的精度为93.3%,分别高于T和F和T网络的12.3% 和52.1%。图5显示了该模型针对10个新闻事件(N1-N10)的最佳性能度量:a)仅节点特征(内插)、b)仅网络结构(LINE)和c)节点特征+网络结构(SAtopGEtop)模型。在比较F1度量性能时,我们观察到SAtopGEtop与内插和直线相比在性能上有更明显的区别(F网络的性能好于T,而T又好于F∪T)。内插模型的性能差别最小,这可以归因于它没有捕捉到基于网络结构的特征。

         可以得出结论,围绕虚假信息的基础网络结构与围绕真实信息的网络结构有很大不同。一个有趣的观察是T的高精度值。这是因为对于T网络,预测的非扩散者的百分比往往低于F网络

5.3.2核心节点分析 (更密集的Nbr)

        表6总结了用于预测所有新闻汇总的核心节点的模型的结果。总体性能趋势与表5中边界节点显示的结果相同。在基线模型中,插值模型的性能优于其他信任模型和信任模型。基于LINE和GCN的模型在所有指标上都显示出比信任特征基线的显着改善。

        在归纳学习模型中,基于拓扑的信任建模比基于活动的信任建模显示出更好的性能。此外,F网络的性能优于T网络,而T网络的性能又优于F U T网络。在随机采样器模型中,SArandGEttop分别对F,T和F U T网络具有最高的84.2%,72.6% 和65.6% 精度。在基于拓扑的采样器模型中,SAtopGEttop的性能优于SAtopGEtact,分别提高了F,T和F U T网络的2.8%,4.5% 和7.1% 精度。基于活动的采样器模型也显示出相同的趋势,其中SAactGEtop的性能优于SAactGEact,并且F,T和FUT网络的2.6%,9% 和4.6% 精度分别提高。在所有型号中,satopgettop表现出最佳的整体性能。

         图6显示了该模型对10个新闻事件(N1-N10)的性能指标,其中a)仅节点特征,b)仅网络结构和c)节点特征+网络结构模型的最佳表现。如图5所示,N10的真实信息网络被排除在分析之外,因为它没有足够的传播者来训练我们的模型。一个明确的观察是,三种类型的网络的度量性能并不像图5中那样明显。我们注意到,尽管核心节点的数量远远高于边界节点,但核心撒布器的数量远远小于边界节点撒布器。因此,由于较小的训练数据集,该模型无法学习核心节点的有意义的表示形式。

        总结: 包含节点特征和网络结构的复杂模型优于简单的仅节点特征和仅网络结构模型。比较核心和边界扩展器的预测性能,我们可以得出结论,与邻域密度相比,我们的模型的性能对训练数据集大小更敏感。

6 额外的实验分析

6.1机器人检测

        机器人账户与人类互动,并通过快速传播信息来影响互动。机器人对人类行为产生巨大影响的最著名的例子之一是2016年美国大选(Bessi和ferr -rara 2016)。为了获得更具代表性的网络,我们过滤掉机器人,只包括人类,以更好地量化人际和个人信任。我们使用了Kudugunta和Ferrara(2018)提出的机器人检测模型,其中他们使用了在基于用户的详细特征集上训练的AdaBoost分类器,以达到99.81%的准确率。MinFN数据集(Rath 2021)由每个用户的以下元数据组成:ID、网名、姓名、状态计数、收藏夹计数、关注者计数、好友计数、列出计数、已验证、受保护、创建位置少于Kudugunta等人训练的特征。因此,我们首先在公开可用的机器人检测数据集上用我们有限的特征集测试了该模型的性能(Cresi等人。2017年)。该分类器达到了98%的准确率,从而证明了使用我们的用户特征集可以以几乎相同的准确率识别机器人。

6.2 Effects of bots on performance

        表7显示了我们数据集中机器人的分析。我们发现,在假新闻网络中,机器人和反驳真实新闻网络一样普遍,这进一步强调了人类在假新闻传播中的作用。

        我们注意到,每个网络中大约5% 的节点被归类为机器人。在传播者 (表8) 中,我们观察到与真正的信息传播者 (N1和N9除外) 相比,更多的虚假信息传播者往往是机器人。然后,在从网络中过滤掉机器人之后,我们分析了模型的性能,因为基于信任的功能更能代表实际人们的行为

        在表9中,我们可以观察到,当我们在没有机器人的网络上训练和测试我们的模型时,与混合有机器人和真正用户的网络相比,性能的提高。我们观察到,当在没有机器人的网络上对100历史推文进行训练时,性能提高2.8% 对于SArandGEact,1% 对于SAtopGEact,4.6% 对于SAactGEtop,3.6% 对于SAactGEact。

         T和F∪T网络的性能提升甚至更高。

        在表10中,我们可以观察到类似的趋势,SArandGEact的4.7%,SAtopGEact的0.5%,saactgettop的1.5% 和SAactGEact的0.4% 的性能提高。T和F U T网络也观察到类似的趋势。

        机器人过滤过程的性能增益在图7中可视化。这使我们得出结论,机器人的过滤是使用基于信任的特征更好地预测可能的传播者的重要步骤。因此,包括机器人过滤的预处理阶段有助于进一步提高归纳学习模型的性能

 6.3时间线数据量对性能的影响

        5.3节中分析的基于行为的模型的主要瓶颈是有限的时间轴数据(用户时间轴上最近的10个活动)。我妈通过收集100最近的时间线推文进一步扩展了我们的数据集,以测试增加时间线数据以捕获更多基于代表的基于活动的信任特征是否增加了基于行为的模型的性能,以及采样 (SAact) 或聚合 (GEact) 策略是否显示出更好的改进。我们报告了基于行为的归纳表示学习模型 (SArandGEact,SAtopGEact,SAactGEtop和SAactGEact) 的F1得分表现,用于10和100最新的时间轴推文。

        表9显示了边界节点预测问题的结果。

         我们观察到,对于有机器人的网络,当使用100条时间轴推文而不是10条时间轴推文来量化信任特征时,SArandGEact的性能提高了6.2%,SAtopGEact提高了4.3%,SAactGEtop提高了6.9%,saactgeact提高了5.2%。对于没有机器人的网络,SArandGEact的性能提高了5.5%,SAtopGEact提高了1.9%,SAactGEtop提高了9%,SAactGEact提高了6.8%

        T和F∪T网络也出现了类似的趋势。表10显示了核心节点预测问题的结果。对于有机器人的网络,当使用100条时间轴推文而不是10条时,SArandGEact的性能提高了3.8%,SAtopGE的性能提高了3.8%,SAactGE的性能提高了7.5%,SAactGE的性能提高了4.9%。对于没有Bot的网络,性能提高了5.7%,SAtopGE的性能提高了3%,SAactGE的性能提高了6.2%,SAactGE的性能提高了4.8%。我们观察到T和F∪T网络的趋势相同。

        一个有趣的观察是,SAtopGEact的性能优于SAactGEact,即基于拓扑特征的采样策略优于活动特征,这表明在采样阶段(即选择特征被聚合的邻居),网络拓扑比基于活动的特征被聚合更重要。

        这表明,与简单的基于转发的权重相比,基于可信度的权重分配给边缘是一种更好的个人间信任衡量标准。另一个有趣的观察是,在相同的网络(带有机器人的网络)上,表9和表10中性能最佳的模型(即SAtopGEact)比表5和表6中的性能最佳的模型(即SAtopGEtop)性能更好。这可以归因于这样一个事实:使用基于100条时间线推文的活动特征的聚合策略比使用10条时间线推文产生更具代表性的信任特征,并且它们的性能也优于拓扑特征。因此,我们得出结论,当足够多的时间线推文被用来量化基于行为的信任特征时,SAtopGEact的表现优于SAtopGEtop。

        图7比较了我们的模型对网络中存在机器人的敏感性以及用于为SAactGEact模型的所有新闻事件汇总基于信任的特征的时间线数据量。我们得出的结论是,归纳学习模型在没有机器人的情况下以及当我们有更多的时间线数据来提取特征时表现更好。

 7结论和未来工作

        在本文中,我们提出了一个框架,该框架使用归纳表示学习和社区健康评估模型来识别假新闻传播者。我们还公开了一个庞大的数据集,其中包含来自10个独特新闻事件的真实Twitter数据,并使用该数据集对我们的框架进行经验验证。使用基于人际信任的属性,我们可以高精度地识别传播者,并且还表明所提出的模型比真实信息传播者更准确地识别虚假信息传播者。我们在仅由人类以及人类和机器人混合组成的网络上分析了我们的模型。我们发现,机器人过滤步骤对于确保具有代表性的网络至关重要,并且发现在没有机器人的情况下性能显着提高。

        我们检验的关键假设是,人际信任在识别虚假信息传播者方面比真实信息传播者起着更为重要的作用。这背后的直觉是,真实的信息通常很容易接受,而公然的虚假信息很容易拒绝; 然而,大多数虚假信息是虚假的,但似乎是真实的,使人们更难自己接受/拒绝它,因此取决于他们收到的来源。然后可以隔离已识别的虚假信息传播者,并可以推广真实的新闻传播者,从而成为有效的缓解策略

        通过对真实推特数据的实验分析,我们表明基于拓扑的特征和采样策略比基于活动的特征和采样更有助于扩散检测。尽管基于拓扑的特征更重要,我们确实发现拥有更具代表性的活动特征(使用更大的时间线数据)可以提高性能。由于我们使用了能够适应快速演化的传播网络的归纳表示学习,所提出的框架可以用来识别可能成为大型网络上的实时传播者的人。在未来,我们希望包括其他信任代理,如用户在社交媒体平台上活跃的时间,用户是否有驳斥虚假信息的历史等。在本文中,我们只使用信息传播者的直接追随者网络。在未来,我们希望将其扩展到更大的采样深度,并研究其对模型性能的影响。

  • 0
    点赞
  • 1
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值