论文阅读-How Do Social Bots Participate in Misinformation Spread? A Comprehensive Dataset and Analysis

目录

摘要

1 简介

2 Data Collection

3 Experiment Settings

4 Dataset Analysis


 

https://arxiv.org/abs/2408.09613

摘要

        信息通过社交媒体平台传播的速度比传统媒体更快,从而成为传播错误信息的理想媒介。与此同时,被称为社交机器人的自动化账户对错误信息的传播做出了更大的贡献。

        在本文中,我们探讨了社交机器人与新浪微博平台上的错误信息之间的相互作用。

        我们提出了一个全面且大规模的错误信息数据集,包含 11,393 个错误信息和 16,416 个具有多种模态信息的无偏见真实信息,以及 952,955 个相关用户。

        我们提出了一种可扩展的弱监督方法来注释社交机器人,获得了 68,040 个社交机器人和 411,635 个真实帐户

        据我们所知,该数据集是包含错误信息和社交机器人的最大数据集

        我们对该数据集进行了全面的实验和分析。结果表明,社交机器人在错误信息传播、参与新闻讨论以放大回声室、操纵公众情绪和扭转公众立场方面发挥着核心作用。

1 简介

        自社交媒体兴起以来,截至 2024 年 4 月,全球社交媒体用户已达 50.7 亿。

        X(推特)、微博等社交媒体平台已成为主要的信息来源,信息传播速度远远快于传统媒体。由于此类平台的性质,有人试图传播错误信息,这可能会破坏公众信任(Scheufele 和 Krause,2019)、使社会两极分化(Choi 等人,2020;Azzimonti 和 Fernandes,2023)、影响公众观点(Maddock 等,2015),并对经济产生影响(Zhou 等,2024)。

        同时,除了吸引正版用户外,社交媒体的简单操作也媒体也使其成为全自动程序的理想温床。此类程序也称为社交机器人,可以帮助发布各种新闻并提供紧急帮助。

        虽然社交机器人只是一种技术手段,但其恶意滥用会严重危害网络安全。事实证明,它们是许多网络危险的幕后推手,包括选举干扰(Howard 等人,2016 年;Rossi 等人,2020 年;Ng 等人,2022 年)、极端主义传播(Ferrara 等人,2016 年)和仇恨言论宣传(Stella 等人,2019 年)。社交机器人是天然的信息放大器(Caldarelli 等人,2020 年),增加了传播错误信息的风险(Huang 等人,2022 年)。即,错误信息和社交机器人是危害网络安全的两大因素,它们将共同扩大影响,如图 1 所示。

(社交机器人扩大错误传播的一个例子。机器人会发布类似内容,扩大新闻传播,操纵公众情绪和立场,增加其危害性。)

        研究人员竭尽全力对抗永无休止的错误信息和恶意社交机器人的困扰。错误信息检测器主要关注文本(Hartl 和 Kruschwitz,2022 年)、图片(Liu 等人,2023a 年)或视频(Qi 等人,2023 年)等新闻内容,以及评论(Yang 等人,2023a 年)、新闻环境(Sheng 等人,2022 年)或相关证据(Grover 等人,2022 年)等外部信息。商业机器人检测器采用了特征工程(Yang 等人,2022 年)、NLP 技术(Lei 等人,2023 年)和图神经网络检测不断发展的社交机器人。与此同时,研究人员还探讨了不同类型的内容(Nan 等人,2021)、传播模式(Vosoughi 等人,2018)或时间特征(Shin 等人,2018)如何影响错误信息的传播。

        从社交机器人的角度来看,机器人社区(Tan 等人,2023b)、机器人如何影响政治宣传(Caldarelli 等人,2020)以及机器人的转贴行为(Elmas 等人,2022)都已得到研究。虽然这些研究为调查错误信息的形成和社交机器人提供了宝贵的见解,但对它们之间相互作用的关注相对较少

        本文旨在弥补现有研究的不足,研究错误信息的形成与社交机器人之间的相互作用。我们描述了社交机器人参与错误信息传播的决定因素,并提供了实证证据,基于一个新颖的大规模数据集分析了虚假信息和真实信息之间的差异。我们的研究有三个主要贡献:

        我们在新浪微博平台上提出了一个全面而大规模的数据集,据我们所知,这是同时包含多种模式的错误信息和社交机器人注释的最大数据集。该数据集包括 11,393 条错误信息和 16,416 条无偏见的真实信息,其中每个实例都包含多种模式,包括文章内容、评论、转贴信息、图片和视频。从用户角度来看,该数据集包括 952,955 个参与新闻讨论的用户,其中有 68,040 个注释社交机器人和 411,635 个真实账户

        我们提出了一种可扩展的弱监督框架来注释数据集中的账户。我们收集了 48,536 个活跃账户,并招募了 300 名注释者进行众包注释。然后,将机器人检测器作为活跃账户的多个专家进行训练。最后,我们采用专家混合方法,得到了一个校准良好的自动注释器。

        我们进一步进行了全面的实验和分析。结果表明,用户互动提高了检测性能。然而,社交机器人的行为会通过扩大新闻传播、放大回声、增加错误信息的危害性。

2 Data Collection

        本文主要关注新浪微博平台上的新闻文章和相关用户。我们的收集过程包括四个步骤: (i) 数据结构(Data Struc- ture),定义数据集结构;(ii) 假新闻收集(Fake News Collection),从微博平台收集假新闻和相关数据;(iii) 无偏差真实新闻收集(Unbiased Real News Collection),减少实体偏差;(iv) 弱监督用户注释(Weak Supervision User Annota-tion),自动注释账户。

        数据结构 我们从以中文为主要语言的微博平台上收集了一个大规模的多模态数据集。该数据集包含社交机器人和错误信息标签,有助于研究机器人在错误信息传播中的作用。我们的定义是,如果用户转发、点赞或评论了某篇新闻文章,即参与了新闻传播。

        形式上,网络新闻实例表示为A=\{s,I,V,G_{repost},G_{comment},U,y\},其中 s 表示新闻内容,I=\{l_i\} 表示相应的图片集,V = \{v_i\}表示视频集,Grepost 和 Gcomment 分别表示评论图和转贴图,U=\{u_i\} 表示参与新闻发布的用户集,y ∈ {0, 1} 表示该新闻是否为假新闻

        图 G = {V, E, T } 是一个动态文本属性图,其中节点 V 表示评论或转发文本,E 表示关系,T : V → R 表示每个节点的时间戳。 G 中的每个节点包含一个用户 u ∈ U发布的文本。对于每个用户 u,我们收集其在时间线中发布的文本 {ti} 和元数据 p,例如关注者计数。我们不收集用户的邻居信息,因为我们关注的是新闻传播而不是用户社区。

        虚假新闻收集 我们收集 2018 年 4 月至 2024 年 4 月期间微博上的错误信息。我们收集经微博管理中心官方判定为错误信息的新闻文章。此外,我们收集判断信息,这提供了证据并有助于打击错误信息。我们总共收集了 11,393 条错误信息。

        无偏见的真实新闻。收集现有的错误信息数据集通常存在潜在的数据偏差(Chen et al., 2023),尤其是实体偏差(Zhu et al., 2022),这会影响模型对未见数据的泛化能力。我们设计了一种实体去偏差方法来减轻实体偏差。我们首先使用关键词提取器(Liang 等人,2021 年)从每条错误信息中提取关键实体。然后,我们计算每个实体的出现频率,并删除出现频率小于 10 且长度为 1 的实体,得到 1,961 个实体。为确保真实信息的真实性和多样性,我们从两个来源收集真实信息: (i) 经过验证的新闻媒体;(ii) 平台上的趋势,分别获得 8,317 条和 8,099 条真实信息。

        弱监督用户注释 手动注释或众包是劳动密集型的,因此对于我们的大规模数据集来说并不可行。同时,为了确保数据集的可扩展性,我们提出了一种弱监督学习策略,允许自动注释账户。我们首先收集了微博上的 99,774 个账户,筛选出 48,536 个活跃账户,确保每个活跃账户包含不少于 5 篇文章,文章长度不少于 5 个字符。然后,我们将每个账号分配给 3 位注释者,以识别其是否为僵尸账号。每位注释者都熟悉微博和社交机器人,负责注释 1,000 个账户。根据 Feng 等人(2021b)的研究,我们设定了 20 个注释清晰的标准账户来评估注释者的表现。对标准账户的注释正确率超过 80% 的注释者的注释将被采用。

        然后,我们将该注释数据集按 8:2 的比例拆分,作为伪标签生成的训练集和评估集。我们采用基于编码器的语言模型,如 BERT和 DeBERTa,对用户发布的文本进行编码,并采用 MLP 对元数据进行编码,其中包含多个专家。然后,我们选择性能理想的专家进行组合,以获得最终预测结果。我们在附录 A 中介绍了相关细节。

A Annotation Details

A.1 Crowdsourcing Annotations

我们首先为注释者总结了识别微博社交机器人的一般标准,具体如下:

转发或发布大量广告。

明星的忠实粉丝发布了大量相关内容。

含有大量转发内容,缺乏针对性和原创性。

发布大量未经证实的负面信息

包含大量带有“自动”标志的推文。

重复发布内容相同的推文

含有违反相关法律法规内容的

在这些标准的指导下,我们招募了 300 名活跃的社交媒体用户的注释者,他们被要求阅读一份指南文件,其中我们解释了社交机器人的特征以及代表性示例。

每个注释者负责注释 1000 个账户,每个账户分配给 3 个注释者。我们还设置了 20 个标准问题,用户显然是社交机器人或人类。在标准账户中正确率超过 80% 的注释者的注释将被采纳。我们获得了 99,774 个账户,其中众包注释大约需要 60 天。

A.2 Annotation Quality

本节我们将进一步分析注释质量。我们计算了标准问题的平均准确率,准确率为 93.75%。然后,我们进行了弗莱斯卡帕(Fleiss' Kappa)来评估注释者之间的一致性,每 1000 个注释的平均值为 0.4281,表明注释者之间的一致性适中。

A.3 Weak-Supervised Expert Details

在这里,我们利用用户文件中的元数据和时间轴中的姓名、描述和推文等文本信息来训练符号专家,即生成伪标签的模型。

元数据 我们将元数据分为两种类型:数字元数据和分类元数据。对于数字元数据,我们采用了粉丝数、关注数和状态数。对于分类元数据,我们采用已验证、svip、账户类型和 svip 级别。然后,我们使用 MLP 层、随机森林和 Adaboost 对这些特征进行分类。

文本信息 我们使用时间线上的名称、描述和推文来描述帐户的文本信息。我们采用基于编码器的语言模型(包括 BERT 和 DeBERTa)对其进行编码,并使用 MLP 层对帐户进行分类。

集合 我们将元数据和文本信息串联起来,并将其放入 MLP 层,从而获得更全面的专家。在此,我们不使用网络结构信息来训练任何专家。

邻居信息在微博平台上很难获取,而且在推理过程中会付出很大代价。经过训练后,我们筛选出的专家准确率达到 80%,与众包注释时标准问题的准确率相同。

我们最终获得了四位专家:(i) 使用 BERT 训练的集合模型;(ii) 使用 DeBERTa 训练的集合模型;(iii) 使用 BERT 在推文中训练的文本模型;(iv) 使用 DeBERTa 在推文中训练的文本模型。然后,我们采用温度缩放来校准每个选定的专家。最后,每个专家的最佳温度分别为 1.057、1.111、1.265 和 0.877。然后,我们利用这些温度来校准对数,得到校准良好的符号专家。准确率达到83.96%。在实践中,我们将机器人阈值设置为0.75以获得更高精度的注释器。

        获得最终标注标签的传统方法是采用多数投票或在评估集上训练 MLP 分类器(Bach 等人,2017 年;Feng 等人,2022 年)。由于分类器的似然值可能无法准确反映真实概率(Guo 等人,2017 年),也称为误校准,因此我们在组合之前对似然值进行校准。我们采用温度缩放,并在验证集上选择最佳温度。最后,我们将校准后的似然值平均化,以获得最终注释,确保注释质量。

3 Experiment Settings

        基线 我们提出了一个如图 2 所示的普通模型来评估哪些信息有助于错误信息检测。该模型首先使用各种特征提取器来提取多模态信息:(i)内容,我们使用预先训练的 BERT 来编码内容; (ii) 遵循 Yang 等人的评论。 (2023a),我们将每个评论和相应的回复视为一个图,并使用 BERT 和 GCN(Kipf 和 Welling,2017)对其进行编码; (iii) 转发,与评论类似,我们使用 BERT 和 GCN 对每个转发图进行编码; (iv) 图像,我们采用预先训练的 swin Transformer (Liu et al., 2022) 来提取静态图像特征; (v) 视频,我们采用预训练的 Vidoe-MAE (Tong et al., 2022) 来获取视频特征。然后我们连接多模态特征以获得新闻表示 h。

        给定一个新闻实例 A 和相应的标签 y,我们计算 y 为正确预测的概率为 p(y | A) ∝ exp(MLP(h)),其中 MLP(·) 表示 MLP 分类器。我们使用交叉熵损失优化该模型,并预测最合理的标签为 arg maxy p(y | A)。

        我们进一步设计了各种变体,删除了某些组件以探索哪些组件对于检测至关重要。我们首先删除除内容之外的每个组件。然后我们设计(i)没有交互,删除评论和转发; (ii) 不使用 Vison 删除图像和视频; (iii) 不含额外内容,仅包含内容。

        数据集拆分我们根据主题对数据集进行拆分,以避免数据泄漏。我们进行十倍交叉验证以获得更稳健的结论。我们在附录 B 中提供了详细信息。

4 Dataset Analysis

 

简单的基线可以实现理想的检测性能,多模态贡献显着。 

新闻反应增强了模型的信息验证能力。

视觉模式只能稍微提高识别错误信息的能力。

我们的数据集是最大的多模态信息内容和注释社交机器人数据集。

假新闻的多模式内容与真新闻截然不同。

  • 15
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值