论文阅读 - VoterFraud2020: a Multi-modal Dataset of Election Fraud Claims on Twitter

本文链接：https://blog.csdn.net/qq_40671063/article/details/133926781

论文链接：https://arxiv.org/abs/2101.08210

摘要

1 Introduction

2 Data Collection

2.1 Streaming Twitter Data

2.2 覆盖率分析

3 Data Enhancement

4 Data Sharing and Format

摘要

围绕美国 2020 年大选，毫无根据的选举舞弊指控广泛传播，导致人们对选举的信任受到损害，最终导致美国国会大厦内的暴力事件。在这种情况下，了解 Twitter 这个传播这些主张的主要平台上围绕这些主张的讨论至关重要。为此，我们收集并发布了 VoterFraud2020 数据集，这是一个多模态数据集，包含 260 万用户的 760 万条推文和 2560 万条转发，与选民欺诈主张相关。为了使这些数据立即可用于各种研究项目，我们根据转发图计算的集群标签、每个用户的暂停状态以及推文图像的感知哈希值进一步增强数据。该数据集还包括推文中出现的所有外部链接和 YouTube 视频的聚合数据。对数据的初步分析表明，Twitter 的用户暂停行为主要影响了选民欺诈主张推动者的特定社区，并暴露了数据中共享的最常见的 URL、图像和 YouTube 视频。

1 Introduction

自由公正的选举是每一个民主国家的基础。2020 年的美国总统选举可能是此类事件中最具影响力和争议性的一次。三分之二有投票资格的人口参加了投票，投票率创下了过去 120 年来最高纪录（Schaul、Rabinowitz 和 Mellnik，2020 年）。民主党候选人乔-拜登（Joe Biden）当选为总统。

遗憾的是，在选举前、选举中和选举后，都有人试图使选举过程和选举结果非法化（"选举诚信伙伴关系"，2021 年）。关于选民舞弊的说法（其中大部分毫无根据）（Frenkel 2020）通过政客的公开声明、媒体以及社交媒体平台传播开来。因此，截至 2020 年 12 月，34% 的美国人表示不相信选举结果（NPR 2020）。此前的研究表明，关于 20 年来普遍存在选民舞弊的指控并没有可信的证据支持（Goel 等人，2020 年），而关于选民舞弊的指控则对选举公正性的信心产生了显著的负面影响（Berlinski 等人，2021 年）。事实上，2021 年 1 月 6 日，在美国国会投票确认拜登赢得大选时，暴民冲进国会大厦，认为大选是 "偷来的"。无论在理论上还是在实践中，未经证实的选民舞弊指控都会对选举的公正性和美国及其他国家的民主稳定产生重大影响。

Facebook、Twitter、YouTube 和 Reddit 等社交媒体平台在政治事件中发挥着重要作用（Vi-tak 等，2011 年；Allcott 和 Gentzkow，2017 年），2020 年大选也不例外（Ferrara 等，2020 年）。特别是，推特作为一个突出的公共广场，一直是公众和媒体关注的焦点，在这里，各种观点被采纳，各种主张--无论真假--被传播（沃索菲、罗伊和阿拉尔，2018 年；格林伯格等，2019 年）。因此，了解这一特殊平台上围绕选民欺诈主张的参与者、讨论、叙述和指控非常重要。在这项工作中，我们发布了 VoterFraud2020，这是一个包含 760 万条推文和 2560 万条转发的多模式 Twitter 数据集，这些推文和转发都与选民欺诈主张有关。我们使用一组人工编辑的关键词（如 "选民欺诈 "和 "#stopthesteal"），并通过数据驱动方法对其进行了进一步扩展，从而记录了 2020 年 10 月 23 日至 12 月 16 日期间的 Twitter 活动。考虑到 Twitter API 的限制（Morstatter 等人，2013 年），我们对数据流的限制进行了各种验证，并估计我们能够检索到包含我们抓取的关键词的约 60% 的数据。

我们进一步增强了 "VoterFraud2020 "数据集，以使更多的研究人员能够访问该数据集，并促进研究： (1)我们根据用户的转发模式网络将其聚类为社区，并发布每个用户的社区标签；(2)鉴于 Twitter 在大选后采取了广泛的暂停行动，我们抓取并收录了每个用户截至 2021 年 1 月 10 日的暂停状态；(3)我们计算并分享了数据中出现的 168K 张图片的感知哈希值；(4)我们汇总并分享了推文中出现的 138K 个外部链接的元数据，其中包括 12K 个独特的 YouTube 视频。我们的数据集还能帮助研究人员计算推特与所收集的推文、用户和媒体项目之间的互动量，包括转发数和来自不同群组或停用用户的引用数。

初步分析发现，有一大批用户在宣传与选举舞弊相关的主张，其中近 7.8%的用户在 1 月份被暂停使用。暂停第十五届国际 AAAI 网络与社交媒体会议（ICWSM 2021）论文集》重点关注集群中的特定社区。基于视觉相似性对图片分布进行的简单分析表明，被广泛分享的图片（按推文数量计算）和被转发最多的图片是不同的。虽然最近的研究表明，选民欺诈的说法主要是由大众媒体推动的（Benkler 等人，2020 年），但我们也发现，这些说法的推动者所引用的外部链接大多指向低质量的新闻网站、流媒体服务和 YouTube 视频。一些声称选民舞弊 "证据 "最广泛的视频是由小得出奇的渠道发布的。最令人吃惊的是，截至2021年1月11日，YouTube上所有传播选民舞弊主张的十大频道和视频仍然存在。

我们相信，"VoterFraud2020 "的发布将有助于广大研究界在关键时刻更好地理解这一重要话题。

2 Data Collection

我们的数据收集过程包括使用数据驱动的人工编辑的关键词和标签集对 Twitter 数据进行流式处理。我们报告了所收集数据的跨度和数量，以及估计其覆盖范围的分析。

2.1 Streaming Twitter Data

我们采用数据驱动法，以迭代方式生成与选举舞弊指控相关的关键词和标签列表。

我们从一个短语和两个关键词开始：选民欺诈和 #voterfraud。我们首先使用了 1,100 万条政治推文的样本，其中包括 2,262 名美国政治候选人的推文以及对这些推文的回复，这些推文是在 2020 年 7 月 21 日至 10 月 22 日期间使用 Twitter Streaming API（Twitter 2019）收集的。

然后，我们确定了与元种子关键词 "选民欺诈 "和 "选民诈骗 "同时出现的标签。我们选取了至少在 10 条推文中出现，且至少有 50% 的时间与元种子关键词中的任一关键词同时出现的所有标签。

最后，我们人工筛选出与选民欺诈没有直接关系的标签。为此，研究小组的两名成员对这些标签进行了审查，包括在必要时在 Twitter 上搜索这些标签，以确定它们是否会产生相关结果。只有两个评估者都同意的标签才会被添加进来，这样就形成了一组初始标签，并将其添加到两个原始关键词中。

为了找到更多相关的主题标签，我们计算了每个种子主题标签与新信息流中出现的所有其他主题标签之间的杰卡德系数。我们将杰卡德系数大于 0.001 的所有主题标签与任何种子主题标签添加到集合中。该团队的三名成员再次审查了该列表，方法是：1）排除与选民欺诈无关的主题标签，2）添加与主题标签相对应的关键字（例如#discardedballots对应于废弃选票），3）添加研究人员在搜索生成列表中的标签时观察到的相关标签或关键词。附录（表 4）中包含了种子列表和我们用于流式处理的关键词和标签的最终列表。

我们使用 Twitter 流 API (Twitter 2019) 收集数据。 VoterFraud2020 数据集包括从 2020 年 10 月 23 日 17:00 到 2020 年 12 月 16 日 13:00 的推文。

我们在 10 月 31 日用其他关键字扩展了关键字列表，并在 11 月 3 日开始流行时添加了#stopthesteal。在流式传输时，我们存储每条推文的元数据（例如用户 ID、文本、时间戳）。我们还下载了推文中包含的所有图像媒体项目。我们总共收集了 3,781,524 条原始推文、25,566,698 条转发和 3,821,579 条引用推文（即包含对另一条推文的引用的推文）。请注意，当新推文或引用的（引用的）推文包含列表中的关键字或主题标签之一时，引用推文将包含在 Twitter 流中。我们总共收集了 2,559,018 位用户发布、分享或引用带有这些关键词的一条或多条推文的推文。

2.2 覆盖率分析

由于Twitter流API只提供了推文的样本，尤其是对于大容量关键词（Morstatter等人，2013年），我们进行了多次测试，以评估和估计VoterFraud2020数据集的覆盖范围。这项分析表明，该数据集涵盖了 Twitter 上使用我们追踪的关键词所分享内容的 60% 以上。

转发和引用覆盖率。我们通过比较这些对象在信息流中的计数与 Twitter 的元数据来评估转发和引用推文的覆盖率。当原始推文的新转发出现在信息流中时，应用程序接口会返回推文的元数据，包括原始推文的当前转发数和引用数。换句话说，如果原创推文 ti 被转发，它将作为转发推文 rtj 出现在信息流中，而 rtj 的元数据将包括 ti 到目前为止的转发总数。根据这些元数据，很容易将转发覆盖率定义为：流式传输并存储在数据集中的转发总数（rt 对象）与 API 在每条原始推文中最新 rt 转发返回的原始 t 条推文的所有转发数总和之比。引用覆盖率的定义与此类似。根据这一分析，VoterFraud2020 数据集捕获了 63.2% 的转发推文和 62.6% 的引用推文。这些结果与之前的研究相比有很大不同，之前的研究表明，通过流 API，单个 API 客户端只能捕获 37.6% 的转发（Morstatter 等人，2013 年）。

与 #Election2020 比较。为了进一步评估选民欺诈推文的覆盖范围，我们将数据集与之前发布的美国 2020 年大选推特数据集（Chen、Deb 和 Ferrara，2020 年）进行了比较。#Election2020 数据集的创建者使用流 API 跟踪了 168 个与大选广泛相关的关键词和 57 个与总统候选人相关的关键词。

与 VoterFraud2020 一样，关键词 "选民欺诈 "也用于收集 #Election2020 的数据。我们利用这种重叠来估计我们的覆盖范围。首先，我们可以直接比较两个数据集中 "选民欺诈 "推文的相对数量和重叠程度。我们预计 VoterFraud2020 将会有由于其关键词更集中，因此此类推文的数量更高。其次，如果我们假设两个信息流的取样都是独立和随机的，那么我们可以通过观察同时出现在我们数据中的 #Election2020 tweets 的比例来估计 VoterFraud2020 的覆盖率。

为此，我们从两个数据集中提取了 11 月 3 日大选数据发布后两天内包含该关键词的所有推文和转发： 11 月 6 日和 11 月 13 日。12 月 17 日进行的分析仅限于这两天，因为我们必须通过 "水合"（即使用推文 ID 通过 Twitter API 获取推文全文）来获取 #Election2020 数据集中的推文内容。由于账户不活跃和推文被删除等原因，我们无法对全部数据进行水合。水合后，我们获得了 11 月 6 日 #Election2020 数据的 92.4%（共计 140 万条推文/350 万条转发），以及 11 月 13 日数据的 91.1%（130 万条推文/300 万条转发）。

总体而言，我们的VoterFraud2020数据包括11月6日的45,322条 "选民欺诈 "相关推文，是#Election2020记录的2.3倍。11月13日的比例更高，我们获得了47313条推文，是#Election2020的3.1倍。图 1 按日期（用行隔开）、两个数据集（用不同颜色）对覆盖率进行了细分。

从左到右，条形图分别显示了仅在我们的数据集中（深蓝色）、在两个数据集中（浅蓝色）以及仅在 #Election2020 中（黄色）出现的推文的百分比。在任何一天，VoterFraud2020 数据集中与选民欺诈相关的推文都要多得多，尤其是在估计总量较低的情况下。在 11 月 13 日（第二行），VoterFraud2020 包含了 95.7% 的合并数据（左侧两个条形图），而 #Election2020 只包含了 30.7% 的推文（右侧两个条形图）。这些数字还表明，VoterFraud2020的样本包含了11月6日#Election2020中32.1%的相关样本和11月13日85.9%的相关样本。我们承认这两个数字并不一致，可能是因为11月6日的活动量要大得多。如果这些样本确实是独立的，那么这意味着我们的覆盖率下限是 11 月 6 日的 32.1%。

根据这些覆盖面分析，我们得出结论，在提交报告时，"2020 年选民欺诈 "是已知的最大的公开 Twitter 数据集，其中包含选民欺诈指控和讨论。

3 Data Enhancement

为了确保数据的可重用性，我们采取了以下步骤来增强原始流数据。

根据转发图谱对用户进行社区分析，并发布社区标签。考虑到 Twitter 大规模暂停账户以及公众对这些行为的兴趣，我们还在 1 月 10 日向 Twitter 查询了每个用户的状态，并将用户状态共享为活跃/未找到/暂停。此外，为了能够研究图像和视觉错误信息的传播，我们使用感知哈希对推文中共享的所有图像进行编码，以便轻松比较和检索数据中的相似内容。最后，我们发布数据集中出现的 URL 集，以及每个 YouTube 视频 URL 的 YouTube 元数据。

转推图社区。为了理解推特上的政治对话，以往的研究经常对转推网络进行分析（Arif、Stewart 和 Starbird，2018 年；Cherepnalkoski 和 Mozetiˇc，2016 年）。利用社区检测算法，研究人员能够研究围绕热门政治话题讨论的关键参与者、分享模式和不同方面的内容。为了计算这些社区，我们首先构建了 VoterFraud2020 数据集的转推图，其中节点代表用户，有向边对应于一个用户（边的目标）转推另一个用户（源）。边的权重根据目标用户转发相应源用户的次数来确定。结果网络由 1,887,736 个节点和 16,718,884 条边组成。

为了检测图中的社区，我们使用了 Infomap 社区检测算法（Bohlin et al. 2014），该算法捕获有向网络中的信息流。使用默认参数，该算法会生成数千个社区。通过排除包含少于 1% 节点的所有社区，我们剩下 90% 的节点，它们聚集成五个社区（参见表 1）。

在图 2a 中，我们使用 Gephi（Bastian、Heymann 和 Ja- comy，2009 年）中的 Force Atlas 布局，以 44,474 个节点和 456,372 条边为随机样本，将转推网络可视化。如表 1 所述，节点根据计算出的群落着色。边按其源节点着色。可视化显示节点被分成两个不同的群组：左侧为 0 社区（蓝色），右侧为 1、2、3 和 4 社区。通过研究每个社区的顶级用户，我们得出结论：社区 0 主要由倾向于反驳和诋毁选民舞弊主张的账户组成，而右侧社区则由宣传选民舞弊主张的账户组成。为简洁起见，在以下分析中，我们将左边的群组称为反驳者群组，将右边的1,2,3,4群组称为促进者群组。

与社区 1 相比，社区 2 更深入地嵌入到发起者集群中，因为我们观察到来自社区 1 的推文被左侧的社区 0 转发，但社区 2 没有转发。在我们的数据中，除了社区 3 的用户主要用日语发布推文和社区 4 的用户主要用西班牙语发布推文外，其他用户的推文都是用英语撰写的（这并不奇怪，因为我们追踪的是英语关键词）。我们在附录中列出了按社区转发次数排序的各社区前五名 Twitter 帐户的名单。

需要注意的是，由于美国政治的党派性质，大多数推动者用户可能与右倾政治保持一致，而反对者用户则与左倾政治保持一致。通过观察每个集群中转发量最高的 10 个领域（表 2），并将这些来源与 AllSides2 和 Media Bias/Fact Check3 的政治倾向性评估结果进行关联，我们得出结论：促进者集群分享的最多新闻来源中有 90% 是右倾的，而反对者集群分享的最多新闻来源中有 90% 是左倾的。为了识别这两个集群中的突出用户，我们计算了每个集群中用户节点的接近中心度。在转发网络中，这一指标可解释为用户向网络中其他用户传播信息的能力（Okamoto、Chen 和 Li，2008 年）。我们计算了顶k接近中心度，以找出诋毁者和促进者聚类中最中心的10,000个节点（Bisenius等人，2018）。

数据集包括用户的社区标签及其所在集群（减损者集群和促进者集群）的接近中心度得分。对于一条推文 ti，社区 X 的转发数是它从社区 X 的每个用户 uX 处收到的转发总数 rti。

标记暂停和删除的用户 2021 年 1 月 6 日，当选举团确定选举结果时，关于选民舞弊的指控出现了戏剧性的转变，最终导致了美国国会大厦的暴乱。随后，Twitter 对其平台上的内容采取了更严厉的审核措施，并暂停了至少 7 万个参与传播阴谋论和分享 QAnon 内容的账号（Twitter 2021）。这一禁令对试图了解推特上选民欺诈指控传播情况的研究人员产生了重大影响，因为推特 API 不允许 "水合 "被暂停用户的推文。

为了了解数据集中暂停的分布情况，我们查询了更新后的数据集中所有用户在 1 月 10 日（即禁令发布后几天）的用户状态。Twitter API 返回的用户状态显示用户是活跃、暂停还是未找到（可能已删除）。在我们的数据中，总共有 3.9% 的账户（99884 个账户）被暂停活动。

在图 2b 中，我们根据每个用户的暂停状态（橙色的暂停用户）对随机采样的转发图中的节点进行着色。该可视化显示了 Twitter 的暂停工作主要针对推广者集群内的用户。在我们的数据中，我们发现排名前五的社区中 88.3% 的暂停用户属于该集群。此外，该图显示暂停与图 2a 中的社区有很大重叠。下面的数据分析部分提供了有关此重叠和暂停用户的更多详细信息。

我们通过标注被暂停的推文和用户来增强 VoterFraud2020 数据集。这些元数据将有助于对暂停的推文进行研究，并通过允许水合器跳过不再可用的内容来简化推特数据的水合。与此相关，我们还为每条推文加入了两个附加指标：被暂停用户的转推数和被暂停用户的引用数。

由于其巨大的公共兴趣，我们保留了从 99,884 名被暂停用户那里获取的全部数据，其中包括 1,240,405 条推文和 6,246,245 条转发。这些详细数据不是 VoterFraud 2020 的一部分。不过，我们将应要求向公开发表的学术研究人员分发该数据的匿名版本。

图片。由于其说服力和易于传播，人们越来越有兴趣分析视觉错误信息如何在平台内或跨平台传播（Zannettou 等人，2018 年；Highfield 和 Leaver，2016 年；Paris 和 Donovan，2019 年；Moreira 等人，2018 年）；Zannettou 等人，2020）。然而，由于计算和存储成本的原因，图像或视频等视觉信息对于许多研究人员来说很难研究。在这里，我们通过共享这些图像的感知哈希值，使研究人员更容易使用 VoterFraud2020 中共享的图像内容信息（Petrov 2017；Zauner、Steinebach 和 Hermann 2011）。常见的感知哈希是二进制字符串，其设计使得两个哈希之间的汉明距离（Zauner、Steinebach 和 Hermann 2011）接近当且仅当两个对应图像在感知上相似时。换句话说，仅经过轻微变换（例如通过重新调整大小、裁剪或旋转）的图像将具有与原始图像相似的哈希值。

有了这些数字哈希值，研究人员就能轻松找出推文中重复和接近重复的图片，而无需直接处理繁琐的图片内容。为此，我们下载了流数据中推文中发布的所有图像媒体项目，并用三种不同类型的感知哈希值对其进行编码。由于感知相似性的定义往往是主观的，而且底层算法也往往不同，因此各种哈希函数在处理各种类型的图像转换时具有不同的性能特征。因此，我们使用三种感知哈希函数对数据集中的图像进行编码：感知哈希（pHash）、平均哈希（aHash）和小波哈希（wHash）（Petrov，2017 年；Zauner、Steinebach 和 Hermann，2011 年）。

我们的流式推文总共包含 201,259 个图片 URL，其中 167,696 个在流式传输过程中被成功检索。我们将在第 5 节中提供有关这些图片分布的更多细节。

外部链接。众所周知，虚假信息传播活动通常会通过链接到其他网站来使用广泛的跨平台信息（Wilson 和 Starbird，2020 年；Golovchenko 等，2020 年）。因此，我们提取并发布了推文中引用的外部（非推特）URL。为便于使用，我们将指向重定向链接的 URL（如 bit.ly URL）解析为其最终目标 URL。我们的推文流共引用了 138,411 个独特的 URL，出现在 609,513 条推文中。由于数据中所有 URL 的很大一部分（超过 12%）都是 YouTube 链接，因此我们使用 YouTube 特定的元数据进一步增强了数据。这种特定关注的一个关键动机是众所周知的 YouTube 在传播错误信息方面所扮演的角色（Hussein, Juneja, and Mitra 2020; Papadamou et al. 2020），特别是它在 2020 年选举和选民欺诈指控中所扮演的角色（Kaplan 2020; Papadamou et al. 2020）。 Wak- abayashi 2020）。对于在收集的推文中共享的每个 YouTube 视频，我们使用 YouTube 的数据 API (YouTube 2021) 来检索视频的标题、描述以及发布该视频的频道的 ID 和标题。我们检索了 2021 年 1 月 1 日的 YouTube 元数据。

4 Data Sharing and Format

我们的 VoterFraud2020 数据集可根据 FAIR 原则（Wilkinson 等人，2016）以 CSV 格式下载4。这些数据包括推文、转发和用户的“项目数据”表，这些表由 Twitter 分配的 ID 键入，并使用附加元数据进行扩充，如下所述。数据还包括数据集中出现的图像列表，通过随机生成的唯一 ID 进行索引。最后，数据包括 URL 和 YouTube 视频的聚合表，包括第 3 节中描述的信息。数据集表及其包含的字段在 Github5 上进行了总结。 VoterFraud2020 数据集符合 FAIR 原则。该数据集是可查找的，因为它在 Figshare 上公开提供，具有数字对象标识符（DOI）：10.6084/m9.figshare.13571084。它也是可访问的，因为世界上任何人都可以通过链接访问它。数据集采用 csv 格式，因此它是可互操作的。我们在 https://voterfraud2020.io 上发布了完整的数据集及其详细描述，以及用于探索数据集的在线工具，使研究社区可以重复使用该数据集。

推文和转推表包含收集的完整项目集，包括来自暂停用户的项目。根据 Twitter 的服务条款，这些表不包括 ID 之外的原始推文数据。然而，为了支持数据的使用而不需要下载（“水合”）全套推文，我们用几个关键属性扩充了推文表。对于每条推文，我们提供由 Twitter 计算的总转发次数（转发/引用计数元数据），以及我们从五个主要社区中每个社区的用户为该推文流式传输的转发和引用数量（转发/引用计数元数据）。引用计数社区 X，X 范围从 0 到 4）。请注意，由于第 2.2 节中列出的覆盖范围问题，后者不计入 Twitter 元数据转发计数。 Tweet 表属性还包括发布推文的用户的用户社区 (0–4)，使用第 3 节中列出的方法计算。一些 Twitter 帐户未聚集到五个主要社区之一。在这种情况下，用户社区标签为空。通过这种增强，使用该数据集的研究人员可以非常快速地选择并合并来自社区 2 中非暂停用户的转发最多的推文的子集。由于推文本身和发推文的用户的 ID 并不相同。在水合之前可用，Twitter 用户的隐私得到保护。