论文阅读： BotCamp: Bot-driven Interactions in Social Campaigns WWW 2019_botcamp : bot-driven interactions in social campai-CSDN博客

机器人（即自动账户）参与社交活动通常有两个明显的原因：以无机方式影响公众舆论，以及利用社交活动的有机受欢迎程度来建立社会资本。在此过程中，机器人相互交互并参与人类活动（例如点赞、转发和关注）。
在这项工作中，我们检测到大量对政治感兴趣的机器人。我们执行机器人的多方面（即时间、文本和地形）聚类，并集成集群以识别机器人的活动。我们观察到活动中机器人之间在时间相关性、情感对齐和主题分组等各个方面的相似性。然而，我们也发现机器人在获得人类注意力方面，偶尔也会参与争论。我们将此类机器人交互分为两个主要组：同意（即积极）和不同意（即消极）交互，并开发一个自动交互分类器来发现参与社交活动的机器人之间的新交互。

2 绪论

社交网站拉近了人与人之间的距离，促进了快速便捷的信息流动。然而，现代社交媒体网站受到用户账户的影响，这些用户账户致力于快速、自动化地建立社会资本并利用社会影响力来影响公众舆论。此类用户账户（通常称为机器人）执行计划发布 [26]、近乎自动化的注册 [27] 和按时间顺序删除 [11] 以及许多其他非社交和非人类行为。

为了倍增效果，botmasters 不是创建超级智能机器人，而是使用大量幼稚的 bot 账户来获得他们的目标。毫不奇怪，人类倾向于相信反复遇到的来自不同来源的信息 [22]。因此，一群机器人可能会成功地开展广告活动以推广产品、竞选活动以赢得比赛，以及组织活动以招募意识形态团体。为了了解机器人群的最大潜力，在本文中，我们对社交活动中的机器人活动进行了实证研究，并开发了一种技术来检测和分类社交活动中机器人驱动的交互。

量化社交活动中由机器人驱动的交互对政党、广告公司、慈善组织等许多方面很有用。机器人参与活动的早期检测和特征将有助于活动有机地蓬勃发展。

图 1 给出了 2016 年美国总统大选时 Twitter 中的机器人行为示例。用户账户 @JaredWyand 是特朗普竞选活动的积极支持者。由于其高频率的推文和内容相似性，该账户已被 DeBot [9] 和 Botometer [12] 系统检测到。该账户目前已被 Twitter 暂停。

此处显示的推文已被转发 1.2K 次。在那之后不久，另外两个用户复制了这条推文[6]。这些用户也被 DeBot （www.cs.unm.edu/~chavoshi/debot/）和 Botometer检测为机器人，但在撰写本文时，他们并未被 Twitter 暂停。推文的内容表明，机器人账户通过频繁标记相关主题标签来宣传 Twitter 排名系统中的特定主题。内容显示，机器人账户正在跟踪竞争政治活动的进展。

请注意，每个机器人账户都有一个人类所有者，他可以在预定的帖子之间以自然语言发布。该示例演示了机器人账户协作实现一个目标，即使主题成为趋势。它还表明，机器人对竞选活动表现出负面情绪。

在这项工作中，我们开发了一个系统来检测按一般主题分类的活动中由机器人驱动的交互。例如，我们检测到在“U.S. 2016 年选举主题”。机器人驱动的三个竞选活动都站在候选人一边。其余两个由机器人驱动的活动的目标是通过采用美国大选等热门话题来吸引人们的注意力。我们的系统名为 BotCamp，持续收集给定主题的机器人，并使用 DeBot 系统检测机器人 [9]。

BotCamp 识别在活动主题上发布类似内容的机器人，并长期积累此类机器人，以在转推、提及、共享媒体和主题标签等各个方面创建图形结构。我们开发了一种启发式集群集成方法来组合从这些图中检测到的社区，从而发现机器人驱动的交互。

在这项工作中，我们收集了与美国大选中的社会运动相关的机器人活动。我们分析活动以了解活动结束后的信息流和状态。所有数据和代码都公开。

本文的其余部分包含相关工作和背景的讨论部分 (2)，描述框架的概述部分 (3)，显示集成和交互分类器评估的实验部分 (4)，最后一部分总结了工作 (5 ).

免责声明：我们不解决“谁”创建和操作机器人账户的问题。我们将机器人定义为显示出自动化迹象的账户。我们收集关于“机器人如何”参与社交活动的经验证据，以及机器人“为什么”参与。据我们所知，这项工作是最早在社交媒体上推广机器人交互的工作之一。

3 相关工作

3.1 Related Work

我们的工作结合了社交媒体上两个独立的研究流：活动检测和机器人检测。

活动检测工作主要集中在基于消息传递的一个特定方面寻找活动，例如消息相似性 [19][18][23]、URL 突发 [20]、转推结构 [17]。我们结合了其他几个消息传递方面，例如提及、主题标签和媒体共享。所有这些工作都在一些消息传递图中检测集群/社区。此类社区可能包括机器人和人类，因此现有工作无法将活动的机器人驱动部分分开。

美国国防部高级研究计划局(DARPA)机器人挑战赛表明，估计有15% 的 Twitter 账户是机器人(Bot)[25]。现有的机器人检测技术要么是有监督的[12][14] ，要么是无监督的[9]。由于我们的目标是识别具体的活动机器人，我们选择了一种无监督的技术，DeBot [9]。

先前已经研究了与活动相关的机器人活动，将机器人活动与政治实体相关联 [16][3][24]。我们的目标是在数千个机器人账户的更大范围内探索政治以外的体育、娱乐、营销等领域。

机器人已根据其作为个人用户的角色进行分类，与他们参与的活动无关 [21]。相比之下，我们根据机器人在社交活动中的交互类型对机器人进行分类。

2.2 Social Campaigns

文献中对活动的定义多种多样，主要归因于不道德和非法的社会运动案例。例如，协调活动 [19]、垃圾邮件活动 [13]、促销活动 [15]、欺诈活动 [8] 和激励活动 [4、5] 是活动的一些特征。

一般来说，我们将社交活动定义为与一群人想要实现的目标相一致的一组概念。例如，#antivax 和#autism 是那些想要废除疫苗接种的人所支持的概念。另一个例子是彼得·邓恩 (@PeterThePlanner) 在印第安纳州发起的一项筹款活动，旨在在暴风雪袭击印第安纳波利斯之前立即支持无家可归的人。 @WheelerMission 从各个组织和个人那里有机地筹集了 41,000 美元。因此，不应将社会运动视为纯粹的无机或有机的。相反，考虑到人类和机器人共同参与，我们建议量化机器人和人类在社交活动中的参与程度。量化竞选活动的有机参与对政党、广告公司、慈善组织等许多方面都非常有用。

2.3 Bot Detection

自动账户，也就是机器人，总是在发推文/转发推文。机器人由计算机程序控制。可能存在无害的自动化账户，例如@countforever，但大多数机器人会伪装成人类，诱使人们关注它们和/或分享想法。 DeBot 是一个无参数的无监督系统 [9]，它不断地从 Twitter 收集数据，并每隔180分钟，根据机器人的同步性检测它们。 DeBot 在一个时间间隔内检测到的机器人数量取决于主题、一天中的时间、机器人的存在率和采样率。请注意，Twitter 流 API 提供了 1% 的样本。在一个成功的间隔中，DeBot 检测到几个包含数十个机器人的机器人集群。

DeBot 是一个近乎实时的系统，它利用用户之间极不寻常的活动相关性作为机器人行为的指标。作者表明，即使数百万活跃用户在某个时间实例进行交互，人类用户也不太可能随机发布超过数十个同步帖子 [10]。虽然我们使用 DeBot 作为检测系统的一个组成部分，但我们可以用任何其他特定主题的近实时系统来替换 DeBot。

3 .机器人在活动中的互动

3.1 框架

图 2 显示了 BotCamp 框架。该系统由三个组件组成：关键字生成器、活动检测器和交互检测器。我们描述了下面的每个组件。

关键字生成器。BotCamp不断收集流行的标签，以保留与种子关键词集的相关关键词。这样一个关键词生成器背后的动机是为了适应不断变化的活动动态。与活动相关的趋势性关键词可能会经常改变。例如，例如，为了监控美国大选，我们从 20 个关键字的种子开始，包括选举、特朗普、克林顿等一般主题。美国大选后，种子集增长到 231 个关键字，包括 MAGA（“Make美国再次伟大”）、PodestaEmails 和 CrookedHillary。我们每三小时收集一次 twitter 中的前 50 个趋势。如果包含趋势的 tweet 中有50% 以上也包含种子关键字，那么我们将趋势添加到种子集中。在短期活动中，由于活动缺乏动态，种子集几乎保持不变。在长期的竞选活动中，可以根据关键词的新近程度对关键词进行加权。关键词可以是支持或赞成参与竞选的政党。我们已经为美国数据集手动标记了与关键字相关的情绪。

活动检测器：我们在一个 DeBot 系统实例中使用关键字，该系统在三个小时的间隔内检测同步机器人。我们使用推荐的 0.99 相关性阈值来检测机器人。 DeBot 输出机器人集群，我们进一步分析这些机器人集群以检测时间同步和文本相似的机器人集群。 BotCamp 累积机器人的持续时间足以使活动达到稳定状态。我们为所有实验积累了至少一周的机器人。收集机器人后，我们生成五个图表，捕捉活动的各个方面（例如转发图、主题标签图等）。 BotCamp 基于模块化优化算法 [7] 在这些图中检测社区。我们开发了一种集群集成技术，将不同方面的社区组合成代表活动的共识社区。

交互检测器：BotCamp 由一个分类器组成，该分类器对成对的活动之间的交互进行分类。分类器在一组手动标记的交互上进行训练。我们考虑两种类型的交互：同意和不同意的交互。我们构建了一套94个新的特征，这些特征对各种互动类型有指示作用。分类器是 AdaBoost 集成分类器，我们使用分类器对所有可能的交互活动对进行分类，并量化机器人对活动的参与。图 3 显示了此类交互的示例。

在接下来的两节中，我们将详细介绍活动和交互检测器。

3.2 活动检测器

我们的活动检测系统是一个两步过程：内容匹配和图聚类。

3.2.1 Content Matching

DeBot 产生了一组异常同步的机器人。尽管一组不太可能同步的机器人通常会针对一个活动进行工作，但可能会有一些虚假地同步组，它们只是天真的周期性的。在这一步骤中，我们检测那些不仅在接近的时间实例上发帖的机器人，而且还发布类似的内容。

我们考虑 DeBot 检测到的每个同步集群，并计算集群中机器人之间的文本和主题标签相似度。两个用户 u 和 v 之间的文本相似度由他们的一元组的 Jaccard 相似度定义。更准确地说，如果 G (u ) 是从 u 发出的推文中提取的一元组，不包括停用词，则 u 和 v 之间的文本相似度：

聚类 C 内的相似度为：

两个用户 u 和 v 之间的标签相似度由他们的标签集的 Jaccard 相似度定义。更准确地说，如果 H (u ) 是从 u 制作的主题标签中提取的一元组，则 u 和 v之间的主题标签相似性：

集群 C 内的标签相似度为：

我们将微活动定义为时间同步的机器人集群 C，其 SimText (C)≥ 0.5 或 SimHashtags (C)≥ 0.5。请注意，此类微活动是基于三个小时的信息形成的。

3.2.2 Graph Construction

一旦 BotCamp 在活动期间累积在三个小时的批次中检测到的微活动，系统就会创建五个图表，即：转发、媒体、主题标签、提及和时间图。目的是研究微活动在活动期间各个方面的潜在互动。由于这些图表是基于三小时长的捕获，因此这些图表是我们在拥有所有可用数据时可以生成的图的粗略近似值。我们将在下面描述这些图表。

Retweet Graph

转发通常意味着认可。因此，我们创建了一个无向转推图，其中的节点是机器人，当两个机器人互相转推至少一次时，我们在它们之间添加一条边，以编码它们的相互认可。相比之下，我们可以通过添加从转发节点到原作者节点的边来创建一个有向转推图。

Mention Graph

在公共对话中，机器人会在推文中提及（即在账户名称前添加@）其他账户。提及通常用于引起被提及的人的注意。因此，提及对于表达同意、不同意、认可、促进等很有用。如果它们相互提及，我们通过在两个机器人之间添加一条边来创建一个提及图。

Media Graph

同一活动中的机器人会传播相同的信息。与推文相比，照片和视频的创建成本通常更高，但此类媒体更具吸引力。确定的活动花费资源来创建媒体并使用自动账户来共享媒体。我们通过连接共享完全相同的 URL 媒体的两个机器人来在机器人上创建媒体图。

Hashtag Graph

Hashtag 是一种组织内容以便更好地搜索的强大方法。信息搜索者经常使用主题标签来了解有关某个主题的讨论项目。竞争激烈的竞选活动在共同讨论主题（例如#Oscars）上争夺强势地位。活动还希望使主题标签成为趋势（参见图 1）。因此，标记相同的主题标签可能意味着同意或不同意；比提到的要弱。如果两个机器人有超过 50% 的共同标签（即，我们在他们创建主题标签图。

Temporal Correlation Graph

同步机器人活动表明机器人使用相同的调度程序（例如随机发布间隔生成器或人类领导者）。如果两个机器人在其活动生命周期中至少相关一次，并且相关时间间隔为3小时，那么我们在它们之间添加一个边，而不管它们的内容相似度如何。由于我们使用的是 Debot，因此我们知道所有机器人与其他机器人至少有一次时间相关，但是，该图揭示了可能在活动生命周期内发生的进一步相关性。

3.2.3 图聚类和集成

我们考虑通过对上一节中提到的单个图形进行聚类，并在各方面对聚类进行组合，从微型活动中建立更大的运动。

为了对图进行聚类，我们使用了一种称为 Louvain Modularity 的最先进技术来聚类机器人 [7]。该算法采用贪婪模块化优化方法，具有线性复杂度，因此在大型数据集上运行速度快。我们分别在五个图上运行算法。对于每个图，我们生成机器人集群，因此，每个机器人将属于五个不同方面的集群。

来自五个图表的集成集群可以检测独立方面无法揭示的有趣模式。我们提出了一种集成方法来检测活动。首先，我们定义参与活动的机器人之间的相异矩阵 A，我们将两个机器人之间的成对距离计算为：

其中 Community(i) 是指用户 i 所属的社区集合。得到的距离矩阵 A 包含介于 0 到 1 之间的归一化值。其中 0 表示两个机器人出现在所有图中的同一集群中，1 表示这两个机器人没有出现在任何公共集群中。然后，我们使用平均链接层次聚类对机器人进行聚类，并选择一个限制性阈值来阻止不必要地聚类合并。合并从最相似的机器人开始，当阈值为 0.8 时停止。选择所选阈值是因为如果所有机器人平均与活动中的所有其他机器人共享一个公共社区，它将在一个社区中集成机器人。为了验证，我们对美国大选中的标记机器人样本进行了一个小型实验，其中标签是特朗普或克林顿的支持者，我们使用不同的阈值并使用标记数据报告归一化互信息 (NMI)。据报道，最大的 NMI 为 0.8。

3.3 交互检测器

一旦我们找到一组活动，我们就有兴趣研究它们之间的交互。最简单的起点是考虑成对交互。我们考虑开发一个机器学习的分类器，将互动自动归入同意和不同意的类别。

我们通过手动检查来自两个活动的机器人参与的推文、回复和转发来标记一对活动之间的交互。这种交互可以大致分为两类：同意和不同意。引言中的示例可以被视为特朗普和克林顿支持机器人之间不同意的互动。可以考虑在 -3 和 3 之间创建一个完整的类，0 是中性类，而不是二类问题。但是，为数百对活动标记的成本是巨大的。相反，任何中性相互作用也可以被认为是弱一致性，因此，选择了两类公式。我们手动标记了 80 个活动交互，其中 57.5% 是不同意交互，42.5% 是同意。

3.3.1 特征生成和选择

我们从一组 94 个特征开始。这些特征来自四类：基于时间的、基于情感的、基于用户的特征和基于网络的特征。我们描述了下面每个类别的特征子集。

基于时间的特征：时间特征有助于揭示协作实现相同目标或由相同软件操作的机器人。诸如时间相关的机器人数量之类的特征对于理解一对活动之间的关系很有用。同样，提及之间的平均间隔时间和对话交互中涉及的机器人数量可以指示交互类型。通常，提及之间间隔很小的对话可能表明存在争论和分歧。

基于情感的特征：虽然转发互动几乎总是表示同意，但提及互动本质上是有争议的。机器人和机器人可以参与争论以支持或攻击某个主题。为了了解这些对话的性质，我们使用 IBM Watson 自然语言理解 API [1] 调查每个对话中的实体情绪。对于每个对话，我们创建各种特征来描述情绪分歧的数量、所有实体的平均情绪差异，以了解机器人对主题的观点极性。

基于内容的特征：通常，具有共同目标的活动往往对特定主题的共识多于分歧，反之亦然。我们创建了表征两个交互活动之间关系的特征。示例包括两个活动之间的共同主题、主题标签和媒体的数量。

基于网络的特征：除了这三个类别之外，我们还使用描述网络拓扑的特征（例如用户的朋友与追随者的比率）来总结机器人和活动连接。

尽管间接交互是可能的，但我们只考虑以转发和提及活动之间的形式进行的直接交互。我们从四个类别中获得了 94 个特征。我们使用 Gini 重要性根据决策树模型中的重要性权重执行特征选择以识别最佳特征。特征选择后，集合减少到 15 个特征。最具信息量的特征是基于内容、基于时间和基于情感的特征。完整的特征清单可在支持性网页上找到。

3.3.2 训练分类器

我们采用了一个 AdaBoost 模型，该模型在具有十个弱学习器的决策树分类器 (CART) 上进行了训练。信息增益用于衡量分割的质量，然后使用加权多数投票组合来自不同学习者的预测以产生最终预测。我们选择 Adaboost 是由于缺乏标记数据。由于推文长度短（推文的字符限制为 280）和许多替代用法（表情符号、缩写等），量化交互的情绪需要付出巨大的努力。提升决策树有助于应对这些挑战。

4 实验评估

4.1 按数字的BotCamp

我们用数字来描述美国大选的 BotCamp 框架。首先，我们从 20 个种子关键词开始，关键字生成器组件在 60 天内将集合扩展到 231 个关键字。使用竞选检测器，我们收集了来自 600 万用户谈论选举的 7500 万条推文。检测到的机器人数量为 120K。我们排除了内容不匹配的集群，并从不同的微活动中识别出 29K 机器人；

我们构建了五个图：转推（7162 个机器人，30811 条边），提及（1137 个机器人，785 条边），标签（4122 个机器人，731687 条边），媒体（954 个机器人，10385 条边）和时间（29840 条，73623 条边）。执行图聚类和集成以获得 29K 机器人的集群并将它们集成到 231 个活动中。从交互分类器中，我们确定了机器人活动之间的 87 个分歧交互和 2700 个一致交互。

使用我们的支持网页 [2] 中提供的数据集可以重现上述一组数字。然而，2016 年美国大选已经发生，这限制了与替代方法的比较。为了便于实验比较，我们在支持网页中公开了我们的代码，它只需要一组关键字即可运行数天到数周，并产生互动活动。

4.2 交互分类器的评价

我们使用 10 倍交叉验证技术评估增强的决策树分类器。表 2 中描述了分类性能的平均值和标准差。结果强烈表明该特征集可以捕获手动标记的训练数据。低标准偏差表明随机样本的一致性。

我们考虑将分类器应用于它们之间具有某种形式的交互（即转发、提及等）的未标记的活动对。结果如表3所示

我们在美国大选期间确定了 87 对不同的竞选活动，包括对辩论结果的分歧、电子邮件争议等。结果表明，虽然一些竞选领域本质上是非竞争性的，但其他竞选领域存在争议，导致分歧互动。

4.3 示例活动

该项目已经确定了几个小型到大型的活动，其中机器人参与了 Twitter。它们是有意义的活动吗？

我们已经手动调查了这些活动，以确定他们的目标。标记所有活动中的所有账户是一项劳动密集型工作。我们通过浏览他们的个人资料并呈现最后 15 条推文，随机抽取 10% 的机器人账户样本来识别目标。在本节中，我们首先展示一些活动的示例（参见表 1）。我们根据我们确定的目标命名活动。

特朗普支持者：在这次竞选中，所有机器人都支持 2016 年美国总统大选的候选人特朗普。他们的名字、头像和推文表明他们最关心政治。机器人账户之间显示出强烈的转推互动；

克林顿支持者：本次竞选中的所有机器人都支持克林顿。他们所有的推文大多是政治推文。克林顿支持机器人的数量少于特朗普支持机器人的数量；

桑德斯支持者：此活动中的所有机器人都在 2016 年美国大选中支持候选人桑德斯。

为了提供全面的图片，我们在图 4 中的未定向转发图上显示了 BotCamp 在美国选举数据集中检测到的所有活动。除了三位著名候选人的支持者之外，还存在其他几个小型活动。

我们标记为娱乐活动的两个松散连接的活动由对包括政治在内的各种主题感兴趣的机器人组成，但主要是名人新闻。我们将运动之间的弱沟通解释为部分完整的数据集的一个伪命题。请注意，Twitter API提供了1%的推文。

图 4（左）显示，出于政治动机的机器人很少在各方之间相互转发推文。然而，这并不奇怪，图 4（右）中的定向转推图显示，这些活动从一个名为 The Hill 的常见新闻源转推。

（（左）检测到的竞选活动显示在未定向转推图上（特朗普支持者为红色，克林顿支持者为蓝色，桑德斯支持者为绿色）。（右）通过考虑有向转推图找到的活动。中间的节点是一家名为 The Hill 的新闻机构。颜色表示基于主题标签对不同候选人的强烈情绪极性）

5 结论

在线社交媒体对于民主治理的未来极为重要。社交媒体上的自动化活动为操纵、错误信息和不信任创造了机会。本文证明了社交活动可能会被机器人之间的无机交互破坏，并开发了一种技术来对活动之间和活动内的无机交互进行分类。我们展示了活动之间各种互动的经验证据。然而，这项工作只是朝着更好地监控社交媒体迈出的一步，必须做出重大努力来保护人类用户免受无机干扰。