论文阅读 - The paradigm-shift of social spambots - 数据集 cresci-2017

最新推荐文章于 2025-03-19 02:10:31 发布

无脑敲代码，bug漫天飞

最新推荐文章于 2025-03-19 02:10:31 发布

阅读量970

点赞数 2

分类专栏：社交机器人检测数据集文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_40671063/article/details/127003262

版权

社交机器人检测同时被 2 个专栏收录

70 篇文章

订阅专栏

数据集

9 篇文章

订阅专栏

论文链接：https://arxiv.org/pdf/1701.03017.pdf

摘要

最近对社交媒体垃圾邮件和自动化的研究为新一代垃圾邮件机器人（即所谓的社交垃圾邮件机器人）的兴起提供了轶事论证。在这里，我们第一次在 Twitter 上广泛研究了这种新现象，并提供了定量证据证明垃圾邮件机器人设计中存在范式转变。首先，我们衡量当前 Twitter 检测新社交垃圾邮件的能力。随后，我们评估了人类在区分真实账户、社交垃圾邮件机器人和传统垃圾邮件机器人方面的表现。然后，我们对学术文献提出的几种最先进的技术进行基准测试。结果表明，无论是 Twitter、人类还是尖端应用程序，目前都无法准确检测新的社交垃圾邮件机器人。我们的研究结果需要新的方法来扭转对抗这种日益严重的现象的趋势。最后，我们回顾了关于垃圾邮件机器人检测的最新文献，并强调了基于集体行为分析的新兴常见研究趋势。从我们广泛的实验活动和调查中获得的见解揭示了最有希望的研究方向，并为对抗新型社交垃圾邮件机器人的军备竞赛奠定了基础。最后，为了促进对这一新现象的研究，我们向科学界公开了本研究中使用的所有数据集。

1 绪论

在线社交网络 (OSN) 的广泛可用性和易用性使其成为虚拟和恶意帐户泛滥的理想场所 [28]。事实上，最近的研究发现了大量OSN账户的存在，这些账户被故意创建来分发未经请求的垃圾邮件，宣传合法性可疑的事件和产品，赞助公共人物，并最终导致公众舆论的偏见[15,23]。此外，这种垃圾邮件发送者和机器人的瘟疫导致了一种巧妙而有利可图的“地下经济”，在这里，账户供应商、他们的客户和不知情的受害者自社交网络引入以来就在扮演一个角色。

垃圾邮件机器人最令人着迷的特点之一是它们随着时间的推移而“进化”，采用复杂的技术来逃避早期建立的检测方法，例如基于共享消息文本内容的检测方法 [24]、发布模式 [35] 和社会关系[17]。随着不断发展的垃圾邮件发送者在逃避检测方面变得聪明，例如通过改变讨论主题和发布活动，研究人员跟上步伐并提出了复杂的模型，例如基于被调查帐户的交互图的模型。

值得注意的是，垃圾邮件机器人的演变仍在继续。最近的调查有趣地突出了新一波社交垃圾邮件机器人的兴起 [15, 47]。在本文中，我们针对这些新浪潮，发现 OSN 用户难以区分真实账户和恶意账户的证据。我们还强调了 OSN 管理员在对不断演变的垃圾邮件程序的接管采取适当对策时遇到的困难。值得注意的是，学术界已经提出了大量的工具和技术来检测 OSN 垃圾邮件机器人 [15, 23]。直到最近，此类工具已被证明是及时检测垃圾邮件程序的有效盟友。不幸的是，新一波社交垃圾邮件程序的特征使得标准分类方法不再成功，其中根据在已知数据集上测试的一组既定特征对单个帐户进行评估。在这项工作中，我们通过调查几种最先进的工具技术在对抗最新一波社交垃圾邮件时的表现来证明这一主张。调查技术的不令人满意的结果要求提出能够扭转这场长期斗争的潮流的新的方法。

有趣的是，我们协助对在线账户进行建模和分析的范式转变。彼此独立地诞生了新的研究工作，这些工作利用账户组的特征——而不是单个账户的特征——作为异常行为的危险信号。我们对这些重要的研究方向进行了回顾，强调了成功打击这一代新垃圾邮件机器人的新维度。

贡献。我们的主要贡献是：

我们提供了新一波 Twitter 垃圾邮件程序存在的经验证据，到目前为止，这些垃圾邮件程序还只是被理论化了；

我们评估最先进的检测技术是否以及在何种程度上能够成功发现此类新的垃圾邮件机器人；

我们批判性地修改了一个新兴的研究方式，它采用与账户组相关的特征，而不是单个账户的特征；

我们利用众包垃圾邮件检测活动的结果来为包含社交垃圾邮件的数据集的注释绘制新的指南；

最后，我们向科学界公开发布了一个带注释的数据集(MIB Datasets)，其中包括真实账户、传统垃圾邮件机器人，以及——首次新型社交垃圾邮件机器人；

2 数据集

我们描述了构成我们实验中使用的真实数据的不同 Twitter 数据集。表 1 报告了数据集的名称、它们的简要描述以及它们具有的帐户和推文的数量。年份表示属于数据集的帐户的平均创建年份。

真实账户数据集是真实（人工）账户的随机样本。我们通过用自然语言询问一个简单的问题来随机联系 Twitter 用户。对我们问题的所有回复都经过人工验证，所有回答的 3,474 个帐户都被认证为人类。没有回答我们的问题的帐户被丢弃，不在本研究中使用。

社交垃圾邮件机器人#1 数据集是在观察了我们在 2014 年罗马上次市长选举期间在 Twitter 上发现的一组新社交机器人的活动后创建的。其中一个选举亚军采用了社交媒体营销为他的竞选活动提供支持，该活动利用 Twitter 上近 1,000 个自动账户来宣传他的政策。令人惊讶的是，我们发现这种自动账户在各方面都与真正的账户相似。每个个人资料都准确地填写了详细的-但虚假的个人信息，如(偷来的)照片，(假的)简短简介，(假的)位置等。这些帐户也代表了可靠的信息来源，因为它们都有成千上万的追随者和朋友，其中大多数是真正的用户（这也得益于社会工程技术的采用，例如将一个年轻迷人的女人的照片作为头像，以及偶尔发布煽情的帖子）。此外，这些账户显示出与真实账户明显相似的推文行为，每天发布几条推文，主要引用热门人物、歌曲和 YouTube 视频。然而，每当这位政治候选人从他的官方账户发布一条新推文时，所有自动账户都会在短短几分钟内转发这条推文。

因此，除了他的直接追随者之外，这位政治候选人还能够接触到更多的账户，并设法在竞选期间改变 Twitter 参与度指标。令人惊讶的是，我们还发现了数十个试图与一些垃圾邮件机器人进行对话的人类账户。这种人与垃圾邮件交互的最常见形式是人类对垃圾邮件推文引用之一的回复。我们还发现了第二组社交机器人，我们将其标记为社交垃圾邮件机器人#2，他们花了几个月的时间推广#TALNTS 标签。具体来说，Talnts 是一个手机应用程序，用于联系和招聘在写作、数码摄影、音乐等领域工作的艺术家。绝大多数推文都是无害的消息，偶尔会穿插提及特定真实（人类）帐户并建议他从网上商店购买 VIP 版应用程序的推文。

此外，我们还发现了第三组社交机器人，即社交垃圾邮件机器人#3，它们在 Amazon.com 上宣传销售的产品。欺骗活动是通过发送指向广告产品的垃圾邮件 URL 进行的。与意大利政治候选人的转发者类似，这个垃圾邮件程序家族也将垃圾邮件推文与无害且真实的推文交错；

我们利用 Twitter 爬虫来收集我们怀疑属于这三组社交垃圾邮件机器人的所有帐户的数据。然后，在此过程中收集的所有帐户都经过了内部手动验证阶段，以证明其自动化性质。在这位意大利政治候选人的所有不同转发者中，50.05%（991 个帐户）被认证为垃圾邮件机器人。类似地，94.50%(3457个账户)发布#TALNTS标签的账户结果是垃圾邮件机器人。最后，89.29%（464 个账户）发布可疑 Amazon.com URL 的账户也被认证为垃圾邮件机器人。这三组账户代表了我们关于新型社交垃圾邮件的基本事实。

我们通过将每个帐户与所有其他帐户进行比较来进行内部手动注释，以突出可能的相似之处和共同行为。这与典型的注释过程形成对比，其中帐户被逐个标记并且仅利用被调查帐户的特征。

除了真正的用户和社交垃圾邮件机器人，我们还收集了几个传统垃圾邮件机器人的数据集。这样的数据集在整篇论文中被用作强大的基线。传统的 spabots #1 数据集是 [43] 中使用的训练集，由该工作的作者提供给我们。在 [43] 中，该数据集已被用于训练机器学习分类器，以检测不断发展的 Twitter 垃圾邮件机器人。属于传统垃圾邮件机器人#2 数据集的帐户是相当简单的机器人，它们在包含诈骗 URL 的推文中反复提及其他用户。为了引诱用户点击恶意链接，他们的推文内容会邀请提及的用户索取金钱奖励。传统的垃圾邮件机器人#3 和传统的垃圾邮件机器人#4 数据集与 2 组不同的机器人相关，这些机器人重复发布关于空缺职位和工作机会的推文。

假追随者是另一种恶意账户，最近引起了平台管理员和科学界的兴趣 [12]。鉴于假追随者的设计和功能相当简单，它们可以作为比较社交垃圾邮件机器人的薄弱基线。 2013 年 4 月，我们从三个不同的 Twitter 在线市场（即 fastfollowz.com、intertwitter.com 和 twittertechnology.com）购买了 3,351 个虚假账户。以这种方式获得的所有帐户都已合并，以获得本研究中使用的虚假关注者数据集。

通过考虑一组不同的垃圾邮件发送者帐户，我们捕捉到了垃圾邮件机器人和篡改者目前利用的许多不同维度来实施他们的非法活动。详细地，我们考虑了 (i) 虚假追随者欺诈，(ii) 转发欺诈，(iii) 标签推广，(iv) URL 垃圾邮件，(v) 诈骗，以及 (vi) 普通消息的垃圾邮件。

3 真实世界的实验

3.1 Twitter 监控

通过测量 Twitter 检测和从平台上删除它们的能力，可以初步评估 Twitter 社交垃圾邮件问题的程度和严重性。因此，本节回答了研究问题：

RQ1 – Twitter 目前在多大程度上能够检测和删除社交垃圾邮件？

通过比较不同类型的恶意账户的 Twitter 账户被删除率，可以获得有趣的见解。直觉是平台管理员可以快速删除容易识别为恶意的帐户。因此，在这个实验中，我们让不同类型的账户在相当长的时间内（即几年）运行。然后，我们检查 Twitter 是否设法将此类帐户识别为恶意帐户并将其从平台中删除。我们在我们的一组真实帐户、3 组社交垃圾邮件机器人、2 组传统垃圾邮件机器人和一组假粉丝上进行了这个实验。

为了执行这个实验，我们利用了 Twitter 对 API 调用的响应，特别是 Twitter 的错误代码。给定一个对特定帐户的查询，Twitter 的 API 会回复关于查询帐户状态的信息。具体来说，怀疑进行恶意活动的帐户将被 Twitter 暂停。API 对挂起的帐户的查询导致 Twitter 响应错误代码63。API 查询被其原始所有者删除的帐户导致 Twitter 响应错误代码50。相反，对于既没有被暂停也没有被删除的帐户，Twitter 会回复帐户的完整元数据信息，而不会发出错误代码。通过利用这种响应机制，我们能够测量不同组帐户的生存能力。实验结果见表2，如图1所示。

如表 2 所示，真实账户的存活率非常高（96.5%）。此外，在不再可用的账号中，绝大多数已经被原所有者删除，而不是被推特暂停。考虑到合法帐户很少执行任何类型的恶意活动，这些结果非常直观。相反，最简单的恶意账户类型，即虚假关注者，大多已被 Twitter 检测到并暂停。这同样适用于两组传统垃圾邮件机器人中的一组，在表 2 中被标识为传统垃圾邮件机器人#2，其挂起率高达 99%。然而，最有趣的结果与那些更好地模仿人类行为的恶意账户有关。

到目前为止，尽管可以追溯到 2009 年，但传统的垃圾邮件机器人 #1 在很大程度上设法避免了暂停。事实上，只有 2.5% 的机器人被暂停，而其中 88.9% 的机器人仍然活着。这似乎表明 Twitter 的垃圾邮件检测机制仍然无法准确识别此类帐户，而学术界最近提出的解决方案已经成功完成了这项任务。

如果我们考虑社交垃圾邮件，推特在暂停恶意帐户方面的表现会更差。所有 3 组社交垃圾邮件程序的存活率都非常高，分别为 95.2%、96.1% 和 99.6%。即使社交垃圾邮件机器人和传统垃圾邮件机器人#1 的存活率之间的差异很小，但这些结果仍然表明检测社交垃圾邮件机器人的难度增加了。表 3 还报告了垃圾邮件机器人和真实帐户之间的存活、删除和暂停帐户比率的比较结果。如图所示，社交垃圾邮件机器人与真实账户的差异非常小（~±3%）。根据卡方检验，其中一些差异甚至没有统计学意义。传统的垃圾邮件机器人#1 有 ∼±8% 的差异，这对于活着的和暂停的账户来说是非常显着的 (p < 0.01)。相反，传统的垃圾邮件机器人#2 和虚假的追随者表现出巨大的差异：分别为 ∼±96% 和 ∼±72%。

恶意账户与真实账户生存能力结果差异的影响大小和统计显着性；

图 1 显示了针对帐户年龄的生存能力实验的结果。这可以让我们了解创建恶意账户的方式中是否存在时间模式，以及 Twitter 暂停恶意账户的机制是否与账户的年龄有关。例如，Twitter 在检测和暂停旧帐户方面可能比新帐户更好。然而，考虑到 99% 的传统垃圾邮件机器人 #2 帐户尽管比大多数社交垃圾邮件机器人年轻，但可以排除这一假设。总体而言，对图 1 的分析表明，帐户暂停似乎取决于帐户的类型、其设计和行为，而不是其年龄。

第一个实验中报告的结果已经揭示了社交垃圾邮件机器人、传统垃圾邮件机器人和虚假追随者之间的有趣差异。值得注意的是，在 Twitter 暂停方面，社交垃圾邮件机器人似乎更类似于真实帐户，而不是传统的垃圾邮件机器人。

3.2 众包：任务和结果

本节解决以下研究问题：

RQ2 – 人类能否成功检测到野生的社交垃圾邮件程序？

RQ3 – 他们能否成功区分传统垃圾邮件机器人、社交垃圾邮件机器人和真实账户？

即使 Twitter 用户通常能够区分传统的垃圾邮件机器人和真实帐户，他们可能仍然很难在野外发现社交垃圾邮件机器人。如果得到证实，这将为新的社交垃圾邮件机器人相对于传统垃圾邮件机器人的进化步骤提供额外的证据。

为了回答这些研究问题，我们要求大量真实世界的用户对我们数据集中的账户进行分类。为了获得大量多样化的用户，我们从 CrowdFlower4（Confidence to Deploy AI with World-Class Training Data）众包平台招募了贡献者。图 2 显示了我们在本次众包实验中使用的 4,428 个帐户的分布情况，这些帐户是从第 2 节中的数据集中提取的。要求贡献者为每个帐户分配以下类别之一：(i) 垃圾邮件机器人，(ii) 正版，以及 (iii) 无法分类。后一类 (iii) 已被插入以处理 Twitter 帐户可能在我们的众包任务进行时被删除、暂停或保护（受保护的账户是那些推文和时间线不公开可见的账户）。

值得注意的是，我们的实验标志着与通常通过众包进行的实验不同。事实上，众包任务通常旨在创建一个基本事实（即标记）数据集以供以后使用。例如，众包通常用于为机器学习算法创建大型训练集。相反，这里的数据集是预先标记的。因此，通过要求贡献者（重新）分类我们的数据集，我们实际上是在评估他们发现不同类型帐户的能力。

加强结果的可靠性。我们只招募精通技术的贡献者和 Twitter 用户本身，以便合理确定他们对 Twitter 及其动态的了解。此外，我们要求每个帐户至少由 3 个不同的贡献者分类，最终类别由多数投票决定。我们还将单个贡献者可以分类的帐户数量的上限固定为 100。通过这种方式，我们从广泛的贡献者那里获得了多余的结果。然后，为了进一步保证我们的众包结果的可靠性，我们设计了一组“测试”（或“黄金”）问题，旨在评估贡献者答案的质量。测试问题是系统已经知道正确答案的问题。在众包平台内，这些问题与标准问题没有区别，并且随机混合在所有问题中，因此贡献者无法知道他们是在回答测试还是在回答标准问题。参与者对测试问题的回答与已知的正确答案进行了核对。我们的研究只考虑了正确回答超过 70% 的测试问题的可信贡献者。我们的测试问题由性质“容易”识别的帐户组成，特别是：（i）从 Yang 等人的数据集中采样的一组传统垃圾邮件机器人。 [43]，（ii）真实帐户的子集，以及（iii）一组暂停、删除和受保护的帐户。值得注意的是，通过使用传统垃圾邮件机器人和真实账户设计测试问题，并通过执行至少 70% 正确答案的政策，我们可以保证我们所有值得信赖的贡献者通常能够检测到传统垃圾邮件机器人并将它们与真实账户区分开来.这进一步加强了他们对新型社交垃圾邮件机器人的分类结果。表 5 概述了我们的众包活动中使用的设置。

我们的活动的详细描述，包括完整的说明、示例帐户列表和任务预览，都可以在线获得（Editor Preview of Task — Tasks by CrowdFlower）。当 4,428 个帐户中的每一个都被 3 个不同的受信任贡献者分类时，该活动就完成了。

众包活动的结果。总体而言，我们收集了来自 42 个不同国家的 247 位可信赖的贡献者给出的 13,284 个答案。图 3(a) 显示了每个国家的答案分布。图 3(b) 描述了每个贡献者的答案分布。CrowdFlower还为贡献者提供了评估众包活动的可能性:

(i) 说明的清晰性，(ii) 试题的公平性，(iii) 任务的简单性，以及 (iv) 支付的适当性。在 247 名参与贡献者中，有 60 名（~24%）对我们的活动进行了评估，得出令人信服的总分 3.7/5，如表 6 所示。我们的活动总共花费了 410 美元。

我们的众包活动最有趣的结果无疑与我们人类贡献者的检测性能有关。如表 4 所示，总体而言，人工注释者在社交垃圾邮件机器人上获得的准确率低于 0.24，有超过 1,000 个假阴性 (FN)，这意味着贡献者将 1,000 多个帐户归类为真实帐户，而他们实际上属于到上一代垃圾邮件机器人的数据集。

另外两组账户的人工检测性能，即传统的垃圾邮件机器人和真实账户，却相当令人满意，准确度分别为 0.91 和 0.92。这些重要结果进一步凸显了传统垃圾邮件机器人和社交垃圾邮件机器人之间存在的显着差异。更令人担忧的是，他们还表明人类可能无法在野外检测到社交垃圾邮件，并将它们与真实帐户区分开来。

鉴于被调查的每个账户都由至少 3 个不同的贡献者分类，我们还计算了 Fleiss 的 kappa (κ) 评估者间一致性指标 [19]。所有评分者间一致性指标都衡量不同注释者对任务的一致性程度。同意程度也可以解释为任务难度的代表。在我们的实验中，人类贡献者对真实账户的分类表现出了良好的一致性，κ = 0.410。相反，在对传统垃圾邮件机器人进行分类时，它们表现出很少的一致性，κ = 0.007表示。

这个有趣的结果表明，总体而言，人类贡献者能够正确检测传统的垃圾邮件机器人，如 0.91 的准确率所示，但贡献者很少同意该类。令人惊讶的是，我们测量到社交垃圾邮件机器人分类的一致性略高于传统垃圾邮件机器人，κ = 0.186。这些结果表明，人类通常无法对社交垃圾邮件机器人进行分类（准确度 = 0.2355），此外，与（正确）对传统垃圾邮件机器人进行分类时相比，他们在这个错误上的一致性更高。

垃圾邮件机器人检测的注释指南。尽管最近在基于机器学习的检测系统方面取得了进展，但仍由平台管理员对帐户进行手动验证以评估其自动化程度 [15]。在 [41] 中，据报道，人类专家在传统垃圾邮件机器人的数据集上“始终产生近乎最佳的结果”。然而，我们的众包实验结果证实，人类工作者用来评估社交媒体账户的传统“逐个账户”注释过程在应用于检测新一波社交垃圾邮件机器人时不再可行。 .

鉴于手动注释对于创建真实数据集和对社交网络平台上的可疑帐户进行双重检查的重要性，我们呼吁采用新的注释方法，考虑到数据集的相似性和同步行为帐户。我们采用了这种方法的实际实现来注释我们的社交垃圾邮件程序数据集。特别是，我们比较了大组帐户的时间线，以突出它们之间的推文相似性。通过比较不同帐户的行为，而不是逐个分析它们，我们能够在所有收集的帐户中发现社交垃圾邮件，如第 2 节所述。因此，我们设想采用这种方法的可能性，因为以及类似的，以保护手动注释过程免受难以捉摸的社交垃圾邮件程序的影响。

4 构建技术

到目前为止，我们已经证明 Twitter 和人工操作员目前都无法识别新的社交垃圾邮件机器人。在这里，我们调查已建立的工具和技术是否能够成功完成这项任务。因此，我们的研究问题是：

RQ4 – 最先进的科学应用程序和技术是否能够检测社交垃圾邮件？

BotOrNot？服务。 BotOrNot？是一项公开可用的服务（https://osome.iu.edu/botornot），用于评估 Twitter 帐户与社交垃圾邮件机器人的已知特征的相似性 [14]。它由位于布卢明顿的印第安纳大学开发，并于 2014 年 5 月发布。声称能够检测社交垃圾邮件 [15]，在撰写本文时，它是唯一公开可用的社交垃圾邮件检测系统。 BotOrNot？利用受监督的机器学习分类器，该分类器利用了正在调查的 Twitter 帐户的 1,000 多个特征。具体来说，它采用了现成的监督学习算法，训练有人类和机器人行为的例子，基于德克萨斯 A&M 数据集 [25]，每个类别有 15,000 个例子和数百万条推文。与大多数已经建立的技术类似，BotOrNot?逐个账户进行分析。尽管专为检测社交垃圾邮件程序而设计，但作者指出 BotOrNot? 的检测性能对抗进化的垃圾邮件机器人可能比[14]中报道的更糟糕。在这里，我们旨在通过查询 BotOrNot? 来评估这一点。使用我们的真实和社交垃圾邮件帐户集提供服务。如表 7 所示，BotOrNot?对于测试集#1 和测试集#2 的帐户，都取得了相当不令人满意的结果（此类数据集在表 1 中进行了描述）

它的检测性能对于测试集#1 的帐户尤其糟糕——其中垃圾邮件机器人来自社交垃圾邮件机器人#1 组。 F-Measure 和 Mathews 相关系数 (MCC) 的低值分别为 0.288 和 0.174，主要是由于召回率低。反过来，这代表了将社交垃圾邮件机器人#1 标记为真实帐户的趋势。

监督垃圾邮件分类。在学术界近年来提出的许多垃圾邮件检测的监督分类方法中，我们决定尝试 C. Yang 等人提出的方法。在 [43] 中，因为它专注于检测不断发展的 Twitter 垃圾邮件机器人。因此，评估最近在 [43] 中提出的系统是否真的能够检测到复杂的社交垃圾邮件程序是很有趣的。这个受监督的系统提供了一个机器学习分类器，该分类器通过依赖帐户的关系、推文时间和自动化水平来推断 Twitter 帐户是真实的还是垃圾邮件。我们通过实现和计算 [43] 中提出的所有特征，并使用其原始数据集训练分类器，再现了这样的分类器。表 7 中的结果表明，系统未能正确分类新型社交垃圾邮件机器人。类似于 BotOrNot？的结果服务，该系统在测试集 #1 和测试集 #2 中的最差结果都与 Recall 指标有关。这意味着该分类器也将社交垃圾邮件机器人标记为真实帐户。

通过 Twitter 流聚类进行无监督垃圾邮件检测。我们最初的主张得到了初步工作的支持 [15, 47]，即社交垃圾邮件机器人可能设计得如此复杂，以至于如果逐个观察，很难将它们与真实帐户区分开来。如果得到证实，这种说法将意味着监督分类方法在检测社交垃圾邮件程序方面本质上比无监督分类方法更差。出于这个原因，我们还尝试了无监督的垃圾邮件检测方法。[30] 中的方法将由从帐户和推文中提取的 126 个特征组成的向量作为 DenStream [7] 和 StreamKM++ [1] 聚类算法的修改版本的输入，对一组未标记的特征向量进行聚类帐户。我们已经实现了 [30] 中提出的系统来对我们的 2 个测试集的帐户进行聚类。如表 7 所示，这在我们在本研究中进行基准测试的所有性能中取得了最差的性能。 Precision 和 Recall 的低值意味着不完整且不可靠的垃圾邮件检测。在 126 个特征中，95 个基于推文的文本内容。然而，新颖的社交垃圾邮件推文内容类似于真实帐户的推文（例如，转发真实推文和名言）。因此，几乎完全基于推文内容的方法将无法取得令人满意的结果。

通过图聚类进行无监督垃圾邮件检测。 [2] 中的方法利用了与 URL、主题标签、提及和转发相关的统计特征。然后通过欧几里得距离测量将以此方式生成的特征向量相互比较。帐户之间的距离被组织在一个邻接矩阵中，该矩阵稍后用于构建帐户的无向加权图。然后，应用图聚类和社区检测算法来识别相似账户组。图聚类是通过使用马尔可夫聚类算法（MCL）[38]来完成的。我们完全实现了这个解决方案，并用我们的数据集进行了试验。然而，该方法未能识别 2 个不同的集群，因为我们的两个测试集的帐户都分配给了一个集群。为了测试MCL（MCL有两个基本参数:膨胀和扩张）的最佳参数配置，我们还执行了网格搜索模拟，但没有效果。为了获得有效的检测结果，我们采用fastgreedy社区检测算法[10]代替MCL。如表7所示，我们修改的实现被证明在检测社交垃圾邮件机器人方面是有效的，测试集#1的MCC = 0.886，测试集#2的MCC = 0.847。

5 新兴趋势

如表 7 所示，第 4 节中作为基准的既定工作在很大程度上未能检测到新一波社交垃圾邮件机器人。反过来，这些结果需要能够跟上垃圾邮件机器人最新进化步骤的新型分析工具。因此，在本节中，我们修改了关于垃圾邮件机器人检测的最新文献，目的是回答研究问题：

RQ5 – 是否有可能找到一个新的维度来对抗和克服新型社交垃圾邮件？

传统的垃圾邮件检测系统通常依赖于对正在调查的帐户应用众所周知的机器学习算法。然而，自 2013 年以来，许多研究团队独立开始制定新方法，以检测以自动恶意帐户组为特征的协调和同步行为 [5]。表 8 对新兴趋势等技术进行了分组。尽管基于不同的关键概念，这些研究将账户组作为一个整体进行调查，这与以前的文献存在显着差异。表 9 报告了这些新兴作品引入的新概念。关注群体的好处是，无论单个垃圾邮件机器人有多复杂，足够大的垃圾邮件机器人群体仍然会留下自动化的痕迹，因为它们确实有一个共同的目标（例如，提高某人的声誉得分）。通过在群组层面进行分析，这种新兴趋势可能会显着提高社交垃圾邮件机器人逃避检测的门槛。为了支持这一主张，我们对 [13, 40] 中的工作进行了实验。

群体计算中的篡改检测。Viswanath等人在[40]中的贡献检查给定的一组帐户(例如，另一个帐户的转发者，Yelp上某个场所的评论者)是否包含恶意帐户的子集。该方法背后的直觉是参与被篡改计算的账户的声誉分数（例如，朋友和追随者的数量）的统计分布与未篡改的账户显着不同。篡改计算的检测是通过计算给定信誉评分的统计分布与参考（未篡改）计算的统计分布之间的 Kullback-Leibler 距离来执行的。如果这样的距离超过给定的阈值，则正在调查的计算被标记为被篡改。为了针对社交垃圾邮件程序测试该技术，我们计算了 [40] 中使用的两个声誉分数的统计分布（加入日期和关注者数量），用于我们数据集的真实和社交垃圾邮件程序帐户。结果在图 4(a) 和 4(b) 中。真实帐户的分布几乎均匀地跨越可能的值范围，而社交垃圾邮件机器人具有异常分布。因此，[40] 中提出的技术能够发现真实账户组与新一波社交垃圾邮件之间的差异。然而，该技术不能直接发现篡改账户，因此，必须使用单独的方法来检测和删除单个账户

用于社交垃圾邮件检测的数字 DNA。与 [40] 类似，[13] 中的技术分析一组帐户，以检测其中可能的垃圾邮件程序。作者介绍了一种受生物启发的技术，通过所谓的“数字 DNA”序列对在线用户的行为进行建模。提取帐户的数字 DNA 意味着将该帐户与对其行为信息进行编码的字符串相关联。然后将数字 DNA 序列相互比较，以发现账户子组序列之间的异常相似性。数字DNA序列之间的相似性是在[13]中通过测量最长公共子串(LCS)来计算的，LCS是指组中所有账户共享的最长DNA子串。共享一个可疑的长 DNA 子串的帐户会被标记为垃圾邮件机器人。值得注意的是，尽管在组级别工作，[13] 能够发现单个垃圾邮件机器人帐户。出于这个原因，我们已经能够将该技术与之前在表 7 中进行基准测试的技术进行比较。将该技术应用于我们的数据集，真实账户的相似度曲线与社交垃圾邮件机器人的相似度曲线显着不同，如图 4(c)。更具体地说，根据 LCS 指标衡量，社交垃圾邮件机器人 #1 和 #3 的相似性水平远高于真实帐户。表 7 中报告的结果表明，基于数字 DNA 的技术 [13] 实现了出色的检测性能。

本节中列出的新兴技术的引人注目的特征代表了对抗新型社交垃圾邮件机器人的沃土。我们可以观察到垃圾邮件检测系统研究和开发的范式转变，它可以利用这些新概念来实现更好的弹性和鲁棒性，以抵御社交媒体垃圾邮件的下一次演变。

6 结束语

我们在 Twitter 中对恶意帐户存活率的长期实验表明，垃圾邮件检测仍然是一个悬而未决的问题。此外，由于新一波所谓的社交垃圾邮件机器人的出现，在社交媒体中检测垃圾邮件机器人已经很困难的问题必然会恶化。通过准确地模仿真实用户的特征，这些垃圾邮件程序本质上比过去几年学术界研究的那些更难检测。在我们的实验中，无论是人类还是最先进的垃圾邮件检测应用程序都无法准确检测到属于这一新一波垃圾邮件的帐户。事实上，我们的实验强调了大多数现有的自动化系统，以及众包，错误地将社交垃圾邮件程序标记为真实的（人工操作的）帐户。我们证明了对能够扭转军备竞赛潮流的新型分析工具的需求，以对抗这些复杂的垃圾邮件机器人。一个有前途的研究方向源于对集体行为的分析。我们强调了一些将群体作为一个整体而不是个人进行分析的新兴方法。这些新方法的有希望的结果清楚地表明这是一个有利的研究途径。