论文阅读-Social Fingerprinting:detection of spambot groups through DNA-inspired behavioral modelingCCFA

最新推荐文章于 2022-11-10 11:37:37 发布

无脑敲代码，bug漫天飞

最新推荐文章于 2022-11-10 11:37:37 发布

阅读量1k

点赞数

分类专栏：社交机器人检测 IEEE TRANSACTIONS 文章标签：论文阅读

本文链接：https://blog.csdn.net/qq_40671063/article/details/127020692

版权

社交机器人检测同时被 2 个专栏收录

66 篇文章 58 订阅

订阅专栏

IEEE TRANSACTIONS

1 篇文章 0 订阅

订阅专栏

论文链接：https://arxiv.org/pdf/1703.04482.pdf

4.1 数字 DNA 序列的定义及其在 Twitter 上的应用

4.2 LCS: 数字 DNA 序列的相似性度量

5 用 LCS 曲线表征账户 DNA

5.1 一组异构用户的LCS曲线

6 社交指纹：利用 LCS 曲线检测社交垃圾邮件

6.1 寻找相似用户的子群：一种有监督的方法

6.2寻找相似用户的子组:一种非监督的方法

摘要

在线社交网络中的垃圾邮件检测是一项长期挑战，涉及研究和设计能够有效识别不断发展的垃圾邮件发送者的检测技术。最近，出现了新一波社交垃圾邮件机器人，它们具有先进的类人特征，即使是当前最先进的算法也无法检测到它们。在本文中，我们展示了有效的垃圾邮件检测可以通过深入分析他们的集体行为来实现，利用数字 DNA 技术对社交网络用户的行为进行建模。受其生物学对应物的启发，在数字 DNA 表示中，数字帐户的行为寿命被编码为一系列字符。然后，我们为这种数字 DNA 序列定义了一个相似性度量。我们基于数字 DNA 和用户组之间的相似性来描述真实帐户和垃圾邮件机器人。利用这种特征，我们设计了社交指纹技术，该技术能够以有监督和无监督的方式区分垃圾邮件机器人和真实账户。我们最终评估了社交指纹识别的有效性，并将其与三种最先进的检测算法进行了比较。我们方法的特点之一是可以应用现成的 DNA 分析技术来研究在线用户行为，并有效地依赖有限数量的轻量级帐户特征。

1 绪论

在线社交网络 (OSN) 为互联网用户提供了讨论、获取信息、表达自己并为无数目标进行互动的机会，例如规划活动和参与商业交易。总之，用户依靠在线服务向世界表达他们的所想、所想、所为；反之亦然，他们对其他订阅者的了解也相同。

很自然，广泛的可用性和易用性使 OSN 成为虚拟和恶意帐户泛滥的理想场所。虽然隐藏真实身份有时是出于一个人性格中无害的一面，但也存在一些欺骗性的情况，即创建并管理社交平台帐户以分发不请自来的垃圾邮件、宣传合法性可疑的活动和产品、赞助公众人物并最终导致公众舆论中的偏见[1]。尽管如此，此类社交垃圾邮件发送者和机器人的瘟疫导致了一种巧妙而有利可图的“地下经济”，其中帐户供应商、他们的客户和不知情的受害者自 00 年代初以来就在其中扮演了一个角色。

社交垃圾邮件机器人的特殊性在于它们随着时间的推移而发展，采用复杂的技术来逃避早期建立的检测方法，例如基于共享消息文本内容的检测方法 [5]、发布模式、社会关系。随着不断发展的垃圾邮件发送者在逃避检测方面变得聪明，例如通过改变讨论主题和发布活动，研究人员与时俱进，并根据被调查账户的交互图提出了复杂的模型。

值得注意的是，垃圾邮件机器人的演变仍在继续。最近的调查强调了新一波社交垃圾邮件机器人的兴起[11]。它们的特点是标准分类方法，其中单个帐户根据一组在已知数据集上测试的既定特征进行评估，不再成功。相反，直觉是发现新的社交垃圾邮件机器人的关键因素是关注账户组的“集体行为”，而不是单一行为。

贡献。在这项工作中，我们在以下方面做出贡献：

在线行为建模：我们提出了一种非常新颖、简单且有效的方法来对在线用户行为进行建模，以检测社交垃圾邮件。行为是通过数字 DNA 建模的，即字符串，每个字符串都编码正在调查的在线帐户的一个操作。与生物 DNA 类似，数字 DNA 允许信息的紧凑表示。相反，编码用户动作的字符不限于四个（如四个核苷酸碱基的情况）。因此，数字 DNA 是一种灵活的模型，能够在不同的社交平台上以不同的粒度级别表示不同的动作。我们从 OSN 用户的行为中提取和分析数字 DNA 序列，并使用 Twitter 作为基准来验证我们的提议。

我们获得了一个紧凑和有效的dna启发的用户行为的特征。然后，我们应用标准 DNA 分析技术来区分 Twitter 上的真实帐户和垃圾邮件帐户。在整篇论文中，我们的检测技术——基于账户行为的数字 DNA 建模——被称为社会指纹；

垃圾邮件检测：一个实验性的活动支持我们的应用程序。我们从两个 Twitter 数据集开始，其中真实帐户和垃圾邮件帐户是先验已知的，我们利用数字 DNA 让循环模式出现。我们展示了垃圾邮件机器人组如何共享共同模式，这与真实帐户组相反。作为该结果的具体应用，我们演示了如何应用我们的社交指纹方法来区分一组未知帐户中的垃圾邮件程序和真实帐户。在基于标准分类器的指标（如 F-Measure、Accuracy、Precision 和 Recall）方面获得的出色表现支持了社会指纹技术的质量和可行性。

灵活性和适用性：虽然 Twitter 垃圾邮件检测是特定社交网络上的特定用例，但我们提出的社交指纹技术与平台和技术无关，因此为各种行为表征任务铺平了道路。事实上，我们相信数字 DNA 序列的高度灵活性和适用性使这种新的建模方法适用于代表不同的场景，并有可能开辟新的研究方向。例如，我们在这里引用了让行为模式从群中出现的能力，就像在 [12]、[13] 中使用不同的技术所接近的那样。利用标准的 DNA 序列比对工具，我们的方法获得了舒适的结果，避免了经常令人沮丧的人类干预，人类可能无法通过简单地逐个检查来区分模式；

路线图。本文的其余部分如下。第 2 节对社交网络垃圾邮件检测领域的相关工作进行了调查。我们实验的 Twitter 数据集在第 3 节中介绍，而在第 4 节中，我们介绍了数字 DNA 的概念，并提出了数字 DNA 序列的相似性度量。第 5 节描述了基于 DNA 序列的在线账户的特征。第 6 节介绍了我们的 Twitter 垃圾邮件检测方法的分析和结果。在第 7 节中，我们讨论了实验结果、经验教训以及所提出方法的一般性。最后，第 8 节得出结论。

2 相关工作

在过去六年的一段时间内，学术文献见证了对社交网络上的异常账户进行建模和分析的科学方法的蓬勃发展。尤其是，Twitter 获得了很多关注，因为该平台拥有大量不同类型的特殊订阅者，例如垃圾邮件发送者、机器人、半机器人和虚假追随者。

简而言之，垃圾邮件散布者是那些发布未经请求且通常是有害内容的账户，包含恶意页面的链接[6]，机器人是控制社交账户的计算机程序，其隐身程度如同模仿真实用户[14]，而办机器人则将人工和自动行为的特征交织在一起。最后，还有虚假的追随者，即为追随目标账户而创建的大量账户，可以从在线市场购买 [3]、[16]，这也吸引了大众媒体的兴趣，但结果有时值得怀疑 [17]。这些类别中的每一个都经过多次调查。

2.1 成熟的技术

作为垃圾邮件检测的一个例子，一个研究分支挖掘了推文的文本内容 [18]，其他研究分支研究了推文中嵌入 URL 的重定向 [19]，或对 URL 登录页面进行分类 [20]。 [21] 中的工作超越了将那些没有 URL 的推文标记为垃圾推文的困难，提出了一种复合工具，能够将传入的推文与垃圾邮件发送者常用的底层模板进行匹配。

其他工作通过多特征方法调查垃圾邮件发送者，包括个人资料中的特征、行为和帐户的时间线。这种分析的例子包括[6]、[9]、[22]。特别是，[9] 设计了一系列新标准，证明了它们在检测那些逃避现有检测技术的垃圾邮件发送者方面的功效。

我们之前在 [16] 中的工作考虑了虚假的 Twitter 关注者。由于垃圾邮件发送者、机器人和真实帐户都可能属于这一类，我们在人类和虚假追随者的参考数据集上测试了来自灰色文献和学术界的一系列规则和特征。我们的主要贡献是：（i）修剪那些在检测虚假追随者方面表现最差的规则和特征，以及（ii）实施一个分类器，显着减少过度拟合和数据收集成本。

上面列出的贡献是过去几年对恶意帐户检测的研究工作的摘录。值得注意的是，这些贡献中的大多数是基于这样一种假设，即可以根据该帐户的一系列特征来识别该帐户是否真实。分类发生在单个帐户上，并且分类结果成立，因为这些特征的值范围先前已在参考数据集上被证明是异常的症状。

2.2 新兴趋势

值得注意的是，我们观察到过去两年发生了重大转变。正如 [11] 中所观察到的，新的社交机器人正在兴起，其特殊性只有在考虑到它们的集体行为时才会出现。从第 3 节中介绍的数据集的分析中可以看出，新一波的社交机器人是这样的，如果逐个考虑帐户，它们就无法与真实帐户区分开来。我们声称这种社交垃圾邮件机器人代表了第三代也是最新颖的垃圾邮件机器人，继 00 年代的原始浪潮之后，经过了 2011 年左右的第二代（Yang 等人在 [9] 中描述）。

有趣的是，第三代(最近一代)垃圾邮件机器人的论点也得到了对10年代早期数据集(如[23])进行的相关工作的支持，这些数据集得出的结论是，一个组中的恶意账户彼此之间似乎是不相关的，它们之间的行为也不相似。

在这项工作中，我们展示了数字 DNA 如何代表检测第三代垃圾邮件机器人的强大基础。值得注意的是，我们感谢最近发表的一些背景哲学与我们一致的作品。事实上，这些作品考虑了账户的不同行为特征，其共同点是作为一个群体而不是一个一个地研究它们。在下文中，我们将介绍这些新颖的工作，突出与我们的不同和相似之处。

在 [24] 和 [25] 中的工作研究大图中的连接模式，以让意外行为出现。根据意外行为具有锁步特征的事实数据，例如，大量关注者连接到同一组关注者，作者描述了社交图中的锁步行为与图的邻接矩阵中的密集块之间的对应关系。此外，他们提出了一种算法来发现具有意外行为的用户。

[26] 的作者的直觉是，如果集体在线行动发生一次，那么该行动不一定是欺诈性的。相反，如果这种集体行动随着时间的推移而重复，尤其是对同一事件的反应，它可能代表一种异常活动。特别是，这项工作侧重于转推活动，定义了转推线程特征的特征，并提出了一种捕获同步欺诈的方法。

SynchroTrap [27] 旨在检测广泛的社交网络应用程序的松散同步行为。时间是 SynchroTrap 的一个重要维度（因此标志着与此处提出的方法的不同），因为该方法基于在线账户在同一时间间隔内执行的相同操作形成集群。

受粒子物理学、流体力学和天文学的启发，[28] 的作者从更广泛的角度考虑组异常，不一定面向垃圾邮件机器人组。例如，专注于人工智能领域的主要会议，他们考虑是否有已发表的论文，其主题对于这些会议来说是异常的，利用单个组件（例如论文的主题）和组件之间的关系（例如，不同论文共有的作者）。

2.3 比较

我们简要强调了我们的方法与引用论文的主要区别。首先，我们将单一维度视为让社交账户群体出现的基础：数字 DNA，即编码账户行为的字符序列。其次，在这项工作中，我们不考虑社交图谱的属性（例如，Twitter 上的关注链接或 Facebook 上的友谊）。这带来了降低数据收集成本的显着优势。事实上，基于图挖掘的方法（例如 [12]）通常依赖于大量数据，并且可能需要计算成本高昂的算法来执行检测 [16]。相反，我们的提议仅利用 Twitter 时间线数据来执行垃圾邮件检测。

第三，我们使分析师能够利用一套强大的工具（数十年来为 DNA 分析而开发）来验证他们关于在线垃圾邮件机器人行为的工作假设。

此外，我们受 DNA 启发的建模侧重于序列的概念，即符号的有序列表，长度可变，取自相对较小的字母表。这标志着与其他众所周知的不考虑元素排序的行为分析技术（如散列[29]）的明显区别。

在第 7 节中，我们将展示我们的方法与两种无监督方法（即 [30] 和 [31]）在检测性能方面的比较。正如稍后所讨论的，结果是有希望的，它们使我们相信数字 DNA 是一种简单而紧凑但功能强大的手段，可以检测新的社交垃圾邮件浪潮。我们的方法背后的直觉已在杂志论文 [32] 中简明扼要地介绍。

3 TWITTER数据集

在本节中，我们将描述构成我们实验中使用的真实数据的不同 Twitter 数据集。具体来说，我们收集了几个月的数据，这些数据涉及真实（人工操作）帐户的随机样本和两个不同的垃圾邮件机器人系列的活动。

在观察了2014年罗马市长选举期间我们在Twitter上发现的一群社交机器人的活动后，我们创建了第一个垃圾邮件机器人数据集。其中一位亚军为他的竞选活动聘请了一家社交媒体营销公司，该公司利用 Twitter 上近 1000 个自动账户来宣传他的政策。令人惊讶的是，我们发现这种自动账户在各方面都与真实账户相似。每个个人资料都准确填写了详细但虚假的个人信息，例如被盗的照片、简短的简历、位置等。这些帐户也代表了可靠的信息来源，因为它们都有成千上万的追随者和朋友，其中大多数是真实用户。此外，这些账号还表现出与真实账号明显相似的推文行为，每天都会发布一些推文，主要是来自大众的引用。然而，每当这位政治候选人从他的官方账户发布一条新推文时，所有自动账户都会在短短几分钟内转发这条推文。通过求助于这个机器人账户农场，这位政治候选人除了直接追随者外，还能够接触到更多真实账户，并设法在竞选期间改变 Twitter 参与度指标。令人惊讶的是，我们还发现了数十个试图与一些垃圾邮件机器人进行对话的人类账户。这种人与垃圾邮件交互的最常见形式是人类对垃圾邮件推文引用之一的回复。很明显，任何试图与垃圾邮件机器人互动的人类账号都没有收到他们的回复。

我们进一步调查了这个问题，发现它在意大利以外也很普遍。事实上，我们发现了第二组社交机器人，其目的是在 Amazon.com 电子商务平台上宣传销售的产品子集。这次的欺骗活动是通过发送指向广告产品的垃圾邮件 URL 进行的。然而，与意大利政治候选人的转发者类似，这个垃圾邮件程序家族也将垃圾邮件推文与许多无害且真实的推文交错。

此后，我们将意大利政治候选人的垃圾邮件转发器称为 Bot1，将那些宣传 Amazon.com 产品的垃圾邮件程序称为 Bot2。为了更深入地了解新型社交垃圾邮件机器人的高级特征，在图 1 中，我们显示了属于 Bot1 和 Bot2 组的 2 个垃圾邮件机器人的个人资料页面以及真实帐户的个人资料页面。如图所示，仅从 Twitter 配置文件的比较来看，几乎不可能将垃圾邮件程序与真实帐户区分开来。令人担忧的是，这与 Twitter 用户在浏览社交平台时通常会遇到的情况相同。更糟糕的是，图 1(a) 和 1(b) 表明，新颖的社交垃圾邮件机器人还采用了社会工程技术，例如年轻漂亮女性的头像和偶尔发布挑衅性推文，以便引诱真实账户。因此，与传统垃圾邮件机器人传播的威胁相比，由社交垃圾邮件机器人传播的任何威胁(例如恶意软件、钓鱼攻击等)都更有可能导致成功的攻击。

在识别出可能的垃圾邮件机器人后，我们利用 Twitter 爬虫来收集我们怀疑属于这两组垃圾邮件机器人的所有帐户的数据。然后，在此过程中收集的所有帐户都经过了手动验证阶段，以证明其自动化性质。具体来说，我们数据集的垃圾邮件机器人由两名精通技术的研究生进行了注释，他们每年都在 Twitter 和社交媒体上拥有丰富的经验。为了评估注释者间的一致性，我们使用了著名的 Cohen’s Kappa (κ) 评估指标 [33]。对于 Bot1 组的账户，κ = 0.824，而对于 Bot2 组的账户，κ = 0.351。这两个值分别被认为是优秀和公平的[34]。两个注释者之间的分歧已由超级注释者（即博士）解决。在女巫和垃圾邮件检测方面具有年度经验的学生。总而言之，在意大利政治候选人的所有不同转发者中，50.05%（991 个账户）被认证为垃圾邮件机器人。同样，在推特上发布可疑 Amazon.com URL 的账户中，有 89.29%（464 个账户）也被认定为垃圾邮件机器人。这两组帐户代表了我们关于社交垃圾邮件的基本事实。

然后，为了建立一个经过认证的人类账户数据集，我们随机联系 Twitter 用户，采用自然语言向他们询问简单的问题，遵循混合众感方法 [35]。对我们问题的回答是人工验证的，所有回答的 3,474 个帐户都被认证为人类。对于我们数据集的所有 4,929 个帐户，我们随后通过抓取他们的 Twitter 页面内容来收集行为数据。此外，我们还收集了有关他们所有直接关注者和朋友的数据，以及他们在推文中与之互动的所有账户的数据。表 1 显示了一些关于总收集数据的统计数据。

4 数字 DNA

人类基因组是关于人类的完整遗传信息集，它以核酸（DNA）序列的形式编码。 DNA 序列是一系列字符（即字符串），表示 DNA 分子中核苷酸的顺序。可能的字符是 A、C、G 和 T，代表 DNA 链的四个核苷酸碱基：腺嘌呤、胞嘧啶、鸟嘌呤、胸腺嘧啶。生物 DNA 存储了指导生物体功能和特征的信息。如今，DNA 序列在全球范围内被用于生物医学、人类学、法医学和其他科学分支。可以通过 DNA 测序方法从原始生物材料中读取 DNA 序列。目前，这些序列存储在序列数据库中，并通过生物信息学技术进行分析。其中最著名和广泛采用的分析技术是序列对齐和重复/基序诱导。这些技术的主要目标之一是发现 DNA 序列之间的共性和重复。实际上，通过对常见子序列和子串的分析，可以预测个体的特定特征并揭示不同个体之间的关系。

通过与生物 DNA 进行对比，我们设想可以通过字符串来模拟 OSN 用户的行为和交互，代表他们的行为顺序。事实上，在线行为——例如发布新内容、回复另一个用户、关注帐户——可以用不同的字符编码，类似于 DNA 序列，其中 A、C、G、T 字符编码四个核苷酸碱基。根据这种并行性，用户的行为代表了他/她的数字 DNA 的基础。正如 [36] 中强调的那样，OSN 上存在不同类型的用户行为。数字 DNA 是一种灵活、紧凑且有效的方式来模拟此类行为。它的灵活性在于可以选择在构建 DNA 序列时考虑哪些操作。例如，可以通过为每种可能的交互类型定义不同的基础，例如评论（基础 C）、喜欢（基础 L）、分享（基础 S），构建数字 DNA 序列来模拟 Facebook 上的用户交互并提及（基数 M）。然后可以根据用户执行的操作顺序将用户交互编码为由 C、L、S 和 M 字符组成的字符串。同样，可以通过为推文、转发和回复定义不同的基础来模拟用户在 Twitter 上的推文行为。然后可以根据他们发布的推文序列将用户的推文行为编码为一系列字符。在这方面，数字 DNA 显示出与固定四个核苷酸碱基的生物 DNA 的主要区别。在数字 DNA 中，碱基的数量和含义都可以根据一个旨在建模的行为/相互作用而改变。与其生物对应物类似，数字 DNA 也是信息的紧凑表示。例如，Twitter 用户的时间线可以编码为 3,200 个字符的单个字符串（每条推文一个字符）。

有大量的算法和技术可用于分析数字 DNA 序列。事实上，过去几年在生物信息学领域开发的用于分析生物 DNA 的许多技术也可以用来研究数字 DNA 的特征。

下面我们给出数字 DNA 的一般定义，并介绍 Twitter 的数字 DNA 概念，及其可能的应用之一：垃圾邮件检测。

4.1 数字 DNA 序列的定义及其在 Twitter 上的应用

用于创建数字 DNA 序列的碱基表示为一组有限的唯一符号或字符，用 B表示，定义为：

集合 B 也称为数字 DNA 序列的字母表。用于创建序列的碱基数是其字母表的基数，N = | b|。数字DNA序列是一个有序的元组或行向量，由字符(即字符串)组成，其可能的值由其字母表的基定义。序列 s 定义为：

DNA 序列中编码的动作数量决定了序列的长度，n = |s|。因此，可以使用字母表中有限数量的碱基来创建任意长度的序列。在数字 DNA 序列中编码某人的行为意味着将一个旨在建模的每个动作与字母表的基础联系起来。例如，可以按时间顺序扫描某人的动作，并为每个动作分配适当的碱基：以这种方式生成的碱基序列构成了数字 DNA 序列。作为一个实际的例子，我们可以通过定义以下字母表来模拟 Twitter 帐户行为，基数 N = 3，基于生成的推文类型：

然后，可以通过扫描用户在 Twitter 上生成的推文并通过将 T 字符分配给每条转发，将 C 字符分配给每条回复，将 A 字符分配给所有其他推文，从而获得基于 B3type 字母表的数字 DNA 序列。用户生成的推文的顺序相同。用字母 $B^3_{type}$ 生成的数字 DNA 序列的摘录是 s = (A,A,A,C,A,T,C,A,A,C,...)。数字 DNA 序列也可以用更紧凑的符号表示为字符串 s = AAACATCAAC...，而不是行向量。

$B^3_{type}$ 字母表只是在 Twitter 上为用户行为建模的可能方法之一。其他建模此类行为的方法可以利用推文的内容，而不是它们的类型。例如，为了根据内容对推文进行分类，我们利用了 Twitter 的实体概念(Twitter 定义了以下类型的实体：URL、#hashtags、@mentions 和媒体（图像、视频, 有关 Twitter 实体的完整参考，请参阅：https://dev.twitter.com/overview/api/entities)。我们利用 Twitter 实体来定义 $B^3_{content}$ 和 $B^6_{content}$ 字母表，可用于对不同粒度的推文内容进行建模，如下所示：

对推文内容建模的另一种可能方法可能涉及检测推文的主题 [37]、[38]。然后，可以定义一个字母表，以便为每个主要主题（例如政治、体育、技术、音乐等）提供不同的基础。无论如何，为了简单起见，在我们的工作中，我们只利用 Twitter 实体获取基于推文内容的 DNA 序列。

在上述符号中，字母表的特征是下标（例如，类型）标识碱基捕获的信息类型，上标（例如，3）表示字母表中碱基的数量 N。这两个索引通常足以明确识别字母表。正如 $B^3_{content}$ 和 $B^6_{content}$ 字母表所证明的那样，上标可用于区分用不同数量的碱基建模相同构面的字母表。

4.2 LCS: 数字 DNA 序列的相似性度量

如上所示，数字 DNA 序列是一种数据表示，适用于对单个 OSN 用户的行为进行建模。然而，当分析针对的是群体而不是单个用户时，将多个数字 DNA 序列作为一个整体进行管理和研究，以推断群体的特征可能会很有用。在这里，我们通过分析给定群体用户的数字 DNA 序列之间的相似性来研究集体行为。 M = | A | 用户的 A 组可以用 M 用户的数字 DNA 序列来描述，即:

在上述表征中，A组被定义为M个可变长度的数字DNA序列的列向量，该组的每个用户一个序列。

近年来已经开发了许多算法和技术，用于分析生物 DNA 序列或更一般地，字符串。这些技术主要来自生物信息学和字符串挖掘领域[39]。因此，采用基于 DNA 字符串的行为数据表示开辟了利用此类领域最新进展的可能性。此外，数十年的研究和开发导致了可扩展且高效的算法，非常适合管理和研究 OSN 数据的需求，这些数据本质上是庞大且不断增长的。

在量化顺序数据表示之间的相似性的可能方法中，在我们的工作中，我们依赖于两个或多个 DNA 序列之间最长公共子串的概念[40]。直观地说，与那些几乎没有或几乎没有行为模式的用户相比，具有较长行为模式的用户更可能相似。给定两个字符串，长度为 n 的 $s_i$ 和长度为 m 的 $s_j$ ，它们的最长公共子字符串（以下称为 LCS）是 si 和 sj 的子字符串中最长的字符串。例如，给定 $s_i = WASHINGTON$ 和 $s_j = RINGTONE$ ， $s_i$ 和 $s_j$ 之间的 LCS 是字符串 INGTON。这个问题的扩展版本考虑任意有限数量的字符串称为k-common子字符串问题.在这种情况下，给定 M 个字符串的向量 $A = (s_1,...,s_M )$ ，目标是找到这些字符串中的至少 k 个共有的 LCS，对于每个 2 ≤ k ≤ M。值得注意的是，最长公共子串和 k-公共子串问题都可以在线性时间和空间内解决，方法是借助广义后缀树和实施最先进的算法，例如 [40] 中提出的算法。解决每个 2 ≤ k ≤ M 的 LCS k-common substring 问题，可以绘制 LCS 曲线，显示 LCS 的长度与字符串数 k 之间的关系。例如，图 2(a)、2(b) 和 2(c) 描绘了为一组真实（人工操作的）Twitter 帐户计算的 LCS 曲线。在 x 轴上报告了 k 个帐户的数量（对应于用于计算 LCS 值的 k 个字符串或数字 DNA 序列），在 y 轴上报告了至少 k 个帐户共有的 LCS 的长度。

作为 LCS 定义的直接结果，随着账户数量 k 的增加，所有账户共有的 LCS 的长度会缩短。换句话说，LCS 曲线是单调非增函数：

这在图 2(a)、2(b) 和 2(c) 的 LCS 曲线中也清晰可见。因此，更有可能在少数帐户中而不是在大组中找到长 LCS。

5 用 LCS 曲线表征账户 DNA

为了最大限度地利用数字 DNA 的潜力，我们需要更深入地了解区分真正用户和社交垃圾邮件机器人的元素。因此，基于第 4 节中给出的数字 DNA 和 LCS 曲线的定义，在本节中，我们研究第 3 节中介绍的不同数据集的 LCS 曲线的特征。我们评估这些账户组之间的差异和相似之处，从我们的数字 DNA 序列的镜头中可以看出。

图 3 显示了真实（人类）账户的 LCS 曲线与 Bot1（图 3（a））和 Bot2（图 3（b））组的 LCS 曲线之间的比较。如图所示，即使帐户数量增加，两组垃圾邮件程序的 LCS 也相当长。这在图 3(b) 中非常明显（Bot2 – Amazon.com 产品的垃圾邮件发送者）。对于这两个垃圾邮件组，我们观察到当帐户数量接近组大小时，LCS 长度突然下降，即在 x 轴的末端。与垃圾邮件机器人的非常高的 LCS 曲线相比，真实帐户几乎没有相似性——正如 LCS 曲线所代表的那样，它呈指数衰减，迅速达到 LCS 长度的最小值。

真实账户和垃圾邮件机器人的 LCS 曲线之间的初步但相当大的差异表明，尽管这些新型垃圾邮件机器人具有先进的特征，但 $B^3_{type}$ 数字 DNA 能够发现其自动化和同步活动的痕迹。反过来，一大群账户的自动化行为导致此类账户的 LCS 曲线异常高。事实上，我们认为高行为相似性是自动化的代表，因此，一大群账户之间异常高的相似性可能是异常行为的危险信号。在下文中，我们初步比较了异构用户组，寻找可用于设计检测机制的特征，而在下一节中，我们将详细介绍如何利用这些元素来实现有效的检测机制。

5.1 一组异构用户的LCS曲线

在上一节中，我们分析了来自具有相似特征的用户的数字 DNA 序列的 LCS 曲线，例如真实的 Twitter 帐户和特定家庭的垃圾邮件机器人。我们发现，具有不同特征的群体会导致不同的LCS曲线。然而，我们还没有考虑从未知和异构用户组的序列中获得的 LCS 曲线。因此，利用迄今为止研究的不同账户组，我们构建了 2 组异构账户，我们将 Bot1 和 Bot2 组的所有垃圾邮件机器人混合在一起，和具有相同数量的真实账户。此后，此类异构帐户组分别称为 Mixed1 和 Mixed2。图 4 显示了通过 $B^3_{type}$ 字母表获得的 LCS 曲线。

在图 4 的左侧图中，我们观察到 LCS 长度随着所考虑帐户数量的增加而持续减少。这种缓慢的下降有时会与更陡峭的下降交织在一起，例如发生在 500 和 1,000 个帐户区域的下降。图 4 的右侧图中显示了另一个 - 甚至更明显的 - 急剧下降，在 400 个帐户的区域中。随着账户数量的增加，两个图中的 LCS 曲线逐渐达到其最小值。总体而言，此类 LCS 曲线显示出与一组类似账户相关的行为不同的行为，例如图 3(a) 和 3(b) 中所示的行为。实际上，图 4 中的图缺少跨越 LCS 曲线整个域的单一趋势。相反，它们描绘了一种趋势似乎仅在达到某个阈值之前才占主导地位的情况。然后，出现急剧下降，另一个（可能不同）趋势开始出现。值得注意的是，被急剧下降分隔的 LCS 曲线的这些部分类似于过去的相似用户（即 Bot1、Bot2、人类）的单个组的 LCS 曲线。获得异构用户的集合（即，Mixed1，Mixed2）。 LCS 曲线的急剧下降将 LCS 的长度几乎保持不变的区域分开，即使考虑的账户数量显着不同。例如，在图 4 的左侧图中，当考虑 500 到 1,000 个之间的帐户数量时，LCS 几乎保持不变。这同样适用于图 4 的右侧图，对于一些低于 400 的账户。LCS 曲线中的这种平台与高度相似账户的同质组严格相关。请注意，可以在单个 LCS 曲线中观察到多个平台，如图 4(a) 所示。这表示在整个考虑的帐户集合中存在多个(子)组的情况。此外，LCS曲线的下降越陡峭、越明显，两组账户的差异就越大。

总而言之，未知和异质用户组的 LCS 曲线可以呈现一个或多个平台，这些平台与同质（即具有高度相似行为）用户的子组相关。相反，陡峭的下降代表了标志着不同子组之间巨大差异的点。最后，LCS 曲线的缓慢和逐渐下降代表了不确定性领域，在这些领域可能难以对基础账户的特征做出强有力的假设。总之，我们认为未知和异构用户组的 LCS 曲线能够传达有关高度相似用户的相关和同质子组的信息。

6 社交指纹：利用 LCS 曲线检测社交垃圾邮件

在本节中，我们报告了我们为检测构成 Mixed1 和 Mixed2 组的垃圾邮件机器人和真实帐户的两个子组而进行的实验的结果。我们根据 LCS 曲线的特征讨论了两种不同的方法来拆分 Mixed1 和 Mixed2 组的帐户。我们定义了有监督和无监督的方法，展示了 LCS 曲线的适用性以及检测机制的有效性。对于这两种方法，我们将那些与高 LCS 值相关的帐户视为垃圾邮件机器人，即共享长行为模式。相反，我们将那些共享少量数字 DNA 的帐户视为真正的用户。我们的方法对使用异构账户组的 LCS 曲线检测垃圾邮件机器人（即行为非常相似的账户子组）的可能性进行了严格评估；

6.1 寻找相似用户的子群：一种有监督的方法

在垃圾邮件检测场景中，监督方法通常用于区分垃圾邮件和真实用户。监督分类器开始分析训练集，其中指定了每个用户的类别（即，用户被标记为垃圾邮件机器人或真实用户），以了解两类用户的特征。然后，他们利用这些学习到的特征来自动区分垃圾邮件机器人和一组新的未标记用户中的真实用户。此外，测试集用于评估和比较不同分类器的有效性。这种方法通常在各种机器学习分类任务中执行。

我们设计了一种方法，将 LCS 曲线和可从训练集中获得的用户标签结合起来，作为检测用户子组（即垃圾邮件机器人）的监督方法。将原始用户集很好地划分为几个子组是将属于给定类别的所有用户分配到同一子组。理论上，可以将异质用户群的 LCS 曲线上的任意一点作为分裂点，得到两个更同质用户的子群。然而，直观地说，并非所有可能的分裂点都会导致准确的子组划分。使用给定的标签，我们可以评估训练集用户的LCS曲线上的每一个可能的分裂点，并找到一个可能产生最佳子组划分的分裂点。在这方面，每个点都会生成一个不同的分类器，可以根据机器学习性能指标进行评估。根据给定的选择度量，与实现最佳结果的分类器相关联的 LCS 值然后用作对测试集的用户进行分类的阈值。不同的分类器也可以通过 ROC 曲线进行定性评估，其中最好的分类器是靠近图左上角的分类器 [42]。 ROC 曲线中的对角线与随机分类器相关。

我们评估了上述监督方法在 5.1 节中介绍的mixed 1 和mixed 2 组异构用户中检测垃圾邮件程序的有效性。我们使用 50% 的 Mixed1 和 Mixed2 用户作为训练集，其余部分作为测试集。图 5 显示了训练集用户的 LCS 曲线和各个分类器的 ROC 曲线。在评估机器学习分类器常用的各种指标中，我们选择了最好的分类器作为实现最高马修斯相关系数 (MCC)（MCC 评估指标的定义和含义在下面的 6.3 节中给出。） [43] 的分类器。在图 5 的 ROC 曲线中，对应于最佳分类器的点用蓝色十字标记突出显示。根据我们的监督方法，与最佳分类器相关的 LCS 值代表最佳分裂点，并在图 5 的 LCS 曲线中突出显示为实心垂直蓝线。我们将位于垂直分割线左侧的用户识别为垃圾邮件程序，将位于垂直分割线右侧的其他用户识别为真实用户。

（应用监督方法在一组未知帐户中区分垃圾邮件机器人和真实用户。使用监督方法获得的分类器的 ROC 曲线显示在底部图中。对于每组用户，最佳分类器在相应的 ROC 曲线中用蓝色十字标记表示。上图中显示了 2 个异质组的 LCS 曲线。最佳分裂点在 LCS 图中用垂直的蓝色实线标记。分裂点左侧的帐户被识别为垃圾邮件程序，而右侧的帐户被识别为真实用户）

值得注意的是，与通常以监督方式运行的分类方法一样，当应用于与用于导出此类 LCS 值的测试集不同的测试集时，不能保证学习到的 LCS 值仍然有效。这个问题在机器学习文献中被称为迁移学习或归纳学习[44]。为了克服这个限制，在下一节中，我们定义了一种无监督的方法来区分垃圾邮件机器人和真正的用户，它不会受到这个缺点的影响。

6.2寻找相似用户的子组:一种非监督的方法

在这里，我们讨论了一种无监督方法，该方法利用先前的发现并利用异构用户的 LCS 曲线的形状来找到具有相似行为的用户子组。具体来说，我们建议利用 LCS 曲线的离散导数来识别对应于陡降的点。这种方法适用于广泛的情况，因为它不需要除异类用户组的 LCS 曲线之外的信息。

LCS 曲线的陡峭下降在导数图中显示为尖峰，表示合适的分裂点，以隔离整个用户集合中的不同子组。所有合适的分裂点可以根据它们相应的导数值（即相应的下降有多陡）进行排序，然后可以应用分层自上而下（即分裂）的方法，基于排名点通过重复划分整个用户集，导致树状图结构。例如，这种方法可以在 LCS 曲线表现出多个平台和陡降的情况下被利用，以便找到可用于划分原始异构用户集的最佳可能集群。M个用户的LCS曲线的离散导数可以很容易地计算为（k = 3,...,M）

鉴于 LCS 曲线是定义在 [2,M] 范围内的单调非增函数，它们的导数 LCS' 将仅假设零或负值，LCS 的急剧下降对应于 LCS' 中的尖锐负峰。可以使用简单的峰值检测算法来自动检测 LCS' [45] 中的相关峰值。值得注意的是，这种方法不需要训练阶段，并且可以像聚类算法一样以无监督的方式使用。

为了证明这种无监督方法的有效性，我们将其应用于从未标记的 Mixed1 和 Mixed2 组中获得的 LCS，目的是将垃圾邮件机器人与真正的用户分开。图 6(a) 和 6(b) 分别显示了 Mixed1 和 Mixed2 组的 LCS 的堆叠图，以及它们的离散导数 LCS'，包括线性和对数尺度。导数的对数标度图已计算为 log10 | LCS' |为了清楚起见，添加了它们，因为它们突出了线性比例图的不太明显的峰值。为了便于检测 LCS' 中的峰值，我们在计算其导数之前平滑了原始 LCS 曲线 [46]。这个预处理步骤的作用很像一个低通滤波器，可以使大部分噪声波动变平。

（应用无监督方法在一组未知帐户中区分垃圾邮件程序和真实用户。 LCS 导数中代表分割的最佳候选点的峰值在所有图中用垂直的蓝色实线标记。拆分点左侧的帐户被识别为垃圾邮件程序，而右侧的帐户被识别为真实用户）

在图 6 中，蓝色垂直实线对应于 Mixed1 和 Mixed2 的 LCS' 中最明显的峰。如图所示，所提出的方法准确地识别了合理的分裂点，以便在整个未标记用户集合中找到两个集群。具体来说，那些位于垂直分割线左侧的用户——即共享长行为模式（即长 LCS）的用户——被标记为垃圾邮件机器人。反之，垂直分割线右侧的用户——即几乎没有相似之处的用户——被标记为真实用户。除了这个定性评估，在第6.3节中，我们还通过机器学习算法的众所周知的性能指标，对我们的垃圾邮件机器人检测技术进行了彻底的定量评估。

我们注意到，尽管 Mixed1 和 Mixed2 组具有相同数量的真实帐户和垃圾邮件帐户，但考虑到整个 Twitter 领域 [47]，这两种帐户之间的比例通常是不同的。 Mixed1 和 Mixed2 的平衡是因为我们主要设想应用我们的数字 DNA 技术来发现专门事件/活动中的异常群体，例如，那些转发特定主题标签的账户，或参与竞选活动，或追随者某个帐户的。虽然分析集中在围绕特定事件行事的账户子集上，但真实账户和垃圾账户之间的比例可能会有很大差异，甚至会导致两组基数的平衡。为了完整起见，我们进行了一系列进一步的实验，目的是研究我们的技术在整个 Twitter 领域的适用性，以便当机器人账户和人类账户之间的比例可能不同于我们最初的测试集时，深入了解它的有效性。本实验的结果将在下一节中介绍。

6.3 两种方法的比较

如图 5 和图 6 所示，有监督和无监督方法都确定了相似的分裂阈值，这些阈值位于 Mixed1 和 Mixed2 的 LCS 曲线最陡峭的下降范围内。然而，有监督和无监督方法的结果略有不同，特别是关于 Mixed2 组的帐户。在下文中，我们提供了两种方法的定量比较，以评估哪种方法实际上更好地区分垃圾邮件机器人和真实用户。

为了总结监督和无监督方法的结果，我们利用基于四个标准指标的评估指标：

True Positives (TP)：正确识别的垃圾邮件程序的数量；

• True Negatives (TN)：正确识别的真实用户数量；

• False Positives（FP）：被错误识别为垃圾邮件的真实用户数量；

• False Negatives(FN)：被错误识别为真实用户的垃圾邮件程序的数量。

每个指标的含义由表 2 的所谓混淆矩阵总结，其中每一列代表预测类中的实例，每一行代表实际（真实）类中的实例 [48]：

然后，在前面介绍的指标的基础上，我们计算了以下标准评估指标：Precision，recall, f1, accuracy，Specificity, Matthews Correlation Coefficient (MCC)；

上述每个指标都反映了预测性能的不同方面。准确度（acc）衡量有多少用户在两个类别中被正确分类，但它并没有表示正面类别是否比另一个类别更好地识别。此外，在某些情况下，某些预测模型的性能比其他模型更好，甚至精度较低 [49]。高精确度(precision)表明许多被识别为垃圾邮件机器人的用户确实是真正的垃圾邮件机器人，但它没有提供任何关于未被识别为垃圾邮件机器人数量的信息。此信息由召回指标(recall)提供，实际上召回率低意味着许多垃圾邮件机器人未被检测到。相反，特异性衡量(specificity)的是识别真正用户的能力。最后，F-Measure 和 MCC 在一个单一的值中传达了预测的整体质量，并结合了其他指标。此外，MCC 被认为是 F-Measure 的无偏版本，因为它使用了混淆矩阵的所有四个元素 [49]。作为相关系数，MCC ≈1 表示预测非常准确，MCC ≈ 0 表示预测不比随机猜测好，MCC ≈ -1 表示预测与真实类严重不一致。表 3 显示了针对所有考虑的指标的 Mixed1 和 Mixed2 组的用户的评估结果。

(在 Mixed1 和 Mixed2 组的测试集用户中，社会指纹分割技术和其他最先进的算法在检测垃圾邮件方面的比较。#: 关于[30]的特征集，一些账户的所有特征都为空值，因此无法将聚类算法应用于这些账户)

总体而言，监督和非监督方法都为检测 Mixed1 和 Mixed2 组的用户中的垃圾邮件提供了准确的结果。这由表 3 中显示的所有考虑指标中的高值表示。正如预期的那样，两种方法之间的主要差异与针对 Mixed2 组的性能有关。在这种情况下，无监督方法的结果稍差，MCC = 0.867，而有监督方法的 MCC = 0.949。实际上，无监督方法执行了相当保守的拆分，导致性能下降。 FP = 0 和 FN = 33 证明了这一点，这意味着标记为垃圾邮件机器人的帐户都不是真实的，但有些垃圾邮件机器人未被检测到。相反，使用监督方法，选择分裂阈值的方式是导致 FP = 8 和 FN = 4，从而显着提高性能。此外，监督方法的结果在 Mixed1 和 Mixed2 组之间非常一致，所考虑的评估指标之间的差异很小。总之，在监督方法中利用的附加信息(即训练集用户的类标签)会导致稍微更好的检测。尽管如此，无监督方法也能够提供整体准确的预测.

最后，我们使用反映真实单词场景的数据集评估了无监督方法的性能，其中垃圾邮件机器人的数量应该远小于人工操作账户的数量。特别是，图 7 报告了 MCC 是根据在 5,000 个总帐户的数据集中，考虑到垃圾邮件程序和真实帐户数量之间的比率从 0.01 到 0.10 获得的实验结果。对于每个实验，我们首先设置垃圾邮件比例。然后，我们随机挑选两个原始测试集（Mixed1 和 Mixed2）的 DNA 序列，以构建具有正确数量的垃圾邮件机器人和真实帐户的混合数据集。

最后，我们在此类数据集上执行了无监督检测方法并评估了检测性能，对 20 次执行的结果进行了平均。从图 7 中的图中可以明显看出，随着数据集中机器人数量的增加，性能会有所提高。考虑到这个实验中spambot帐户的数量非常低(最小的只有50个spambot)，无监督方法的可靠性仍然是值得注意的。

7 讨论

为了彻底评估社交指纹技术，我们将我们的检测结果与不同最先进的垃圾邮件检测技术（即 Yang 等人的监督检测技术）获得的结果进行了比较。 [9]，以及米勒等人的无监督方法。 [31] 和艾哈迈德等人。 [30]。 [9] 中介绍的工作提供了一个机器学习分类器，该分类器通过依赖帐户的关系、推文时间和自动化水平来推断 Twitter 帐户是真实的还是垃圾邮件。我们复制了这样一个分类器，因为作者好心地为我们提供了他们的训练集。相反，[31] 和 [30] 中的工作定义了一组机器学习特征并应用聚类算法。具体来说，在 [31] 中，作者提出了 DenStream 和 StreamKM++ 算法的修改版本（分别基于 DBSCAN 和 k-means）并将它们应用于检测 Twitter 流上的垃圾邮件。艾哈迈德等人。 [30]利用特征向量之间的欧几里德距离来构建账户的相似性图，并利用图聚类和社区检测算法来识别图中的相似账户组。值得注意的是，社交指纹检测技术在所有考虑的指标上都优于其他方法，Mixed1 的 MCC = 0.952 和 0.955，Mixed2 的 MCC = 0.867 和 0.940。具体来说，[9] 和 [31] 的方法与我们提出的方法和 [30] 的方法之间存在明显的性能差距。 Yang等人的监督方法。 [9] 证明无法准确地区分垃圾邮件机器人和真实帐户，大量的假阴性 (FN) 和由此产生的非常低的召回率证明了这一点。这一结果支持了我们最初的说法，即这一波新的机器人程序与真实账户惊人地相似：如果逐个考虑，它们将非常难以检测。此外，[31] 中的无监督方法也提供了不令人满意的结果。在 [31] 中提出的 126 个特征中，95 个基于推文的文本内容。然而，新颖的社交垃圾邮件机器人，例如本研究中考虑的那些，推文内容类似于真实帐户的内容（例如，转发真实推文和流行语录）相反，[30] 中的方法在检测我们认为的垃圾邮件程序方面证明是有效的，显示 Mixed1 的 MCC = 0.886 和 Mixed2 的 MCC = 0.847。只有 7 个特征，[30] 专注于转推、主题标签、提及和 URL，从而沿着这些垃圾邮件发送者利用的维度分析帐户。然而，尽管为所考虑的垃圾邮件机器人实现了整体良好的性能，但 [30] 中的方法可能缺乏在具有不同行为的其他垃圾邮件机器人组中的可重用性，例如那些进行追随者欺诈的垃圾邮件 [12]、[16]。相反，社交指纹识别足够灵活，可以在不关注特定特征的情况下突出显示帐户组之间的可疑相似性。

7.1 新兴的垃圾邮件机器人

如第 2 节所述，我们的工作解决了检测新一波社交 Twitter 垃圾邮件的问题。通过准确模仿真实用户的特征，这些垃圾邮件机器人本质上比过去几年学术界研究的那些更难检测。因此，在逐个帐户的基础上检测此类垃圾邮件程序非常困难，例如机器学习分类器。杨等人的方法获得的检测结果不佳支持了这一主张。 [9]。表 3 清楚地表明，[9] 的监督方法无法有效区分我们 2 个混合数据集中的真实用户和垃圾邮件。当考虑到杨等人的方法时，这一结果尤为重要。专门用于检测不断演变的 Twitter 垃圾邮件发送者。显然，这样的垃圾邮件机器人并没有像杨等人那样进化。想象的。反过来，我们的工作也为新一波垃圾邮件机器人的出现提供了额外的证据，正如在 [11] 中已经观察到的轶事。

尽管这些新的垃圾邮件机器人具有先进的特征，我们认为它们的自动化性质的痕迹仍然存在于它们的行为历史中。这种微妙的痕迹可能不足以通过简单地分析他过去的行为来推断帐户的性质（无论是真实的还是垃圾邮件）。尽管如此，可以通过观察账户组的集体行为来利用它们。由于属于同一家族的垃圾邮件机器人——即属于同一机器人主人并进行相同非法活动的垃圾邮件机器人——必须具有相同的目标，因此行为相似，因此可以利用大组帐户之间的行为相似性作为自动化的代理。

7.2 关于复杂性和可扩展性的说明

值得注意的是，近年来提出的用于垃圾邮件检测的最佳性能技术是基于对数据和时间要求高的分析。这突出了垃圾邮件检测的准确性和响应性之间的权衡。计算特征所需的数据量——以及由此导致的结果提供缺乏响应能力——也破坏了这种检测技术的大规模适用性。在这方面，我们的社交指纹技术不仅有效，而且高效。事实上，前面提到的一些垃圾邮件检测方法属于那些需要大量数据要求功能和计算要求高的算法的方法。例如，基于图挖掘的方法，如 [12]，已被证明在执行检测所需的数据方面要求更高 [16]。相反，社交指纹技术仅利用 Twitter 时间线数据来执行垃圾邮件机器人检测，并且执行的算法在线性时间和磁盘空间中运行，并具有要调查的帐户数量 [40]。此外，为了解决和解决社交网络领域的其他研究挑战，可以从生物信息学和字符串挖掘领域的已建立文献中提取其他用于分析生物 DNA 和字符串的算法。

为了提供我们检测技术的效率和可扩展性的实验证据，我们还进行了一些基准测试，监控不同实验设置下的时间和内存消耗。特别是，我们监测了增加调查账户的数量、增加其数字DNA序列的长度以及改变考虑的数字DNA字母表(B3content和B6content)对执行时间和内存消耗的影响。结果如图8所示，报告了我们在每个实验设置下执行的20次运行的平均值。

（在不同条件下（即字母表、账户数、数字 DNA 序列长度），社交指纹检测技术运行 20 次的平均执行时间和内存使用量。误差线报告平均值±3标准偏差的下限/上限。）

我们的实验是在具有 8Gb RAM 和单个处理器的 2.1Ghz 运行 Ubuntu 的虚拟机上进行的。图 8 中的所有图都表明，时间复杂度和所需内存的增长都是线性的，即将参数之一加倍大致使实验复杂度加倍。考虑到 LCS 问题仍然得到很好的研究，并且在分布式计算环境中有几个利用高并行化 [50] 的解决方案，我们可以得出结论，我们的方法具有足够的可扩展性，并且可以用于处理实际案例，例如寻找组给定 Twitter 帐户的追随者中的垃圾邮件程序。

7.3 数字 DNA 的灵活性和多维性

提供数字 DNA 的高度灵活性，我们还设想利用我们的社会指纹技术的结果作为更复杂检测系统中的一个特征的可能性。例如，利用源自数字 DNA 分析和其他机器学习特征的特征的混合检测系统，或者同时利用多种类型的数字 DNA 的系统。实际上，可以利用不同类型的 DNA（如第 4.1 节中定义的 B3type、B3content 和 B6content）来模拟用户行为的不同维度。然后，这些模型的结果可以同时用于集成或投票系统。例如，当使用给定的数字 DNA 字母表建模时，一些帐户可能位于最终 LCS 曲线的不确定区域，例如，如第 5.1 节所述，缓慢而逐渐下降。然而，相同的帐户可能会通过使用不同数字 DNA 字母表获得的 LCS 曲线来明确表征。因此，利用多个字母（然后是用户行为的不同方面）可能会发现正在调查的帐户的更多特征，最终导致更好的检测结果。

可以根据这些字母提取在线用户的数字 DNA 的其他字母如下。考虑到给定用户与之交互的同伴的受欢迎程度，一个字母表可以捕获 Twitter 用户的交互模式。具体来说，我们可能会考虑利用用户之间的转发和回复作为一种互动形式，并且将帐户的关注者视为该帐户受欢迎程度的衡量标准。例如，字母 Binteraction 可以定义一个基来表示与名人用户的交互，另一个基表示与普通用户的交互，最后一个基表示非交互的推文（即，既不是转发也不是回复）。

甚至可以通过我们的数字 DNA 序列轻松地对最近在 [51]、[52]、[53] 中研究的基于网络的在线行为特征和在 [54] 中研究的行为特征进行建模，这些行为特征源自市场分析和社会保障分析领域。

尝试不同的字母和碱基可能会改变我们建模和分析技术的结果。为了评估所提出的改变字母表和碱基数量的方法的能力，表 4 显示了社交指纹识别的检测性能 - 以无监督的方式 - 当使用第 4.1 节中定义的 B3content 和 B6content 进行序列化时Mixed1 帐户的行为。表 4 中的结果显示检测性能稍差，相对于使用 B3type 字母表测量的结果：B3content 的 MCC = 0.915，B6content 的 MCC = 0.913，而 B3type 的 MCC = 0.952。

无论如何，尽管检测性能略差，但在所有评估指标上仍然非常好，因此代表了我们技术的有效性和适用性。最后，我们注意到我们提出的方法非常通用和灵活，因为它可以通过直接使用强大的工具来加深对 LCS 曲线的分析，例如用于聚类的树状图和用于分类器的 ROC 曲线，这些工具已经被广泛采用在许多机器学习任务中。

7.4 规避技术防御

鉴于社交指纹技术的重点是用户操作的顺序，人们可以预见逃避垃圾邮件发送者会随机重新排序他们的推文序列，以逃避检测。为了彻底评估这种规避技术对我们检测性能的影响，我们通过蒙特卡罗模拟进行了一系列实验[55]。具体来说，对于 Bot1 和 Bot2 组的每个帐户，我们对其真实的数字 DNA 字符串进行了 1,000 次随机排列。执行数字 DNA 字符串的排列实际上意味着随机改变动作的顺序。然后，图 9(a) 和 9(b) 显示了 LCS 在应用排列时如何变化。

如图所示，相对于原始（即真实）序列，置换序列的 LCS 值较低。这意味着随机重新排序操作序列实际上消除了垃圾邮件机器人帐户之间的一些相似之处。然而，LCS 曲线的定性趋势并没有改变。特别是，如图 9(c) 所示，从置换序列中获得的 LCS 曲线仍然与真实账户典型的长尾分布有显着差异。这种显着的差异仍然允许对垃圾邮件机器人进行相当准确的检测。

即使在排列实验之后，这些垃圾邮件机器人仍然可以与真实帐户区分开来，因为垃圾邮件机器人序列中碱基的统计分布与人类序列的统计分布不同。一方面，垃圾邮件机器人的序列变异性（即熵）较小，并且它们往往具有相对于其他序列占优势的 DNA 碱基。另一方面，真实账户的基本分布几乎是均匀的。这解释了为什么根据我们的 LCS 相似性方法，在我们的数据中，随机重新排序垃圾邮件机器人的序列，虽然部分消除了相似的行为模式，但仍然可以将它们与人类区分开来

为了处理正在调查的垃圾邮件帐户，我们依赖于最长的公共子字符串度量 [40]。该度量相当严格，因为它考虑了两个或多个数字 DNA 序列之间子串的精确匹配。未来的垃圾邮件机器人可以使他们的动作序列更加随机并具有更高的熵，从而可能避开最长的公共子串相似度度量。然而，我们认为我们的技术仍然可以通过依赖更灵活的字符串相似性度量来采用。一个值得注意且有希望的例子是最长的公共子序列度量[56]。这种度量标准已经在许多生物 DNA 分析任务中广泛采用，它通过考虑部分匹配而不是精确匹配来扩展最长的公共子串。因此，它可以被用来发现复杂的社交垃圾邮件机器人留下的更大的行为相似性。

相同的指标也可用于检测其他更复杂的垃圾邮件发送者类型，例如众包垃圾邮件发送者，即受雇执行垃圾邮件发送任务的人。虽然众包垃圾邮件发送者可能表现出一定程度的相似性，但他们可能表现出与自动帐户（即机器人）不一致的行为。因此，针对众包垃圾邮件发送者的检测机制可能会受益于利用更灵活的最长公共子序列。

8 结论

在本文中，我们首先确认最近一波垃圾邮件机器人已经过彻底设计，以模仿 OSN 真正用户的人类行为。我们还证明了这些新型垃圾邮件机器人确实能够逃脱专门为检测它们而设计的最先进的算法。后来，我们提出了数字DNA行为建模技术。利用这种方法，我们已经能够验证我们的工作假设：在考虑用户时，仍然存在使人类与机器人不同的低强度信号，而不是逐个帐户，而是基于集体行为。我们的社交指纹检测方法和耦合算法工具箱——来自生物信息学和字符串挖掘领域——已经显示出对所有最相关检测指标的出色检测能力，优于最先进的解决方案。