Dissecting a Social Botnet: Growth, Content

最新推荐文章于 2024-04-19 09:53:06 发布

TedLau.

最新推荐文章于 2024-04-19 09:53:06 发布

阅读量374

点赞数

分类专栏： Social Botnet Twitter 文章标签： 1024程序员节

本文链接：https://blog.csdn.net/qq_30204577/article/details/127489466

版权

Social Botnet 同时被 2 个专栏收录

1 篇文章 0 订阅

订阅专栏

Twitter

1 篇文章 0 订阅

订阅专栏

本文深入探讨了一个针对叙利亚内战的推特僵尸网络，研究了其增长、结构、内容特点以及对讨论的影响。僵尸网络通过生成新闻、误导信息和模仿人类行为来操纵在线讨论。尽管其行为模式与传统僵尸网络不同，但它们在社交媒体平台上展现出显著的影响力，特别是在阿拉伯语推文中。研究还揭示了僵尸网络如何通过流行文化和无关话题来分散注意力，以及其潜在的误导作用。

摘要由CSDN通过智能技术生成

Abstract

僵尸网络有很多方法扰乱或者影响在线讨论，比如：传播标签、欺骗用户和astroturfing。本文讨论了推特上的一个特定的僵尸网络并探究了它是如何随着时间增长的、在同样的数据集了里僵尸网络发出的推文如何与普通用户发的不同，并且最后探究了僵尸网络是如何影响相关话题的。

文章的数据集机遇一个来自叙利亚持续35周的僵尸网络，利用其中的大约3000条阿拉伯语和英语的推文。

实际上，该僵尸网络的行为并不完全符合僵尸网络的概念。

Introduction

文章采用了一个叙事似的口吻引入要讨论的话题，从一个推特上的普通用户对于一个tweet的好奇开始。

网络上61.5%的流量来自于bots，32%的推文来自于最活跃的bots。在未来我们将会被迫去做出的社会interpretations将会是有关人和有人类行为的机器。分析出来这个僵尸网络由130个账户组成。

文章**首先**定义了一个社交僵尸网络，**然后**涵盖了之前有关社交僵尸网络的相关研究，**之后**描述了这个僵尸网络中的一些推文数据集。然后再在这个数据集上做了三个分析：

SSB（叙利亚僵尸网络）随时间的增长情况
分析了僵尸网络的内容和普通用户的内容
僵尸网络再这个数据集背景下产生的可能的影响

Bots as social actors

bot是一种被设计用于自动在一个计算机系统中执行任务的软件。被用于简化工作。

ASA（automate social actor）。这是一个可以用来在社交场合中可以在某些方面模仿人类的行为的软件，不同的ASA在社交场合中所扮演的角色以及复杂度有所不同，可以简单到收集信息并发布推特也可以复杂到通过图灵测试的对话机器人。当ASA试图以真人的身份展示时，那么它背后的目标、动机以及机制是比较有意思的，如果其打算传播特定的意识形态，那么就会产生错误的共识。

文章对ASA的定义更接近于早期的IRC。

Studying social bots and botnets

IRC

机器人早在IRC阶段就已经了流行了，远早于现在的Facebook和twitter。IRC bot流行的主要原因是实现的简单性以及其扩展能力。

大多数关于IRC和僵尸网络的研究主要集中于检测、追踪和对其的描述上，Abu Rajab等人确定了僵尸网络的一些用于瞄准其受害者的扫描机制（uniform、non- uniform、localized scanning algorithms），并且通过在三个月的时间内追踪192个IRC僵尸网络得出结论僵尸网络的平均寿命周期时47天。

Mobs in Multi-User Domains

讨论僵尸网络在NPC中的作用，为了增进玩家体验，例如魔兽世界。另外游戏代理也可以在人类玩家不在的情况下有效地玩游戏，这些未授权的机器人会破坏游戏生态。

Bots in Contemporary Social Computing Systems

2012年，Facebook估计约有5-6%的用户是fake的，约5000万。没有发现有用的东西

The Syrian social botnet （SSB）

社交僵尸网络再扫描受害者和模仿人类行为方面，它们只会变得更加复杂，目前的很多工作主要集中在自动检测机制上，但对于了解社交计算平台中社交僵尸网络的行为和特征却很少。

作者基于在野外捕获的一个基于推特的僵尸网络，并进行了为期六个多月的更总。文章主要关注的是SSB的、结构和增长。

Method：Discovering a social botnet

于2012年4月开始收集与叙利亚内战相关的推文：利用每个城市和国家的英文和阿拉伯语名称搜索语叙利亚相关的术语以及叙利亚的五个主要城市的名称。初始数据集涵盖了18个月，每天有15万到50万条推文。其中重点关注了叙利亚内战期间具体事件节点的社会结构，如一些屠杀和纪念日。作者发现，反复出现的用户群相互转发消息，这显示出大概是一个僵尸网络，从中确定出20个高流量推特用户以及他们的关系，其中有17个账户在同一时间被暂停使用，最后一条文章都来自于同一个bot

SSB的分布

Growth and Structure of SSB

需要明确这些bot是不是都扮演着相同的角色，随着时间的推移行为是否有变化？作者检查了每个bot 的：

每周推文的总数
每周转发的总数
每周“bot转发”的总数—-:>其他bot转发的数量

根据行为模式，bot被分为以下五个类别：短期bot、长期bot、generator bot、core bot、peripheral bot（外围bot）。

core bot：

1、经常发文，一开始一周1600+条，随着时间的推移，在第28周中位数达到了5700条。

2、有一半活动集中于转发推文，转发的推文与推文总数的比率为0.4691.并且，这些bot只转发由其他core bot创建的转发，占比达到0.9909. 在寿命上，存活时间从1到32周不等

peripheral bot：

这是潜在的合法推特用户，他们通过转发一些core bot生成的推文从而在无意中介入了SSB中。但是，由于这些人的行为与core bot明显不同，所以也不好判断他们是否是“真人”，故称为 外围bot。通常他们一周发的推文数量不超过70个。

generator bot：

这些bot通常每周产生2100多条推文，它们很少转发推文，但会被其他core bots大量转发。

作者发现SSB在35周时间内持续增长，第一周有2个core bot，到了第28周，就有了64个core bot。它们的活动也随着时间逐渐变得频繁

SSB content category

需要查明的是，botnet 所发布的关于叙利亚的内容与普通用户发布类似的内容有何不同之处。作者比较了英语、叙利亚语的推文和僵尸网络所发布的内容。通过对一些推文的比较，作者团队制定了13个基于话题的分类以及2个基于上下文（local or international）。

Primary Codes

1.1、Option

发表的是关于当前叙利亚危机，包括：个人对局势的分析、爱国主义、批评或者笑话。祈祷相关。

1.2、Testimonial

基于叙利亚内战的个人经历的证词，包含战争期间拍摄的视频。若视频链接VS包含机构符号，如单位名称或者是单位的徽标，若视频是即时性的，就分为breaking news，若视频为记录事情的，则分为 news。

1.3、Conversation

如果是两个人的对话，那么看看是否能够访问所有的对话内容，也可以根据去掉用户名后看看还能不能将其分为其他的类别中。

1.4、Breaking news

关于叙利亚内战的突发新闻和信息，其中包含“紧急”、“突发新闻”、”重要“和”注意“

1.5、News

推文的基调为客观的，介绍叙利亚内战的消息，包含新闻聚合用户和非政府组织的报告和烈士的通告。若推文中包含链接，且链接指向可靠的新闻来源，就编码为此类。

1.6、Mobilization of Resistance/Support

呼吁组织、集会、抗议和与内战有关的机会。主要包含请愿、转发请求等。

1.7、Mobilization for Assistance

动员人们和组织提供人道主义援助。

1.8、Solicitation for Information

在推特上询问叙利亚局势。

1.9、Information Provisioning

提供关于叙利亚内战的信息。

1.10、Pop Culture

引用名人、音乐、体育和娱乐以及相关人士的推文。

1.11、Other

推文玉叙利亚和其他国家有关，但和内战没有明显联系。

1.12、Spam/Phishing

像某种形式的垃圾邮件或者是钓鱼邮件的推文。

1.13、Uncodeable

不是阿拉伯语或者英语的推文，过这事太短以至于以至于无法被合理的翻译或者分类到其他的领域。

Secondary codes

作者又根据上下文消息将其分为了另外的两个类别。

2.1、Local Context

这些是提到了叙利亚（并且仅仅包含叙利亚）目前的局势，但没有具体的说明。其中包括了：叙利亚的关键时间、选举以及军事反应。

2.2、International Context

包含其他国家对叙利亚局势做出的反应、并且列出了许多其他国家的标签。

僵尸网络可能是通过引用流行文化获得用户的注意。

SSB发布的推文中有一半多是新闻，而对于普通用户来说，他们发布的新闻数量只占三分之一多一点。

Opinion是一个重要的类别，占据了45%，在阅读推特后发现，很多用户对叙利亚发生的事情有着强烈的意见并用推特表达着自己的观点，对内战表示震惊并为受害者祈祷。

钓鱼邮件利用叙利亚内战相关话题来获得用户的关注。

Influence of SSB

最后一个问题是SSB可能如何影响推特上关于叙利亚内战的讨论——〉**考虑了SSB进入前100的推特数量，以及这些推特的排名，**以此作为僵尸网络潜在影响的基本指标。分析了涵盖整个35周的僵尸网络数据集，其中包含了大量的英文推文——结论：SSB在阿拉伯语推特用户中的影响力可能更大。

根据两个指标计算僵尸网络的得分：（a）排名影响（前一百名中bot所占排名的和）；（b）RT影响（由bot所产生的转发之和）。其中，前三分之一的时间SSB的活动很隐蔽，在中间开始有所影响，在最后出现了影响的高峰，此时SSB中的bot数量达到了最高。

请添加图片描述

作者又对内容进行了分析，发现其中排名最高的三类是：新闻、其他和意见。

作为了解SSB的影响如何随着时间增长，作者考虑了还有哪些用户转发了SSB的推特，经过计算转发次数最多的100条推特的SSB账户以及普通用户之间的转发比例。在181条SSB推文中有15条可能是由普通用户转发导致的，并且这15条属于新闻和观点两大类。

实际上，普通用户发表的最多的是“意见”类别，而这个正是SSB所不擅长的。

Discussion

文章主要回答了三个关于SSB的问题。

Mimicking human behaviors

之前的文献表明通过模仿人类行为便可以增长而不被发现并提高自己的影响力。但作者的实验数据发现， SSB无法模仿人类的行为。并且其推文的最大占比分类为：新闻。

ASA在构建方面越来越成熟，并且模仿人类的行为更有利于被普通用户转发，不过另外一种观点认为，模仿人类行为的ASA不容易被检测到。

Misdirection and Smoke Screening

当僵尸网络的活动的数量足够大且包含无关内容的时候，无关内容可以有效地隐藏真实内容。

在SSB发布的推文“其他”类别中，许多都跟叙利亚之外的新闻有关。**这有可能是叙利亚安全局为了欲盖弥彰，压热搜。**

Lifespan model

僵尸网络不是一天建成的。这个SSB持续了35周。早期这僵尸网络不稳定平均寿命只有2周很有可能是其运营者正在试验，后在第14周平均寿命增加到了28周，与此同时，GB1 Generator Bot首次开始了发推特。可能是这个GB1发挥了作用，这个GB1在其推文内容的最后附上了三个随机字母——作者需要进一步探究。

Conclusion

SSB是异常长寿的，这可能与其使用阿拉伯语发推特有关。在社交媒体中检测僵尸网络的技术有待进一步提高。

从分析结构来看，尚不清楚SSB是否真的试图模仿和复制人类行为，任性。它似乎经常使用与战争无关的话题来充斥叙利亚内战相关的标签

Three steps to read paper

第一步（需5-10分钟）

快速浏览整篇论文，对其有个大概的了解。你也可以自己决定是否需要进一步阅读。

该阶段分下面的几个步骤组成：

1、仔细阅读题目、摘要和引言；

2、阅读标题和小节标题，标题下的内容不必看。

3、阅读结论

4、看看参考文献，也许有你读过的论文。

在第一步完成后，你应该可以回答以下五个问题：

1．类别：这篇论文是什么类型？测试类？对现有系统进行分析的？对原型系统进行描述的？

2．内容：在你读过的论文中与其相关的有哪些？使用哪些理论基础来分析文章？

3．正确性：结论是否有效？

4．创新：该论文的主要创新是什么？

5．清晰度：该论文是否条理清晰？

回答出以上问题，你便清楚是否有必要继续阅读该论文，这也许与你的兴趣或研究领域有关，也可能是作者的结论不正确使之没必要再继续阅读。这也再次提醒你，在你写论文的时候，希望有人看你的论文，那么简明扼要的标题及摘要是非常重要的，无论是读者还是审稿人在用五分钟过一遍你的论文后，看不到文章的亮点也就对你的论文失去读下去的兴趣了。

第二步（需1小时左右）

在第二步要仔细阅读论文，但忽略掉诸如证明之类的细节。阅读过程中做好笔记记录重点，或在论文空白处标注出来，

1、仔细阅读论文中的数字、图表和其他插图。尤其要注意图表：轴标签是否正确？标示的结果是否有误差线？这些常见的错误能区分出该论文是粗制滥造的还是经过尽心做研究后的结果。

2、为了了解更多关于该论文的背景，记得要标记未读过的参考文献供进一步阅读。通过第二步的阅读，你应该能够掌握论文的主要内容。你也应该可以把论文的主旨及论据总结给别人。对于你感兴趣的论文，读到这个程度就可以了，但是对于那些在你研究领域内的论文来时，还远远不够。有些情况你在读到第二步结束时仍然难以理解论文，可能的原因是主旨对你来说是全新的，还有不熟悉的术语和缩略词。也可能论文作者使用您不明白的论据或实验技术，导致大部分论文内容无法理解。除此之外，有些论文可能写得很差，也导致你无法理解该篇论文。亦或者可能是深夜，你很累了。

如果是这样，你可以选择：

（a）把论文放到一边，期望着在你走向事业成功的路上不需要理解它，

（b）在了解了相关背景知识后，过段时间再回头读，或者

（c）坚持不懈继续阅读。

第三步（数小时）

要充分了解一篇论文，尤其你是审稿人时，需要进行第三步。第三步的关键是：在脑中勾勒出整篇论文，作出与作者相同的假设，重新创作。通过将这种重新创作与实际文章进行比较，您可以轻松地验证出论文的创新之处，也可以轻松找出一些不易察觉的缺陷和假设。

这一步需要读者精读论文，完成这一步读者便可验证论文中每一个假设是否成立，并且同时思考如果自己是本文作者的话会如何去体现自己的idea ，这种假设自己是作者的方法可以加深你对该论文论据及表述技巧上的理解，并且能从中学到这些技巧。在完成第三步的过程中，你应该时刻留意对于未来研究工作的新想法。

第三步是最耗费时间的，对于初学者来说可能要数小时，即便是有经验的学者也至少要一两个小时。当完成这一步后，你应该可以在脑海中重现构造论文的整个架构，同时能确定论文中哪些是好的，哪些是一般的论点。特别地，你也应该能明确指出论文中不清晰的假设、漏掉引用的相关工作以及论文中试验和分析的手段潜在的缺点。

原文除了以上三步阅读法外还有“如何完成文献调研”等内容，下面的链接为原论文在其发表期刊网站上的下载链接，读者可点击下载收藏。

http://ccr.sigcomm.org/online/files/p83-keshavA.pdf