《Who is Tweeting on Twitter: Human, Bot, or Cyborg》重点翻译

最新推荐文章于 2022-03-04 19:22:11 发布

三室两厅

最新推荐文章于 2022-03-04 19:22:11 发布

阅读量865

点赞数

分类专栏：机器学习数据挖掘社交网络分析

机器学习同时被 3 个专栏收录

3 篇文章

订阅专栏

社交网络分析

3 篇文章

订阅专栏

数据挖掘

2 篇文章

订阅专栏

摘要：
1）大规模测量：微博行为，微博内容，账号属性
2）构建分类系统：有四部分组成
 一个基于熵的组件；
 一个基于机器学习的组件；
 一个账户属性组件；
 一个决策器。
关键字：自动识别，机器，半机器，twitter
1、引言
论文目的：特征化微博用户自动化特征，并且将用户分为三类（人，机器，半机器）
分类器组成：
 一个基于熵的组件：用微博发布间隔作为一种行为复杂度的测度，并且检测周期的和定时的时间间隔。这将是一个自动化指示器。
 一个基于机器学习的组件：用微博内容检查文本是否含有垃圾广告。
 一个账户属性组件：利用发送终端（设备）、URL出现频率等检测与正常用户的偏差。
 一个决策器：决策器是基于线性判别分析（LDA）的，并且它利用以上三种组件产生的特征（features）的线性组合来将一个未知用户分类到人或机器或半机器。
先通过测试数据集验证分类系统的功效（efficacy），在进一步将分类系统应用到50万用户的整个数据集中，从而推测实际用户集的用户组成情况。
第二章：介绍twitter和在线社交网络的相关工作。
第三章：详述对twitter的测量（measurements）。
第四章：描述自动分类系统。
第五章：展示对twitter用户分类的实验结果。
第六章：总结
2、相关工作
《Why we twitter: understanding microblogging usage and communities》
微博分类：日常唠叨；交流；分享信息或链接；报道新闻
角色分类：信息源；朋友；信息搜查者
其他研究：微博增长；网络属性；用户地理分布

《A few chirps about twitter》
根据粉丝关注比把用户角色分为三类：
广播者：拥有大量粉丝
熟人：粉丝数和关注数差不多
垃圾信息制造者（spammers）：有大量关注，很少粉丝

《Detecting spam in a twitter network》
研究发现：spammers比正常用户发布更多的消息；更可能关注其他spammers；
因此：Thus, a high follower-to-following ratio is a sign of spamming behavior.
（高的关注粉丝比是spammers行为特征）
《Analysis of twitter lists as a potential source for discovering latent characteristics of users》
微博列表：包含多用户和他们的微博。
研究表明：从每个列表中提取出的文字代表这个列表所有成员，尽管这些文字没有被所有成员使用。这对锁定有某些具体兴趣的用户有很大帮助。

本文特点：用户分类；
指标：粉丝关注比；微博间隔熵；相关网络研究；
3、测量
3.1 数据收集
为了保证50万用户数据多样性，采用了两种方法来收集数据。
第一，基于爬虫的深度优先搜索（DFS）。理由：这是一个快速且uniformed的遍历网络的算法；另外DFS隐式地包含关于网络位置和集群（locality and clustering）的信息。
随机选择5个用户作为根节点（seeds）。对每一个到达的用户我们记录它的粉丝列表。利用关注方向，爬虫继续遵循设置为3的深度限制来爬取数据。收集42万用户数据。
第二，使用公共时间轴API来收集活动用户的信息，从而增加用户集合的多样性。爬虫器调用时间轴API来收集包含在时间轴中的微博的那些作者。由于Twitter时间轴频繁更新，所以爬虫能够重复调用时间轴API。收集了8万用户数据
3.2 Ground Truth Creation
为了开发自动分类系统，我们需要一个训练数据集（包括已知的人，机器，半机器的样本）。在收集到的数据中，我们随机选择不同的样本并且将它们人工分类。训练集每一类中有1000个用户，共3000用户样本。用同样的方式创建一个3000样本的测试集。这两个数据集都为包含样本用户发布的800多万帖子的真事数据集服务，从中我们能获取对分类有用的特征，比如微博行为和文本模式。
这个基于日志的分类遵循图灵测试的原则。标准的图灵测试机通过与一个未知主体交流5分钟，然后决定它是一个机器还是人。分类微博用户比它更有难度。对于很多用户，他们的微博很难形成一个相对一致的上下文环境。例如，一系列连续的微博很可能不相关。第一条微博是用户自己的生活状态；第二条是一个来自博客的自动更新；第三个是一个新闻报道RSS feed，以一个文章标题的格式，并伴随一个URL。
分类过程被执行。仔细检查微博内容，访问其中包含的URLs，判断重定向的网页是否和原始微博相关，是否包含垃圾信息或恶意信息。还查看其它属性，比如微博发布设备、，用户信息、粉丝数和朋友数。通过一系列的微博给一个用户标注为人，如果他具备明显的正常人特征。人通常会在微博中记录自己正在做什么或对某事的感受，人们将微博作为表达自我以及和朋友互动的一个工具。微博内容通常包含理解力和原创性。特殊性意味着微博内容用存在意识性的相对清楚明白的词汇来表达。比如有人问：“你感觉IPAD怎么样？”人的回答会是：“我喜欢他的大触摸屏和内嵌的3G网络。”机器回答：“我喜欢。”
区分机器人的标准：
 缺少智能或原创的内容。比如完全转发，或发布缺乏原创性的格言，笑话。
 微博过度的自动化。比如自动更新博客目录或RSS源。
 在微博或用户资料中出现大量的垃圾广告或恶意URL链接。
 重复发布复制微博。
 发布和微博内容无关的链接。
典型的半机器账号：
包含非常不同的两类微博。大部分微博带有类人智慧和原创性的内容，其他部分是RSS feeds的自动更新。
使用模型：人时不时的使用这个账号，同时Twitter辅助程序不断地运行，发布他最喜欢新闻频道的RSS feeds。
3.3 数据分析
Q1：机器（automation）会发布更多的微博吗？
CDF：随机变量小于或者等于某个数值的概率P（X<=x），即：F(x) = P(X<=x)

统计一个用户总微博数。
半机器人账号通常比正常人和机器人发布更多的微博。原因是它是组合体。
机器人发布微博最少。原因是它只是在某一激活时间段发布微博比人多，它通常会有一个冬眠期（可能被官网封号，也可能是处于孵化期，能被激活产生更多的机器账号军团）。
大部分半机器人是有公司或网站注册的来作为一种新的媒体渠道和售后服务。相当大一部分微博是有辅助工具自动发布或转发的。这些账号还由员工来维护时不时的和消费者互动。
Q2：机器人账号的朋友比粉丝多吗？

Figure 2: Numbers of Followers and Friends

 组1：粉丝明显比关注多
 组2：关注比粉丝多
 组3：以上两者的结合

 人类：大部分账号属于组3（粉丝和关注数是接近的）。这符合：人类关系在社交网络中是典型的相互作用或互惠。不少一部分属于组1（粉丝比关注多），这些账号通常是明星或著名组织机构。
 机器账号类：很多账号属于组2。莫名其妙的微博使得机器人账号在人群中并不受欢迎。但有一些机器账号属于组3，粉丝数和关注数差不多。原因是：官网对粉丝关注比有一个限制，一些高级机器账号会对那些在一定时间内，没有回粉的账号取消关注，这类账号狡猾的使得粉丝关注比接近1.

上图表明：人的粉丝关注比最高；机器账号的最低。

Q3：还有其他关于用户的的临时属性对区分人，机器和半机器有帮助吗？
【9】【11】两篇论文显示了人类在因特网上的每天和每周的访问模式。

图4（a）每天：
 人：周一至周五发微博差不多，都比较活跃，但在周六日明显低迷了（可能和中国情况不一样）。
 机器：每天都有着差不多的活动性。
 半机器：周一活跃，以后逐渐衰减，到周日又有所反弹。
图4（b）每小时：
 人：白天明显比夜间活跃
 机器：全天差不多，部分高级机器账号会设置微博发布时间。
图5按季度/年分组
 Twitter账号大部分是09年注册的。
 在07年3月之前注册的账号中找不到机器或半机器。
 Twitter在06年问世，老账号不太可能是机器。
Q4：用户是如何发布微博的？是手工还是通过自动发布工具？
发布设备分为四类：1）Web；2）手机；3）注册的第三方应用程序，从应用角度可以进一步分类：网站集成器；浏览器扩展；桌面客户端；RSS feeds/blog小工具；4）APIs，那些没有注册或被颁发证书的第三方应用。
Q5：机器账号会比正常账号多包含一些URLs吗？
一个垃圾信息微博通常会有一个诱人的标题并附带一个额外的URL。正常用户主要使用文字而不是URL。

Q6：用户是否意识到Twitter上的隐私和身份保护？
官网提供一种保护选择，但默认不打开，任何人都可以访问你的主页。50万人中只有4.9%的人是受保护用户。1.8%的用户是认证用户。
4、分类
信息熵：用修正的有条件的信息熵来检测消息发布的周期或定期的时间。
机器学习：用不同的贝叶斯定理的分类算法来检测已知垃圾信息的文本模式。
账号属性：用相关属性使机器账号离开正常账号的分布。
决策器：用LDA线性判别分析分析已经被其他三个组件鉴别的特征并且做出决定。
4.1 信息熵
信息熵越低说明用户行为有一定的时间规则，即有机器自动化迹象；信息熵越高说明一种不规则性，即有人类活动的迹象。
4.1.1 信息熵的测量
通常用有限序列的条件熵来估计熵率。我们使用修正条件熵来估计熵率。
修正条件熵：

熵率估计值是修正条件熵在m不同取值时的最小值。这个最小值被认为是来自有限数字序列的最好熵率的估计。
4.2 机器学习
垃圾信息模式的出现就表明自动化或机器化。因为微博是文本，判断他们的内容是否为垃圾信息可以归结为一个文本分类问题。贝叶斯分类器在文本分类中非常有效，尤其是对垃圾邮件检测，所以我们用贝叶斯分类来作为该系统的机器学习文本分类组件。
判断一条消息是否属于某一类比如垃圾消息，可以基于它的内容计算相应的概率P(C = spam|M)，M为消息内容，C为类别。如果概率大于某一阈值则可认为消息属于这一类。
4.3 账户属性
除了微博发布时间间隔和微博内容，账号属性对用户分类也很重要。
 URL出现频率：机器97%，人小于29%。
 发布设备：70%人用Web，87%机器用API和其他自动程序。
 粉丝关注比：
 链接安全性：
 是否认证：
 注册日期：94.8%的机器号注册在2009年
4.4 决策器
LDA是一种统计方法，用它来判断从多元类的样本中辨别出来的特征的线性组合。通俗讲就是用特征来识别类。它与方差分析和回归分析很像，但最大区别在LDA有一个重要的假设，that independent variables are normally distributed. 换句话说就是，变量代表一个来自多元正态分布的样本。该实例是一个多元类LDA，多元类LDA步骤如下：1）需要一个训练集和一个测试集，且两者互不重合。2）判别模型是用有效的特征来识别类。在模型创建中，选择特征和设定权值是两项重要的任务。3）用测试集来验证该模型的分类准确度

5、评估
5.1 方法论

 信息熵组件计算用户微博之间的间隔的信息熵（和修正条件熵）。信息熵组件仅仅处理拥有100条微博以上的日志。这个限制帮助减少检测自动性的噪音。较低的信息熵表明周期性或定期的微博行为，是自动性的迹象；相反信息熵越高说明是人类活动的迹象。
 机器学习组件基于它所学习的文本模式判断微博内容是否是垃圾信息。垃圾信息的内容特征值被设置为-1，正常设置为1.
 账户属性组件检查4.3节提到的所有属性，并且为每个属性产生一个实际数值类型值。
给定一个用户，以上三个组件将生成一组特征，并且把他们输入到决策器中。决策器计算用户的三个类的分数，那个类分数高，就将他分到那个类中。分类系统的训练和它的准确性具体看下面。
5.2 分类系统训练
分类系统在被使用前需要被训练。尤其是机器学习和决策器组件更需要训练。机器学习组件在垃圾信息和非垃圾信息数据集上训练。垃圾信息数据集包含垃圾信息和附带的URL，这在真实数据集被创建时被检测到。一些高级垃圾信息机器人故意添加一些非垃圾信息（比如不带URL的纯文本格式的人生格言）来混淆人类用户。因此我们不用这样模棱两可的不带URL的微博。非垃圾信息数据集包括人类的微博和半机人的不带URL的微博。大部分正常人用户不会发布垃圾微博。对于带链接的半机器人微博，如果不检测它的链接页面很难被辨别出来，这些微博可能是垃圾微博也可能不是垃圾微博。所以我们的训练集也不用这类微博。用最新的垃圾微博（信息）文本模式训练组件将有助于提高系统准确性。
决策器被训练用来确定用于分类的不同特征的权值。我们用Statistica—一个统计分析工具来计算特征权值。更具体讲，特征的值的数据表和训练集中的实际用户分类都被输入到分类器。为了实现最大准确性，LDA将产生一个权重表。换句话说，它包含尽可能多的用户，这些用户被分的类和实际类相匹配。决策器使用这些权重来进行用户分类。
权值越大，分类的相应特征的独特贡献就越大。表2显示了，信息熵，URL出现率和手动/自动设备使用比例对分类器而言都是很重要的特征。只有那些统计上显著的特征才被用到分类器上，那些不显著的应忽略掉。因此，在4.3节，一些被账号属性组件所收集的特征包含粉丝关注比、链接安全性、账号认证性和注册日期都从分类器中剔除。
简单解释一下刚才说的粉丝关注比、链接安全性、账号认证性和注册日期这几个属性在实际分类中为什么没有想象的那样重要。机器账号的关注比粉丝要多，因此粉丝关注比就要小于1，无论如何，现在出现了更先进的机器账号，他们对那些没有关注他们的账号会取消关注从而保证粉丝关注比维持在1左右。这个策略使得粉丝关注比特征不在那么有帮助。大部分垃圾信息机器账号，发布垃圾信息连接而不是钓鱼网站或恶意链接（这两个特征本来是安全链接检测的主要目标），因此链接安全性又去它的统计分析上的不重要性从而导致在LDA中有着很小的比重。相似的，用户认证性由于认证的用户很少，所以也是很小的权重。只有1.8%用户有认证。由于注册时间在机器账号，半机器账号和人之间存在重叠所以对分类也没有帮助了。

5.3 分类系统正确性
创建一个每个类有一千个用户的测试集，不与训练集有重复用户。

5.4 微博各类用户成分
人：48.7%
机器：13.8%
半机器：37.5%
比例 5:1:4
5.5 抵抗逃避（Resistance to Evasion）
讨论分类系统对机器账号所作出的逃避尝试的抵抗能力。机器账号可能进行欺骗行为，比如前面提到的粉丝关注比。该分类系统有两个关键的特性使得机器规避变得困难。第一个是发布设备组成，即对应手工活自动设备所占比例（表2）。
第二个是URL比率。较高的URL出现频率确实是一个有效的用于及其检测的度量标准。
6、结论