论文阅读笔记(1)
CrowdTarget: Target-based Detection of Crowdturfing in Online Social Networks
关键词: 恶意众包、在线社交网络、Twitter、地下服务。
关键词解释:
- 众包: 众包服务是外包服务的进一步发展,根据一些任务的特点,人工在准确性、成本和速度方面可以比计算机更好的完成某些任务,所以人们会支付酬劳给一些人让他们去完成一些任务。
- crowdturfing:作者自定义的恶意众包服务名词,是crowdsourcing和astroturfing的结合体,因为crowdturfing具有众包和草根性的双重特点。
- CrowdTarget :作者提出的检测众包服务的方法。
- 黑市站点: 出售恶意服务的网络站点
- OSN: Online social network (在线社交网络社区)
介绍:
- 如今网络上有很多通过众包服务进行恶意活动的现象,目前的检测方法不能够准确的判断出众包服务,因此需要作者寻求更好的方法去检测众包用户并遏制其违规行为。
- 作者发现了四个用于分辨众包推文和其他推文的特征:<1> 推特转发时间分布,其中包括转推时间的平均值、标准差、偏度和峰度。 <2>主要应用程序的比例。 <3>无法触及的转推数。 <4>推文中的链接点击数。
- 作者通过转推的特征构造了三个分类模型,分别是Ada Boost 、 Gaussian na ̈ıve Bayes、k-nearest neighbors。实验结果表明CrowdTarget可以准确的区分恶意外包推文和普通推文。而在出错率为0.01的时候k-nearest neighbors的正确率为0.98。
背景:
- 黑市站点与恶意外包站点的区别:黑市站点仅出售恶意服务,而恶意外包站点不仅出售恶意服务还让用户进行恶意的活动。
- 黑市站点的服务: 为客户增加粉丝数、点赞数、评论数、转发数等以此获利。
- 黑市站点的特征:用漫游器开发与人类活动相似的机器人账户,用于进行网络恶意活动,并防止网络安全团队的检测。
恶意众包服务提供者
同步小组活动
-
粉丝相似度:
粉丝相似度公式: F s i m ( U i , U j ) = ∣ F ( U i ) ∩ F ( U j ) ∣ ∣ F ( U i ) ∪ F ( U j ) ∣ F_{sim}(U_{i},U_{j}) = \frac{|F(U_{i})\cap F(U_{j})|}{|F(U_{i})\cup F(U_{j})|} Fsim(Ui,Uj)=∣F(Ui)∪F(Uj)∣∣F(Ui)∩F(Uj)∣
F ( U i ) F(U_{i}) F(Ui) 代表用户 U i U_{i} Ui的粉丝数
同理 F ( U j ) F(U_{j}) F(Uj) 代表用户 U j U_{j} Uj的粉丝数作者结论:crowdturfing账户和普通账户的粉丝相似度较低,而黑市账户的粉丝相似度高
-
转发相似度:
作者定义的转发函数:
R T ( u i ) = { ( u i , T 1 , t i d 1 ) , ( u i , T 2 , t i d 2 ) , . . . . . . . . . . . , ( u i , T n , t i d n ) } RT(u_{i}) =\left \{(u_{i},T_{1},tid_{1}),(u_{i},T_{2},tid_{2}),...........,(u_{i},T_{n},tid_{n})\right \} RT(ui)={(ui,T1,tid1),(ui,T2,tid2),...........,(ui,Tn,tidn)}
u i u_{i} ui代表转发的用户
T i T_{i} Ti代表转发的时间
t i d i tid_{i} tidi代表被用户 u i u_{i} ui转发的推特ID在函数 R T ( u i ) RT(u_{i}) RT(ui)中定义两次转发相匹配的条件是:
1. 两次转发来自同一个推特: t i d l = t i d k tid_{l} = tid_{k} tidl=tidk
2. 两次转发的时间在特定的时间阀值内: ∣ T k − T i ∣ ⩽ T t h r e s h o l d \left |T_{k}-T_{i} \right | \leqslant T_{threshold} ∣Tk−Ti∣⩽Tthreshold转发相似度公式:
R T s i m ( u i , u j ) = ∣ R T ( u i ) ⋂ R T ( u j ) ∣ ∣ R T ( u i ) ⋃ R T ( u j ) ∣ RT_{sim}\left (u_{i},u_{j} \right ) = \frac{\left |RT\left (u_{i}\ \right )\bigcap RT \left (u_{j} \right )\right |}{\left |RT\left (u_{i}\ \right )\bigcup RT\left (u_{j} \right )\right |} RTsim(ui,uj)=∣RT(ui )⋃RT(uj)∣∣RT(ui )⋂RT(uj)∣总结: crowdturfing账户和普通账户具有低的转发相似率 黑市账号的转发相似率最高
作者找出的crowdturfing账户特点
-
推特转发时间分布
普通账户: 在发推后的几个小时内有较为密集的转发,然后转发数随时间推移而减少
crowdturfing账户:持续不断的被转发
黑市用户:在某个时间段内被大量转发,这个时间段取决于机器人的工作时间 -
标准偏差:crowdturfing推文的转发时间分布平均 所以crowdturfing的标准偏差最大
-
偏度
正偏度:分布的右边尾部比左侧长
负偏度:与正偏度分布相反
crowdturfing偏度为零
普通推特的偏度大于零 :表示随时间推移转发量逐渐减少
黑市推文偏度小于零 :黑市推文的转发时间取决于卖家何时打开机器人,转发量突然增高然后又突然减少; -
峰度
峰度大于正常值则为正值 低于正常值为负值 把正常值设为0
crowdturfing的峰度最低
正常推特在发帖时间的附近达到转发峰值
黑市推特的峰度最高 -
第三方应用
crowdturfing会借助推特第三方应用来转发
计算主要利用的应用的转发数与转发总数的比值
第三方应用转发率: 普通用户 < crowdturfing用户 < 黑市用户 -
无关联转发
crowdturfing用户无关的转发更多 普通用户无关的转发更少