CrowdTarget: Target-based Detection of Crowdturfing in Online Social Networks阅读笔记

论文阅读笔记(1)

CrowdTarget: Target-based Detection of Crowdturfing in Online Social Networks

关键词: 恶意众包、在线社交网络、Twitter、地下服务。

关键词解释:

  • 众包: 众包服务是外包服务的进一步发展,根据一些任务的特点,人工在准确性、成本和速度方面可以比计算机更好的完成某些任务,所以人们会支付酬劳给一些人让他们去完成一些任务。
  • crowdturfing:作者自定义的恶意众包服务名词,是crowdsourcing和astroturfing的结合体,因为crowdturfing具有众包和草根性的双重特点。
  • CrowdTarget :作者提出的检测众包服务的方法。
  • 黑市站点: 出售恶意服务的网络站点
  • OSN: Online social network (在线社交网络社区)

介绍:

  • 如今网络上有很多通过众包服务进行恶意活动的现象,目前的检测方法不能够准确的判断出众包服务,因此需要作者寻求更好的方法去检测众包用户并遏制其违规行为。
  • 作者发现了四个用于分辨众包推文和其他推文的特征:<1> 推特转发时间分布,其中包括转推时间的平均值、标准差、偏度和峰度。 <2>主要应用程序的比例。 <3>无法触及的转推数。 <4>推文中的链接点击数。
  • 作者通过转推的特征构造了三个分类模型,分别是Ada Boost 、 Gaussian na ̈ıve Bayes、k-nearest neighbors。实验结果表明CrowdTarget可以准确的区分恶意外包推文和普通推文。而在出错率为0.01的时候k-nearest neighbors的正确率为0.98。

背景:

  • 黑市站点与恶意外包站点的区别:黑市站点仅出售恶意服务,而恶意外包站点不仅出售恶意服务还让用户进行恶意的活动。
  • 黑市站点的服务: 为客户增加粉丝数、点赞数、评论数、转发数等以此获利。
  • 黑市站点的特征:用漫游器开发与人类活动相似的机器人账户,用于进行网络恶意活动,并防止网络安全团队的检测。

恶意众包服务提供者

同步小组活动
  • 粉丝相似度:

    粉丝相似度公式: F s i m ( U i , U j ) = ∣ F ( U i ) ∩ F ( U j ) ∣ ∣ F ( U i ) ∪ F ( U j ) ∣ F_{sim}(U_{i},U_{j}) = \frac{|F(U_{i})\cap F(U_{j})|}{|F(U_{i})\cup F(U_{j})|} Fsim(Ui,Uj)=F(Ui)F(Uj)F(Ui)F(Uj)
    F ( U i ) F(U_{i}) F(Ui) 代表用户 U i U_{i} Ui的粉丝数
    同理 F ( U j ) F(U_{j}) F(Uj) 代表用户 U j U_{j} Uj的粉丝数

    作者结论:crowdturfing账户和普通账户的粉丝相似度较低,而黑市账户的粉丝相似度高

  • 转发相似度:

    作者定义的转发函数
    R T ( u i ) = { ( u i , T 1 , t i d 1 ) , ( u i , T 2 , t i d 2 ) , . . . . . . . . . . . , ( u i , T n , t i d n ) } RT(u_{i}) =\left \{(u_{i},T_{1},tid_{1}),(u_{i},T_{2},tid_{2}),...........,(u_{i},T_{n},tid_{n})\right \} RT(ui)={(ui,T1,tid1),(ui,T2,tid2),...........,(ui,Tn,tidn)}
    u i u_{i} ui代表转发的用户
    T i T_{i} Ti代表转发的时间
    t i d i tid_{i} tidi代表被用户 u i u_{i} ui转发的推特ID

    在函数 R T ( u i ) RT(u_{i}) RT(ui)中定义两次转发相匹配的条件是:
    1. 两次转发来自同一个推特: t i d l = t i d k tid_{l} = tid_{k} tidl=tidk
    2. 两次转发的时间在特定的时间阀值内: ∣ T k − T i ∣ ⩽ T t h r e s h o l d \left |T_{k}-T_{i} \right | \leqslant T_{threshold} TkTiTthreshold

    转发相似度公式:
    R T s i m ( u i , u j ) = ∣ R T ( u i   ) ⋂ R T ( u j ) ∣ ∣ R T ( u i   ) ⋃ R T ( u j ) ∣ RT_{sim}\left (u_{i},u_{j} \right ) = \frac{\left |RT\left (u_{i}\ \right )\bigcap RT \left (u_{j} \right )\right |}{\left |RT\left (u_{i}\ \right )\bigcup RT\left (u_{j} \right )\right |} RTsim(ui,uj)=RT(ui )RT(uj)RT(ui )RT(uj)

    总结: crowdturfing账户和普通账户具有低的转发相似率 黑市账号的转发相似率最高

作者找出的crowdturfing账户特点

  1. 推特转发时间分布
    普通账户: 在发推后的几个小时内有较为密集的转发,然后转发数随时间推移而减少
    crowdturfing账户:持续不断的被转发
    黑市用户:在某个时间段内被大量转发,这个时间段取决于机器人的工作时间

  2. 标准偏差:crowdturfing推文的转发时间分布平均 所以crowdturfing的标准偏差最大

  3. 偏度
    正偏度:分布的右边尾部比左侧长
    负偏度:与正偏度分布相反
    crowdturfing偏度为零
    普通推特的偏度大于零 :表示随时间推移转发量逐渐减少
    黑市推文偏度小于零 :黑市推文的转发时间取决于卖家何时打开机器人,转发量突然增高然后又突然减少;

  4. 峰度
    峰度大于正常值则为正值 低于正常值为负值 把正常值设为0
    crowdturfing的峰度最低
    正常推特在发帖时间的附近达到转发峰值
    黑市推特的峰度最高

  5. 第三方应用
    crowdturfing会借助推特第三方应用来转发
    计算主要利用的应用的转发数与转发总数的比值
    第三方应用转发率: 普通用户 < crowdturfing用户 < 黑市用户

  6. 无关联转发
    crowdturfing用户无关的转发更多 普通用户无关的转发更少

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 1
    评论
这个错误是由于代码中出现了非UTF-8编码的字符导致的。解决这个问题的方法有以下几种: 1. 在代码文件的最顶端添加一行注释来指定编码格式为UTF-8。例如,在Python代码中可以添加以下注释:# -*- coding: utf-8 -*- 2. 将代码文件中的非UTF-8字符转换为UTF-8字符。可以使用文本编辑器来进行字符转换,将非UTF-8字符替换为相应的UTF-8字符。 3. 如果代码中确实需要使用非UTF-8字符,可以使用转义字符来代替。例如,可以使用\xba来代替'\xba'。这样可以避免出现编码错误。 综上所述,要解决SyntaxError: Non-UTF-8 code starting with '\xba' in file错误,可以通过指定编码格式为UTF-8、转换非UTF-8字符或使用转义字符来解决。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* [SyntaxError: Non-UTF-8 code starting with ‘\xba’ in file 1.py on line 1问题解决方法](https://blog.csdn.net/weixin_45900357/article/details/124272288)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *2* [编译错误问题“SyntaxError: Non-UTF-8 code starting with ‘\xc5‘ in file](https://blog.csdn.net/qq_44945816/article/details/129410718)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] - *3* [Python错误: SyntaxError: Non-ASCII character解决办法](https://download.csdn.net/download/weixin_38644097/12872950)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v93^chatsearchT3_1"}}] [.reference_item style="max-width: 33.333333333333336%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 1
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值