论文笔记:Leveraging network topology for better fake account detection in social networks

1 推文特征(Tweet Features)

用10个推文特征判断一条推文特征是怎样生成的:

  • auto-generated (AGT)
  • human-generated (HGT)

分别是:

  1. isReply ∈ {0, 1} indicates if a tweet is a reply
  2. isRetweet ∈ {0, 1} 判断是否是转发
  3. accountReputation given by number of followers divided by number of friends and followers
  4. 一条推文中hashtagdensity(#),urldensity(http://), mentiondensity(@)的数量
    出 现 的 次 数 推 文 的 字 数 \frac{出现的次数}{推文的字数}
  5. statusesPerDay 每天更新的状态数量
  6. favoritesPerDay是每天被收藏的推文的数量
  7. 登录设备的类型 deviceType ∈ {web, mobile, app, bot, …}
使用的算法: random forests (RF)

该算法的性能不如单语言分类器。如果有足够的资源可用,那么更明智的做法是为每种语言训练一个单一语言分类器,用于识别自动生成的tweet,而不是使用多语言模型。该模型仅在两种语言的小数据集上进行了训练,如果使用其他语言,可能会表现得更好。此外,作者仅用另一种语言对模型进行了评估,可能需要更广泛的评估

2 图的中心性特征(centrality graph measure)

举个例子,对于名人来说 ,有很粉丝关注他们,相比之下,被名人关注的对象就很少。

于是推测,bot account会大量关注别的账户,而它们一般不会拥有很多粉丝。

dataset

现实世界数据的特点: large, real-life class-imbalanced network dataset

generalized bot detection methods 比特定的 botnet specific methods要表现的好

a number of different supervised learning algorithms:

  • Quadratic Discriminant Analysis (QDA),
  • Gaussian Na¨ıve Bayes (GNB),
  • Support Vector Machine (SVM),
  • K-Nearest neighbors (KNN)
  • Random Forests (RF)

结果发现:

  • RF, KNN and even SVM perform poorly on imbalanced data
  • QDA and GNB perform best for imbalanced datasets.
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值