【文献阅读】Friendship Preference: Scalable and Robust Category of Features for Social Bot Detection

主要贡献:

  • 提出了一种社交机器人检测的一般特征类别,称为“友谊偏好”。这些特征是通过将追随者的个人资料属性与OSN的随机选定子人口进行比较得出的。为了研究友谊偏好特征的各种实现的能力,采用了三种特征提取方法和四种不同的分类算法,实施了十二种社交机器人检测方法。
  • 提出了一种多专家框架,将独立方法与Botometer工具结合,以验证友谊偏好特征与其他特征类别结合的实用性。多专家检测器的分类性能优于Botometer的六个不同类别的超过一千个特征。因此,可以得出结论,友谊偏好特征包含额外的辨别信息。
  • 考虑到追随者数量,特征设计为可扩展。评估了友谊偏好特征应对可扩展性挑战的效率,得出收集超过500个追随者不会提高检测性能。考虑100个追随者仍能得到可接受的F值。
  • 友谊偏好特征是从账户的关系中提取的,因此它们独立于社交机器人的恶意活动。预计检测方法将具有泛化能力。通过使用不同时间段收集的来自不同应用的不同数据集进行交叉验证展示了泛化能力。
  • 讨论了规避友谊偏好特征的成本非常高。因此,这些特征对对抗性规避攻击具有鲁棒性。此外,由于特征是通过社交关系信息提取的,因此可以在社交机器人生命周期的早期阶段,在任何恶意活动发生之前使用检测方法。

related works

几乎所有用来区分合法账户和假账户的特征都可以分为八类:
个人资料、图、邻居、网络、朋友、内容、情感和时间。

  1. 个人资料特征,被称为Botometer工具中的“用户元数据”,是从调查的个人资料的原始属性中提取的。姓名、语言等是一些个人资料特征的例子。
  2. 图特征,如度、聚类系数和中介中心性,是从社交网络的局部图模型的结构中提取的。
  3. 邻居特征,如平均邻居的追随者数和平均邻居的帖子数,是基于追随者和关注者的属性的聚合统计计算的。
  4. 网络和朋友特征分别类似于图和邻居特征,只是它们是从交互图中提取的,而不是关注图。交互图中的边是基于账户之间的交互和通信定义的。点赞、转发和提及是交互图中连接的一些示例。
  5. 内容特征,如帖子中的字数和URL比例,是基于账户发布的内容计算的。
  6. 情感特征是通过情感分析方法生成的,如聚合帖子的幸福得分和单个帖子中的情感总数。
  7. 时间特征,如发布率和关注率,反映了用户活动的时间特征。

大多数个人资料属性是由用户直接设置的,通过更改其个人资料属性来规避这些特征是直接的;
大多数基于图的特征的计算成本很高,因为恶意用户难以通过改变其在社交图中的位置来规避基于图的特征;
基于邻居的特征是稳健的,因为恶意用户无法控制大多数追随者的属性和行为,使其与人类账户的追随者保持相似;
其余类别的特征是从被调查账户及其邻居发布的内容中提取的。由于推文收集比收集个人资料和关系信息成本更高,这些类别的特征成本较高。

恶意用户可以控制其个人资料和行为特征,并且在某种程度上可以管理他们关注的账户的特征,但很难控制其追随者账户的特征。因此,本文提出的新特征类别依赖于追随者的个人资料属性信息。

核心在于:
当前用户节点可以选择去关注哪些节点,但无法决定谁关注他:
在这里插入图片描述
通过比较当前节点的邻居的每种特征在其邻居中的分布,与随机一个用户子集中该种特征在其子集中的分布的相似性,来作为本文所提的“友谊偏好”。

  • 16
    点赞
  • 13
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值