【文献阅读】Adaptive Mixture of Domain-aware Experts for Detecting Social Bots

Abstract

领域感知社交机器人检测方法(DSBD,Domain-aware Social
Bot Detection)—— 首先使用基于提示的方法进行零样本领域分类,以获取任何用户的准确领域分布。通过领域门聚合多个领域专家的表示,使用融合后的表示进行分类。

Introduction

早期关于机器人检测的研究和数据集限于特定兴趣领域。例如,政治机器人倾向于攻击或支持政治候选人(政治领域),金融机器人则喜欢使用金融标签发布推文(金融领域),垃圾邮件机器人则集中生成大量推广产品的内容(商业领域)。来自不同领域的社交机器人表现出不同的社交行为特征。

为了提高机器人检测的领域泛化性,研究人员最近构建了更综合的数据集并设计了多领域机器人检测(MBD,Multi-domain Bot Detection)模型。TwiBot-20是一个广泛使用的数据集,它从四个领域(即政治、体育、娱乐、商业)中选择了多样的种子用户,并收集了用户的三种模式信息(资料、文本、图)。一种成功的策略是采用专家混合(MoE,Mixture-of-Experts)框架,每个领域训练一个分类器,并通过所有分类器的投票做出决定。

然而,高级社交机器人很难被归类到一个单一的领域。换句话说,这些机器人通常在多个领域内活跃,并具有多个领域的混合特征。

一个实际问题是,为每个社交机器人注释多个领域标签非常昂贵且耗时。因此,本文关注以下研究问题:我们能否在现有数据集上检测出具有多个兴趣的社交机器人,其中每个机器人都被分配了一个唯一的领域标签?

DSBD:

  1. 构建一个多关系图,并通过关系图转换器学习每个领域的用户嵌入。
  2. 使用基于提示的分类器学习软领域标签,并利用这些标签聚合多个领域的表示,得出用户的领域感知表示。
  3. 使用MLP将账户分类为机器人或真实用户。

实验证明基于领域分布的自适应融合策略比投票的专家集合策略更有效。
在零样本设置下表现良好,即在一个领域训练模型并在其他领域测试。这表明DSBD具有泛化能力,可以轻松应用于新领域。

Contribution:

  1. 提出了一种MoE框架来建模高级推特机器人的多兴趣特征,其中每个专家旨在学习一个领域中的区分特征。
  2. 为了有效融合多领域特征,使用基于提示的分类器为每个用户学习软领域标签,从而得出领域感知的用户嵌入。
  3. 在广泛使用的基准数据集TwiBot-20上的实验结果表明,DSBD始终优于所有基准方法,并且领域感知专家的自适应融合在各种设置下表现良好,尤其是在零样本情况下表现出色。

Methodology

在这里插入图片描述

A. Graph Construction

Text information = profile description + tweets

在这里插入图片描述------------------------------------------------------------------------------

在这里插入图片描述
Metadata information = value-type data V + boolean-type data B
在这里插入图片描述------------------------------------------------------------------------------
在这里插入图片描述

B. Domain Experts with Relational Graph Transformer

为了在各个领域中获得用户的不同表示,本文利用多个专家来提取每个领域的表示。在每个领域中建立专门的专家,以提取该领域的特征。使用多个专家后,提取的表示可以解决跨领域用户的不同特征问题。

这里使用RGT(relational graph transformer model)作为领域专家。(self-attention mechanism)

计算不同节点之间的注意力权重,并在聚合后获得节点表示:
在这里插入图片描述在这里插入图片描述------------------------------------------------------------------------------
在这里插入图片描述

C. Multiple Domain Aggregation Module

在主流数据集的构建过程中,领域标签是通过连接的种子用户简单划分的。以这种方式获得的领域标签不能准确反映用户的兴趣领域。相反,由发布的推文确定的领域是有效的。

为了获得有效的领域标签,本文使用预训练的bart-large-mnli模型对构建了“这段文字是关于…”提示的推文进行编码,并获取标签概率。为了确定分类标准,TwiBot-20显示主流数据集中的数据是从四个不同领域(政治、商业、娱乐、体育)的种子用户扩展而来的。因此,本文使用相同的四个领域。此外,考虑到推文覆盖多个领域,本文在不同领域中为每条推文获得软领域标签,即:
在这里插入图片描述------------------------------------------------------------------------------
整体的领域信息

在这里插入图片描述

考虑到多领域社交机器人,本文希望自适应地选择专家

在这里插入图片描述

D. Learning and Optimization

在这里插入图片描述------------------------------------------------------------------------------
在这里插入图片描述

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值