论文链接:https://arxiv.org/pdf/2106.13092.pdf
目录
摘要
推特机器人检测是一项重要的、具有挑战性的任务。现有的机器人检测措施未能解决社区和伪装的挑战,无法检测出伪装成真实用户和集体攻击的机器人。为了解决Twitter机器人检测的这两个挑战,我们提出了BotRGCN,它是Relational Graph Convolutional Networks的机器人检测的简称。
BotRGCN通过从关注关系中构建一个异质图并应用关系图卷积网络来解决社区的挑战。除此之外,BotRGCN还利用多模式的用户语义和属性信息来避免特征工程,并增强其捕获具有多样化伪装的机器人的能力。广泛的实验表明,BotRGCN在综合基准TwiBot-20上的表现优于竞争基线,该基准提供了关注关系。
1 绪论
推特是一个繁荣的社交媒体平台,每天有数百万的活跃用户。除了真正的用户,推特也是自动程序的家园,也被称为推特机器人。这些机器人的操作是为了诱发不良的社会效果,如极端宣传和选举干扰。既然如此,就迫切需要强大的Twitter机器人检测器。
现有的方法一般分为两类:特征工程和深度学习。对于基于特征工程的机器人检测器,采用了用户特征,如推文特征、用户属性特征和从邻域信息中提取的特征,以及传统分类器。对于深度机器人检测模型,采用了递归神经网络和生成式对抗网络。
尽管早期取得了成功,但不断变化的社交媒体给Twitter机器人检测的任务带来了两个新的挑战:伪装和社区。伪装的挑战要求机器人检测器捕捉恶意的机器人,即使它们被设计成类似于真正的用户。例如,Cresci等人发现了使用盗用的名字和个人资料图片,并在许多中性信息中穿插少数恶意信息的机器人。除此之外,社区的挑战要求机器人检测器成功地捕捉到那些单个看起来是真实的,但在群体中追求恶意目标的Twitter机器人。例如,Cresci等人发现了一群机器人,以及他们在2014年影响罗马市长选举的集体行动。
鉴于Twitter机器人检测的两个挑战,我们提出了一个新颖的框架BotRGCN(用关系图卷积网络检测机器人)。具体来说,BotRGCN通过利用所有可用的数字和分类的用户属性项目以及用预先训练的语言模型对用户推文进行编码来解决伪装的挑战。BotRGCN通过从Twitter网络中构建异质图并应用关系图卷积网络来解决社区的挑战。
2 BOTRGCN 方法论
A 问题定义
让表示一个用户的描述,包含L个词。让
表示一个用户的M条推文,每条推文
包含
个词。让
是一个用户的数字和分类的用户属性集。让
是用户的邻居信息,其中
表示用户的关注,
表示用户的关注者。推特机器人检测的任务是在用户信息B、T、P和N的帮助下识别用户中的机器人。
B 用户特征编码
BotRGCN旨在通过利用多模式的用户信息来解决伪装的挑战,这使得机器人操作员没有场所来实现恶意的目标。BotRGCN联合编码用户的描述和推文的语义信息,以及数字和分类的用户属性信息。
a) 整体用户特征向量。我们对用户的描述、推文、数字和分类属性进行编码,并将它们串联起来作为用户特征;
b) 特征集1:用户描述。我们采用预先训练好的RoBERTa对用户描述进行编码。我们首先用RoBERTa对用户描述中的词进行编码:
其中,表示用户描述的表示,
是RoBERTa的嵌入维度。然后,我们为用户的描述推导出代表向量。
其中和
是可学习参数,φ是激活函数,D是Twitter用户的嵌入维度。在本文的其余部分,我们采用leaky-relu作为φ。
c) 特征集2:用户推文。我们使用RoBERTa对用户推文进行类似的编码。我们对所有推文的表示进行平均,以获得用户推文的表示;
d) 特征集3:用户的数字属性。BotRGCN将用户属性项的处理留给MLPs和图神经网络。具体来说,我们采用了无需特征工程就能直接从Twitter API中获得的数字特征,并在表I中列出。具体来说,我们进行Z-score归一化,并通过一个全连接层获得用户数字特征的表示方法.
e) 特征集4:用户的分类属性。与用户的数字属性类似,我们避免了特征工程,并应用MLP和图神经网络来编码它们。我们利用了Twitter API中直接可用的用户分类特征,它们在表二中列出。具体来说,我们采用one-hot编码,将它们与全连接层和leaky-relu进行串联和转换,从而得出用户分类特征的表示方法.
C GNN 架构
BotRGCN旨在通过利用用户的关注关系和它所形成的密集图结构来解决社区的挑战。具体来说,BotRGCN从Twitter网络中构建了一个异质图,并应用关系图卷积网络来学习用户的表述。
a) 图形构建。BotRGCN将Twitter用户视为节点。鉴于关注和被关注是不同的信息,BotRGCN利用两种类型的边,R = {r1,r2}= {"关注", "关注者"}。我们将用户u的关注和关注者邻域表示为和
。通过为每个Twitter用户定义两组关系邻域,BotRGCN构建了一个反映Twitter用户之间互动的异质图。如果有数据集的支持,BotRGCN可以纳入更多的用户之间的关系类型.
b) BotRGCN架构。我们将R-GCNs应用于异质图并学习用户表征。具体来说,我们首先转换用户特征,得出图中节点的初始隐藏向量:
其中和
是可学习的参数。然后我们应用第l个R-GCN层:
其中Θ是投影矩阵。在R-GCN的L层之后,我们用MLP转换用户的表示。
其中和
是可学习的参数,
是用户i的代表。
D. 学习与优化
我们应用一个softmax层来进行基于R-GCN得出的用户表征的Twitter机器人检测。
其中 和
是可学习的参数 .
BotRGCN的损失函数构造如下
其中 Y 表示带注释的用户, 是真实标签,θ 是 BotRGCN 框架中的所有可学习参数.
3 实验
A. 实验设置
a) 数据集。TwiBot-20是一个公开可用的Twitter机器人检测数据集,它提供了用户之间的关注关系以支持BotRGCN。我们采用TwiBot-20,并遵循原始基准中的训练、验证和测试集的划分。我们从数据集中得到了一个有229,580个节点和227,979条边的异质图。
b) 基线方法。我们将BotRGCN与下列基线进行比较。
Lee等人。Lee等人使用随机森林与几个用户特征,例如,账户的寿命;
- Yang等人。Yang等人使用带有最小账户元数据的随机森林;
- Kudugunta等人。Kudugunta等人提出了一个同时使用推文内容和元数据的架构;
- Wei等人。Wei等人使用单词嵌入和三层BiLSTM进行机器人检测;
- Miller等人。Miller等人从用户的推特和财产信息中提取107个特征。它将机器人检测作为异常检测进行;
- Cresci等人。Cresci等人使用字符串来表示用户的在线行为序列。它通过分析最长的共同子串来识别机器人群体;
- Botometer。Botometer是一个公开可用的服务,利用了一千多个特征;
- Alhosseini等人。Alhosseini等人使用图对话网络来检测Twitter机器人;
- SATAR构建了一个用于Twitter用户表征学习的自我监督任务,并将其应用于具有微调功能的机器人检测任务。
B. 机器人检测性能
表三显示了对TwiBot-20的机器人检测性能。表中显示,BotRGCN在所有方法中取得了最先进的性能,这表明BotRGCN在Twitter机器人检测任务中普遍有效。此外,BotRGCN的表现优于Alhosseini等人和SATAR等利用用户关注关系的基线,这表明BotRGCN更好地利用了将用户置于其社会环境中的关注关系。
C. 用户特征研究
为了证明联合编码多模式的用户信息对于强大的机器人检测器是必要的,我们进行了消融研究,用减少的特征集训练BotRGCN,并在图2中展示了结果。结果表明,用户信息的每个方面对BotRGCN的性能都至关重要,而用户的分类属性对其性能贡献最大。
D. GNN 研究
为了研究R-GCN的必要性以及在同质图上使用其他图神经网络的可能性,我们在BotRGCN中用GAT、GCN和MLP代替R-GCN,并在图3中展示了结果。它表明我们对R-GCN的选择有助于提高BotRGCN的性能。
我们进一步探索不同数量的R-GCN层及其对整个机器人检测性能的影响。图4中的结果显示,BotRGCN的2层R-GCN可以在较少的可学习参数和较低的训练复杂性下获得更好的机器人检测性能。
4 总结
社交媒体机器人检测正在吸引越来越多的关注。我们提出了BotRGCN,一个端到端的机器人检测框架,它联合编码多模式的用户信息,构建一个异质图来代表真实世界的Twitter,并应用关系图卷积网络。BotRGCN旨在解决机器人伪装和机器人社区的挑战。我们进行了广泛的实验,以证明BotRGCN与最先进的基线方法相比所具有的功效。进一步的探索证明,BotRGCN的用户信息编码策略和它的图学习方法对模型的性能至关重要。