目录
摘要
像Twitter这样的社交平台正受到大量欺诈用户的围攻。
研究内容:
由于社交网络的结构,大多数方法都是基于图神经网络(GNN),容易受到攻击。在这项研究中,作者提出了一种基于节点注入的对抗攻击方法,旨在欺骗机器人检测模型。
值得注意的是,当在目标bot周围添加新bot时,目标bot和新注入的bot都无法被检测到。
这种攻击以黑盒方式进行,这意味着与受害者模型相关的任何信息都是未知的。
这是第一个通过图节点注入来探索机器人检测弹性的研究
作者还开发了一个属性恢复模块,将注入的节点嵌入从图嵌入空间恢复到原始特征空间,使攻击者能够有效地操纵节点扰动
实验结果:
在这两个数据集上,攻击成功率超过73%,新注入节点被检测为机器人的比例低于13%。
1 INTRODUCTION
基于图的社交机器人检测方法依赖于gnn来处理社交网络,这使得它们同样容易受到对抗性攻击。
对抗攻击难点:
首先,现有的对抗性攻击方法多为白盒攻击,需要攻击者事先掌握受害者模型。
相反,受害者模型的信息是管理社交平台的公司的关键资产,因此攻击者无法访问。
因此,对社交机器人检测的实际对抗性攻击是一种黑盒方式。
其次,社交网络上过多的修改可能会被注意到,导致攻击失败,因此有必要保持攻击方法的不可感知性,这就要求不扰动过多的原始网络信息。
根据对GNN对抗性攻击的研究,作者选择利用单节点注入方法,将整个网络的变化控制在一个节点上。
此外,由于这个新注入的节点也是社交网络中的假用户,因此有一个特定于任务的不可察觉的要求:新注入的节点不能被受害者模型检测到。
这与经典的gnn对抗性攻击不同,后者控制受扰节点的数量或攻击者的访问图范围。
第三,现有的大多数针对gnn的节点注入对抗性攻击都是在中间嵌入空间进行的,导致攻击者以嵌入的形式生成一个注入节点。
然而,对于针对社交机器人检测的具体对抗性攻击,由于攻击者需要生成一个新的机器人并将其注入到原有的社交网络中,以实现目标机器人的不可检测,因此必须恢复注入机器人的原始属性。
解决上述问题:
解决了社交机器人检测对抗性攻击中的黑箱设置、不可感知性和属性恢复等挑战。
首先,建立了一个基于原始属性空间嵌入的简单GNN结构作为替代模型。这种设置依赖于对抗性样本的可转移性来实现黑盒攻击。
然后,采用单节点注入对抗性攻击方法G-NIA,从摄动角度解决攻击的不可感知性问题。
此外,为了从属性方面保持攻击的不可感知性,对人类用户的属性进行统计,然后将其转换为一系列约束,并将这些约束应用于新注入的节点。
最后,设计属性恢复模块,从嵌入空间中获取注入节点的原始特征。
实验效果:
为了欺骗机器人检测方法,提出了一种基于黑盒节点注入的对抗性攻击方法,即在目标机器人周围添加一个新的机器人,实现目标机器人和新注入的机器人都无法被机器人检测方法检测到。
设计了一个属性恢复模块,将节点特征从图嵌入空间恢复到原始特征空间,使添加节点的扰动可被对手操作。
在两个数据集上攻击了四种现有的机器人检测方法(Cresci-2015和TwiBot-22)来评估攻击模型的通用性和有效性。在两个数据集上,攻击成功率超过73%,新注入节点被检测为机器人的比例低于13%。其中,Cresci-2015的新注入节点检出率低至0.06%。
相关工作Adversarial Attack on GNN
攻击可以扰乱节点属性、图结构和标签。
网络攻击[46]是一种针对性攻击,其目的是通过修改特定节点的属性和梯度自举图的结构来欺骗特定节点。
元攻击[44]是一种基于元学习的非目标攻击,但这种方法会降低gnn的整体性能。
G-NIA是一种针对性攻击,每次只增加一个新节点和一条新边,对原始图结构的干扰最小。
使用与G-NIA类似的方法对社交机器人检测模型进行不可检测的对抗性攻击。单独的G-NIA不足以实现目标,因为这种方法只能生成注入节点的嵌入,并且需要读取受害者模型的参数以进行白盒攻击。
设计了一个替代黑箱攻击的模型。为了实现对社交网络的攻击,需要获得注入节点的属性,包括用户描述、tweets、数值元数据和分类元数据。
进一步提出属性恢复模块,从生成的嵌入中获取注入节点的属性。
3 METHODOLOGY
Framework
substitute model, embedding generation, edge generation, and attribute recovery
首先,训练一个关系图卷积网络(R-GCN) 替代模型,利用对抗性样本的可转移性来欺骗一些最新的机器人检测器。
然后,从替代模型中提取节点嵌入以及替代模型权重用于生成插入节点的嵌入。
使用embedding generation注入节点的嵌入,边生成(edge generation)得到注入的边缘。
仅仅嵌入新节点是不够的,还需要原始属性。
属性恢复将恢复注入节点输出的嵌入将生成嵌入到原始属性中。
因此,攻击者可以创建新的节点并将其注入到社交图中以屏蔽目标机器人。
Substitute Model
为了在不知道受害者模型的具体信息的情况下发起攻击,作者设计了一个基于传输的攻击替代模型。
节点:
对于社交图𝐺中的每个用户𝑣,属性𝑎包括四种类型,分别是描述𝐷、一组tweet 𝑇、一系列数值属性预置和一系列分类属性𝐶,
边:
对于用户之间的边,给定以下和被关注的信息,有两种类型的边:“friend”和“follow”
该模块包含:
个体属性编码和基于结构的特征转换: 使用四个完全连接的层进行单个属性编码,使用R-GCN进行基于结构的特征转换,并使用交叉熵作为损失函数训练模型,获取节点嵌入。
Embedding Generation
使用目标节点的嵌入值,及其一阶邻居的嵌入值,来指导注入节点的生成; 是目标节点所有一阶邻居的平均嵌入
由于特征变换将嵌入空间映射到标签空间,采用特征变换权重的列来表示标签类
构建的过程如下: 由于图中有两种边(即“friend”和“follow”),因此将R-GCN的权值分为 和 ,然后与一个全连接层聚合, ,
表示攻击前对应为的列,表示攻击后期望标签的列,(不太理解作者为什么要这样处理,也没有给出解释)
使用两个完全连接的层,多层感知器(MLP)生成注入节点的嵌入,记为
Edge Generation
注入的边用于将注入节点的属性扩展到目标节点。注入的边缘被限制为目标节点及其一阶邻居,这意味着注入的节点必须至少是目标节点的二阶邻居。
为了捕捉网络结构和节点特征之间的耦合效应,对注入的嵌入和边缘进行了联合建模。
使用注入的嵌入来指导注入边缘的生成。包括生成的注入嵌入以及目标机器人及其邻居的信息,如式(8)所示。使用了两个完全连接的层和MLP, 生成𝑒‑𝑛𝑗如下所示:
一旦生成了注入的嵌入和边缘,将注入的节点注入到原始图中得到图G',然后输入𝐺的替代模型进行计算
表示替代模型在新的社交网络图𝐺’中的预测标签概率,对应标签上的目标机器人𝑏𝑡。
对嵌入生成模块和边缘生成模块进行联合训练。优化过程旨在使攻击损失最小化
Attribute Recovery
生成的注入节点嵌入代表了替换模型中特征提取器提取的全部用户特征,这与输入为原始用户特征的bot检测模型不一致。
提出了一个名为attribute recovery的模块来恢复生成的注入节点嵌入。
也限制了特征级的数值MLP的效果:
为了确保恢复的数值特征是真实的,对恢复的特征进行反向z-score归一化,以获得原始的整数数值特征。然后,将数值特征约束到各自合适的范围内,并再次执行z-score归一化以获得最终的用户数值属性。根据拟注入节点对应数据集的统计信息,精心设计约束条件,以实现1)成功攻击屏蔽目标机器人,2)使被注入节点不被察觉
EXPERIMENT
Experiment Settings
数据集
无法将TwiBot-22数据集提供的完整社交网络图转换为稀疏矩阵。使用社区选择算法,选择约50000个节点,形成5个子图进行实验。
Constraint Settings.
为了使注入节点的用户数值属性逼真且易于实现,应用以下约束设置标准。
follower数设置为0,表示注入节点不需要被其他节点关注。
最大活动天数设置为100天,表示攻击者不需要太多的时间来准备屏蔽。值得注意的是,这个数字远低于社交网络的平均活跃天数。
屏幕名长度和关注数达到Twitter允许的最大值,因为这些属性很容易实现。
状态的数量与相应的原始社交网络中的大多数用户处于相同的数量级。
Evaluation Metrics.
攻击成功率。通过评估受害者模型是否可以检测到目标机器人到新的社交网络图𝐺来衡量攻击的成功。当目标bot节点被归类为人类时,就会发生成功的攻击。也就是说,攻击成功率越高,攻击效果越好。
新节点检测为bot。通过测量受害者模型是否可以检测到它作为一个机器人来评估我们注入节点的不可感知性。当被注入的节点被归类为人类时,就会发生成功的攻击。也就是说,新节点被检测为僵尸的概率越低,攻击的不可感知性越好。
Ablation Study
移除嵌入生成模块
一阶子图中随机选择一个节点与注入节点连接