Introduction
传播虚假信息用于:选举、金融、医疗
与真实账户互动的高级机器人,在与真实账户的互动中,导致图结构包含伪装和不可靠的边缘。这些不可靠的边缘干扰了机器人和人类表示之间的区分。
基于边缘置信度评估(BECE, Bot detection method based on Edge Confidence Evaluation)的社交机器人检测方法:其中的边缘置信度评估模块,用于评估边缘的可靠性并识别不可靠的边缘。
基于用户节点的表示为边缘设计特征,并引入参数化高斯分布,将边缘嵌入映射到潜在语义空间。我们通过最小化与标准分布的Kullback–Leibler(KL)散度来优化这些嵌入,并基于边缘表示评估它们的置信度。
在三个真实世界数据集上的实验结果表明,BECE在社交机器人检测方面有效且优越。此外,在六种广泛使用的GNN架构上的实验结果表明,我们提出的边缘置信度评估模块可以作为插件使用,以提高检测性能。
BECE 的总体框架,包括三个模块:
- 用户信息表示模块结合了用户的各种数据格式,并利用多头自注意力机制有效地融合这些表示。
- 边缘置信度评估模块利用节点嵌入构建边缘特征,并利用参数化高斯分布重构边缘表示。然后,根据重构的边缘表示评估边缘置信度,并根据置信概率识别不可靠边缘。
- 节点特征更新模块利用移除不可靠边缘后的图结构进行消息传递和聚合,并相应地更新节点表示。
Method
User Information Representation Module
User Information Embedding
Attention Fusion
Edge Confidence Evaluation Module
Construct Edge Representation
使用 L1 距离来测量中心节点与其邻居节点之间在不同关系 r 下的特征偏差。
特征偏差越大,则两节点越不可能属于同类节点。
Parameterized Gaussian Reconstruction Edge Representation
由于构建的边缘表示本质上包含噪声,为了增强边缘表示的鲁棒性并减轻噪声样本的不利影响,本文利用参数化高斯分布对边缘特征和噪声进行建模。
将边缘定义为高斯分布,首先使用两层前馈层来学习边缘表示的均值 𝜇 和方差 𝜎:
均值表示边缘重构后最可能的特征嵌入,而方差表示边缘特征的噪声。
使用重参数化技术从标准分布
N
(
0
,
I
)
N(0,I)
N(0,I) 中采样随机分布参数 𝜖,并使用以下方法生成具有相同分布的目标嵌入:
现在,边缘的表示不再是一个确定的点嵌入,而是从潜在空间中的高斯分布
采样的随机嵌入。通过围绕均值和方差的随机采样,增强了模型对噪声的鲁棒性。
随后,根据边缘表示,我们利用 Sigmoid 激活函数来估计 之间连接的置信度:
Remove Unreliable Edges Based on Bernoulli Distribution
我们将边缘视为二元事件,即,对于两点之间的连边,如果概率低,则两节点之间的不可靠性高。因此,我们可以考虑将其移除。伯努利近似通常用于处理二元事件。因此,我们使用它移除不可靠边缘:
表示以
的概率保留
间的连边。该连边概率以边缘标签和二元交叉熵来优化。
Optimization
利用二元交叉熵优化边缘置信度评估模块,并利用 Kullback–Leibler (KL) 散度优化参数化高斯重构的边缘表示。
-
标记边缘——Bot-Human的边缘标签为0,其余为1。
利用二元交叉熵优化边缘置信度评估模块:
- 使用 KL 散度优化边缘表示
为了使用参数化高斯分布近似标准分布,利用 KL 散度来测量两个分布之间的差异:
Node Feature Update Module
交叉熵损失来优化模型: