论文阅读Graph-Hist: Graph Classification from LatentFeature Histograms with Application to Bot Detection

方法介绍:

        在这项工作中,开发了一种受经典网络分析启发的新图分类架构。在大型网络分析中,通常的做法是计算局部特征并研究分布。

        在这里,我们使用端到端的图卷积架构来提取局部潜在特征并根据这些特征的分布对图进行分类

        由于特征空间的高维性,我们改为使用多通道直方图形式的分布的一维横截面。由于此过程基于潜在特征的直方图对图进行分类,因此它被命名为 Graph-Hist。

        在接下来的部分中,我们回顾了图分类中的先前工作,解释了我们的架构,展示了 Graph-Hist 在社交媒体基准上实现最先进结果的能力,最后通过一个Twitter 数据上的机器人分类案例研究。

方法

        图:G = (V,X,A)V = (v_1,v_2,...,v_n),为节点集合,A\in \{0,1\}^{n*n}是邻接矩阵, X\in R^{n*d}是特征矩阵,假设图包含自环,节点数用n表示,节点特征数用d表示。

        对图的拉普拉斯进行操作,而不是对图的临界矩阵本身进行操作;

        度矩阵D:D_{i,i} = \sum_{j}A_{i,j};

        计算归一化拉普拉斯算子(拉普拉斯矩阵的对称规范化): L = D^{-\frac{1}{2}}(D-A)D^{-\frac{1}{2}} --- 为谱域图卷积;

        另一种是随机游走的拉普拉斯算子:L^{rw} = I - D^{-1}A,编码从节点到节点的转换概率(已经应用于图分类、节点嵌入等工作);

        图分类中,得到N个标记图:\{(G_1,y_1),(G_2,y_2),...,(G_N,y_N)\}, 对m个类使用one-hot编码,y\in \{0,1\}^{N*m},如果 G_i属于 j 类,则 y_{i,j} = 1,否则 y_{i,j} = 0

        通过随机梯度下降最小化交叉熵损失来学习输出每个类的概率 p 的分类器。

        损失函数:\iota = -\sum_{i=1}^{N}\sum_{j=1}^{m}y_{i,j}log(p_{i,j})

       

图卷积传播规则公式:Z^{(l+1)} = \sigma (LZ^{(l)}W^{(l)})

                W^{(l)} \in R^{d*c}是第l层的可训练权重,其中 c 是为节点嵌入选择的通道。

                最初,Z(0) = X;

                从那里开始,GCN 被分层,使得来自第一个 GCN 的特征是第二个 GCN 的新输入特征,然后输出给第三个,依此类推。这种分层形式允许将特征传递到直接邻居之外。

        GCN分层需要从一个节点的扩展邻域进行特征聚合,这依赖于靠近源节点的聚合。此外,分层架构是不可并行的,而且更难训练。因此,我们提出了一个GCN的轻微变体,如公式所示:Z^{(l)} = \sigma (L^{l}XW^{(l)} + b^{(l)}), 不是将图卷积分层,而是使用拉普拉斯算子的幂来计算它们,从而为每一跳嵌入原始特征,而不是学习到的特征;

        我们的方法进行的实验表明,性能略有提高,同时在内存允许的情况下可以实现并行化。这个公式GCN 每层的独立性允许其使用偏置项,这在分层 GCN 架构中并不自然,因为它们会在下一级乘回到拉普拉斯算子。

        最后,包括 Z(0),它将拉普拉斯算子简化为单位矩阵,从而提供了一个标准的全连接子模块,来自于节点的特征。

全连接组合层:

        与在 SortPool、Graph Capsules 等中一样,从 Z(0)、...、Z(h) 获得的节点嵌入被连接起来以给出维度 (h + 1) * c 的节点嵌入。

        为了最大限度地减少信息损失,嵌入通过两个完全连接的层,这可以捕捉到这些非线性的维度间特性

        为了简单起见,选择了与初始嵌入维度相同的层,(h+1)∗c。将这些最终嵌入表示为C \in R^{n*(h+1)*c}。这一步类似于应用于SortPool中最终嵌入的初始卷积。两者的不同之处在于输出的大小,以及我们要应用两次转换。

节点分箱:

        图分类的一个基本挑战是,每个输入图的节点集都可能有不同数量的节点,即n。因此,依靠节点嵌入的图分类算法必须找到某种方法,从可变大小的n到固定大小的k进行转换。

        例如,SortPool 通过设置阈值 k 来重新塑造数据。排序后,选择前k个节点,其余的被丢弃。如果图的节点少于 k 个,则将零附加到节点集,直到它的大小为 k。如前所述,这会损害数据的完整性;

        我们通过一个分箱程序来解决这个问题。

        对输入空间进行离散化,计算落入每个离散 bin 的节点数。可以将标准的卷积架构应用于获得的密度函数。然而,有效的节点嵌入通常具有很高的维度,使得对整个空间的离散化难以实现。Tixier等人采取的2D-CNN方法使用原理分量来逼近分布。它们获取上升主成分的二维横截面,将它们堆叠为图像的通道。然后可以应用标准图像分类器。虽然这取得了很好的效果,但它依赖于预处理并且无法更新节点嵌入来提高性能。

        在这里,我们提供了一个不依赖维度配对方案的可微调的替代方案。我们沿着每个维度的一维截面对数据进行分组,从而得到一个具有k个bin和(h+1)∗c个通道的直方图。分组的数量是一个可调整的参数。

        用于获得 C 的激活函数必须是有界的。如果没有有界激活函数,就无法预定义 bin 边界来捕获所有节点位置。

        对于所有实验,我们选择了 tanh。使用 tanh,所有输出值将介于 -1 和 1 之间,因此如果 k = 10 ,则均匀间隔的非重叠 bin 的长度将为 0.2并将捕获所有潜在的节点位置。然后,损失函数的导数,可以通过分选层使用加权平均的箱梯度来进行预测,如公式所示:\frac{\alpha L}{\alpha C_{i,j}} = \frac{1}{\sum_{b=1}^{k}e^{-\gamma |r_{b,i,j}|}}\sum_{b=1}^{k}e^{-\gamma |r_{b,i,j}|} sign(r_{b,i,j})\frac{\alpha l}{\alpha H_{b,j}}, r=B-C

        首先,到 bin 中心 B 的距离 r 为计算,使得r\in R^{k*n*(h+1)*c}, 然后,取 bin 梯度的加权平均值,允许更接近节点的 bin 比更远的 bin 具有更大的拉力。因此,如果梯度为正,每个 bin 将节点拉向它,如果梯度为负,则将节点推开。拉力的大小与其与节点的距离成正比,并由 γ 控制,我们将其设置为 γ = 20 ,从而为远处的 bin 赋予较低的权重。

        同样,这个过程确实失去了分布维度之间的协方差关系。然而,组合层克服了这种简化。在反向传播期间,节点将沿着这些一维横截面被推动,以便进行分类。这种方法的有效性在实验部分的标准基准数据和案例研究部分的机器人检测数据上得到证明.

Histogram Classification

        最后,多通道直方图可以使用传统的卷积架构进行分类。Tixier等人使用LeNet-5的一个变种,根据预定的节点嵌入的2-D交叉秒数对图进行分类(Tixier等人,2017)。该CNN在MNIST手写数字分类任务中取得了99.45%的准确率。我们略微修改了架构,以适应我们从前面的步骤中获得的一维数据。

        与 (Tixier et al. 2017) 一样,H 被传递到 4 个子模块,过滤器大小分别为 f = 3、4、5 和 6。

        子模块执行如下:输入数据用滤波器大小 f 和步长 1 卷积到 64 个输出通道。然后,使用大小和步长 2 执行最大池化; 再次执行卷积,但有 96 个输出通道; 同时,将 H 传递给 f = (h + 1) * c 的卷积,从而捕获具有 96 个输出通道的整个直方图; 全直方图卷积和子模块的输出被串联起来,并连接到一个大小为256的全连接层; 最后,256个单元层被连接到一个对图形进行分类的softmax输出。在直方图分类器中的所有全连接层之前,都有一个概率为ρ的dropout层,使用的激活函数为ReLU。

        从最初的分类器中给出的三个变化是:增加了整个直方图卷积,128个隐藏单元层被改为256个单元,模型被调整为一维的模拟。

实验

基准数据集和方法

        有许多潜在的图分类基准数据集,但其中很少是社交网络,甚至更少是类似于现实世界社交媒体数据中的网络类型。现实世界的社交媒体网络通常是大而稀疏的,而大多数基准数据集是相对密集的,节点数少于100个;

        考虑到这一点,选择了6个流行的基准数据集,显示在表中。这些数据集来自Kersting等人的收集,但由Yanardag和Vishwanathan创建。

         IMDB 数据集是电影协作数据集。节点代表演员或女演员,链接代表电影中的共同出现。这些图是自我网络,任务是对自我网络所属的类型进行分类。这个数据集有点挑战性,因为电影可能属于不止一种类型,但可能只被赋予一个标签。

        COLLAB 源自三个领域的科学合作数据:高能物理、凝聚态物理和天体物理。每个图都是作者的自我网络,任务是确定他们在哪个领域工作。

        三个 Reddit 数据集都是使用他们的 API 从社交媒体平台 Reddit 上抓取的。图中的节点是 Reddit 用户,链接是由讨论中的直接回复创建的。在二进制数据集中,图表要么来自问答子版块,要么来自基于讨论的子版块。任务是确定对话图来自哪种类型的子reddit。在 5k 和 12k 数据集中,任务是识别图所属的特定 subreddit。我们更加重视这些数据集,因为它们是唯一的社交媒体分类任务。表说明了这种区别的重要性。 Reddit 数据集中的图往往有 10 倍以上的节点,而密度往往要低 100 倍。

        选择了 5 种不同的方法来比较我们的结果,即 Anonymous Walk Embeddings、SortPool、DiffPool、CapsGNN 和 2D CNN(Ivanov 和 Burnaev 2018;Zhang 等人 2018;Ying 等人 2018 ; Tixier 等人,2017 年)。

        选择这些方法是为了反映最先进的分类结果,并将我们的结果与我们所依赖的方法进行比较。据我们所知,每个数据集都显示了当前最先进的性能。

        下表根据初始出版物中报告的值报告了准确度和标准偏差。因此,并非每个数据集都对每种方法都有价值。 Fey 和 Lenssen 引入了 PyTorch Geometric,这是一个实现了许多几何学习算法的库(Fey 和 Lenssen 2019)。通过使用从其实现中报告的值来填补一些空白。 Anonymous Walk Embeddings 是唯一全部显示的方法,因此在表中将其分开。

 实验设置

        所有实验中使用的一般架构如图所示。Graph-Hist是用PyTorch实现的。双曲正切函数被用于所有的激活函数,直至LeNet;

 

        使用ReduceLROn- Plateau调度器,初始学习率为α=1 e-4,系数为0.5,耐心为2,冷却时间为0,最小学习率为1e - 7;

        使用随机梯度下降法,最小批次大小为32。在连续9个历时中没有测试损失的进展后,我们终止了训练。

        然后,我们在搜索空间h∈[2,4,6,8],c∈[32,64,128,256],ρ∈[0.2,0.8]中对每个数据集进行参数调整。参数的选择是基于它们在测试集上的表现。最终的参数显示在下表中。

        最后,我们使用表中的参数对每个数据集进行了10倍的交叉验证。

       下表中报告了每个数据集的平均准确率及其标准偏差。Graph-Hist在所有3个社交媒体基准中都推进了最先进的分类。它还在IMDB-B上击败了最先进的结果,并在其余两个数据集上获得了第二名的再结果。

         我们认识到还有更多的超参数可以调整,比如批量大小,甚至全连接层的大小也可以调整。探索这些可能性留给未来的工作,但可能会产生比这里展示的更好的结果

案例研究

        我们使用Graph-Hist直接利用这些通信网络的结构。我们发现,这种方法对新的数据集的概括性比目前的替代方法更好。

        我们以与 Beskow 和 Carley 相同的方式构建了 Twitter 帐户所在的会话网络,从而产生了具有 21 个节点特征的自我网络(Beskow 和 Carley 2018a)。这种方法结合了目标帐户及其追随者的时间线来建立更大的对话。

        同样,社交媒体网络和标准基准之间的差异也是很明显的。就节点集大小而言,Twitter网络比非社交媒体基准大两个数量级。Twitter的网络密度也比标准基准的网络密度小3个数量级。

   

        在过去的十年中,越来越多的研究人员致力于开发算法来检测越来越复杂的机器人。这些模型可以大致分为监督机器学习模型、无监督模型和基于图的模型。其中一些模型已成为用于社交网络安全工作流程的重要工具,包括 Botometer、Bot-Hunter、Debot 和 Botwalk 算法(Davis et al. 2016; Beskow and Carley 2018b; Chavoshi, Hamooni和 Mueen 2016;Minnich 等人 2017)

        大多数图和社区检测方法都是在Facebook上进行的,这些机器人有时被称为Sybils。这些方法包括像Sybil-Guard(Yu等人,2006)、Sybil-Resist(Ma等人,2014)和Sybil-Rank(Cao等人,2012)这样的随机行走方法。其他模型放宽了一些假设,并使用信任传播方法,如Sybil-Fence方法(Cao和Yang 2013)。

        监督模型包括传统机器学习使用支持向量机 (Lee and Kim 2014)、Näıve Bayes (Chen, Guan, and Su 2014) 和随机森林 (Ferrara et al. 2016) 模型训练从 Twitter 的推文和用户对象中提取的特征。其他方法试图仅根据账户的文本(​​Kudugunta 和 Ferrara 2018)或他们的网名(Beskow 和 Carley 2018c)对账户进行分类。一些可用的模型,如 Botometer (Davis et al. 2016) 和 Bot-Hunter (Beskow and Carley 2018b) 是经典的监督机器学习模型。

        还出现了几种无监督的方法,主要集中在识别某些类型的机器人产生的潜在模式。其中包括聚类算法(Benigni、Joseph 和 Carley 2017)和异常检测算法,如 BotWalk 算法(Minnich et al. 2017)。这些模型中的大多数都利用了帐户数据和帐户历史记录;

        而基于图形的模型则专注于在对话和连接中寻找模式。没有多少模型专注于围绕帐户的更大的会话自我网络。只有一种监督机器学习模型试图将这些自我网络中的网络科学指标(中心性、simmelian 关系、三元人口普查等)引入其特征空间(Beskow 和 Carley 2018a)。我们没有使用网络指标作为网络本身的代理,而是通过对整个图的几何学习来解决同样的问题。

机器人分类结果

        对于案例研究,我们构建了已由 Debot 无监督算法标记的机器人帐户的训练数据。 Debot 算法使用扭曲的相关性来识别大致在同一时间发布相同内容的机器人(Chavoshi、Hamooni 和 Mueen 2016)。 Debot 已经展示了对此类特殊机器人的高精度识别,并已用于训练经典的监督机器人检测模型,并取得了很好的效果;因此,它被用来标记机器人数据以进行训练。

        非机器人“人类”数据是从 Twitter 1% 流中随机抽取的。我们的训练数据包括 8,842 个机器人和 6,120 个人类账户及其相关的对话网络。

         我们开发了一个单独的测试数据集,以便与其他最先进的算法进行比较,并衡量可生成性。最终的测试数据是通过手动记录337个专注于宣传和其他操纵的机器人账户来创建的。重点是确保该测试数据不与任何训练数据重叠。测试数据集由337个机器人账户和337个人类账户平衡组成。

        对于评估指标,我们使用 F1 分数,定义为准确率和召回率的调和平均值。许多早期的机器人检测模型具有相对较高的精度但召回率较低,从而夸大了准确度指标。由于召回率低,这些模型总体上低估了机器人感染和信息失真问题的规模。我们发现 F1 分数是强调精度和召回率的充分平衡。下表中提供了所有模型的 F1 分数。

        

         我们看到 Botometer 模型在所有比较模型中具有最高的精度,但召回率较低,因此相对 F1 得分较低。

        Debot 算法能够识别两个机器人,具有完美的精度,但召回率和 F1 分数非常低。

         Bot-Hunter 算法以轻微的精度成本提高召回率,与其他模型相比,F1 分数略高。

        在基准数据集上使用网格搜索后手动调整 Graph-Hist,得到表 2 中给出的最终配置。训练环境与基准数据集实验使用的相同,除了随机过采样数据用于平衡训练。新的停止阈值由验证集中的 F1 分数给出。 Graph-Hist 的召回率高于所有其他模型,精度略低于 Bot-Hunter,导致所有测试模型的 F1 得分最高。

        

总结:

        在本文中,我们提出了一个神经网络架构,Graph-Hist,用于图分类。

        Graph-Hist以类似于以前的成功模型的方式从GCN中创建富有表现力的节点嵌入,并使用强大的CNN架构以端到端方式对这些嵌入进行分类。

        虽然该模型的每个方面都没有以其确切的形式出现在以前的文献中,但最重要的创新是分箱模块。它允许节点嵌入分布以差分的方式被逼近,这样卷积结构就可以适用。

        分选程序受到大型社交网络分析的启发,因此被应用于社交网络分类任务。Graph-Hist在6个测试基准数据集中的4个取得了最先进的性能,包括所有3个社交媒体基准。

        最后,Graph-Hist 被应用于一个新的图分类领域:机器人检测。 Graph-Hist 在这项任务中表现出比当前领先的机器人检测模型更好的泛化能力。在机器人检测方面,图分类方法与经典方法相比具有另一个巨大优势:它们很难防范。这些模型是高度非线性的,因此“puppet-master”应该尝试构建什么类型的图来避免检测并不明显。即使已知一个不起眼的结构,通信图也比推文频率等简单特征更难操作。虽然收集通信网络的成本更高,但图分类方法在机器人检测中的普及应该会减缓正在进行的“猫捉老鼠”循环。

        这项工作的未来扩展可能涉及将分箱模块附加到不同的嵌入方案,使用新方法对生成的直方图进行分类,或尝试使用非均匀分箱模块。

        特别是通过对其他类型的实体进行分类,如巨魔,它们的通信图可能与正常行为者和机器人不同。目前,用于僵尸检测的图分类算法的部署受到社交媒体API瓶颈的抑制,因此在更多可扩展的社交媒体图收集方案方面的工作可能会产生很大影响。最后,未来的工作可能会提倡通过发布新的社交媒体基准数据集来增加对社交媒体数据集的关注,这些数据集反映了在野外看到的网络的规模和稀疏程度。

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值