RF- GNN:随机森林增强图神经网络

用GNN作为基分类器构建随机森林,结合集成学习和GNN优点

通过节点采样、特征选择、边dropout等方式将不同的子图构建为不同的训练集

然后用各种子图来训练GNN基分类器,其余特征用于训练全链接神经网络FCN

随机森林:一种机器学习方法,由多个决策树组成,每个决策树在随机选择的子样本和特征上训练,然后通过投票或者平均来确定最终的预测结果。

图神经网络(GNN)作为基分类器:传统随机森林中,基分类器通常是决策树,但是这里用GN来作为基分类器。

不同子图的构建:为了使用GNN来作为基分类器,将原始数据拆分成多个子图。这里面提到了好几种方法:节点采样(随机选择一部分节点)、特征选择(只选择部分特征)、边dropout(随机删除一些边),来构建不同训练集

训练GNN基分类器:针对每个子图,使用GNN进行训练,将图数据转换为预测结果。

训练全连接神经网络:使用全连接神经网络来处理剩余的特征,FCN处理向量数据。

输出对齐和聚合:每个子图和FCN都会产生一个输出,然后将它们对齐并聚合,生成最终的预测结果,这可能包括简单的平均或投票。

先补一下随机森林的知识:

随机森林里面每棵树看问题的角度不同,然后最终给一个输出,集成学习

它的超参数:有几棵树,各自怎么怎么样

为什么要用GNN来当基分类器,原因是:随机森林的基分类器是DT,DT的缺点是:容易过拟合,它们对复杂非线性关系的建模能力较弱(那就需要提取更多的特征)。对噪声敏感。

创新点:

(1)提出了一个随机森林算法和GNN相结合的框架,该框架利用GNN的关系能力和集成学习的优势

(2)提出一种对齐机制,通过有效利用特征选择后的剩余特征,进一步增强GNN基成模型的性能

(3)框架非常灵活,可以与各种广泛使用的骨干网一起使用

模型的框架图:

论文方法的大概介绍::

(1)构建子图的方式

  1. 节点下采样(按照一定比例)
  2. feature selection(按照一定比例)
  3. edge dropping.(边缘丢弃是为了增加子图的区别)

GNN用来处理图数据,FCN用来处理非图数据。

GNN输出和FCN输出对齐方式:Hadamard乘积,点乘的方法。我们需要确保GNN的输出和FCN的输出具有相同的维度和含义,

先得出标签值,然后再计算预测标签和真实标签的差值。

算法1:训练算法

输入是:G和X,下采样(比例阿尔法)还有多个GNN和FCN。

GNN输出一个值,FCN输出一个值,然后align。更新参数:通过应用梯度下降来最大化更新 Gθi 和 Fθi 的参数(公式4:Li = − ∑ vn∈VL loss (yin,  ̃ yin) )

三个数据集

基线比较:

DT、RF、Node2Vec、GCN、SGC、GAT、Boosting-GNN、JK-Nets、GraphSAINT、LA-GCN

4.3变体

为了更全面地了解每个模块在整体学习框架中的运作方式,并更好地评估它们各自对性能改进的贡献,我们生成了完整 RF-GNN 模型的几个变体。

RF-GNN 模型由三个主要模块组成:子图构建模块、对齐机制和模型集成模块。

为了进行消融研究。

超参数:

AdamW 优化器、200 轮训练。除 Node2Vec 的学习率设置为 0.005 外,所有模型的学习率均设置为 0.01。所有数据集上的 L2 权重衰减因子均设置为 5e-4。dropout设置为 0.3 至 0.5。对于所有模型,GNN 层的输入和输出维度都是一致的,分别为 128 或 256。

GAT 和 RGAT的注意力头设置为 4。

我们使用 Pytorch 1.8.0、Python 3.7 实现 RF-GNN。 10、PyTorch Geometric [27] 与稀疏矩阵乘法。所有实验均在配备 9 Titan RTX GPU、2.20GHz Intel Xeon Silver 4210 CPU 和 512GB RAM 的服务器上执行。操作系统是Linux bcm 3.10.0。

GCN跟GAT模型比其他模型在不同数据集上表现更好,主要是因为它们引入了全局信息或注意力机制来适应特定任务。

实际效果:

SGC模型从GCN中去除了非线性激活函数。尽管所有数据集的准确性略有下降,但与 GCN 相比,SGC 可以实现相似的性能。

GCN方法讲归一化邻接矩阵和特征矩阵相乘,再将其与可训练参数矩阵相乘,以对整个图数据进行卷积运算。

 RF-GCN 的 a 的最佳值为 0.5,在Cresci-15数据集上,RF-GCN的性能随着α的增加而逐渐提高。总体而言,当所有数据集的 α 在 0.3 到 0.7 范围内时,RFGCN 表现出稳定性。

特征选择概率β分析:特征选择比是对RF-GCN性能影响最大的参数。在所有数据集中,当 β 小于 0.3 时,RF-GCN 的性能很差。这可能是由于特征数量不足,阻碍了模型有效学习和检测机器人的能力。在 Twibot-20 数据集上,当 β 设置为 0.7 时,RF-GCN 表现最佳。在 MGTAB 和 Cresci-15 数据集上,β 的最佳值为 0.9,以获得最佳性能。

边缘保持概率 γ 分析:当所有数据集上 γ 在 0.1 到 0.9 范围内时,RF-GCN 是稳定的。减小γ值会增加数据增强对图数据的效果,模型性能会略有提升。

这意味着RF-GCN-E的每个基分类器都是在相同的训练集上训练得到的。这样做会导致基分类器之间的相似度很高。

  • 8
    点赞
  • 18
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值