RF- GNN：随机森林增强图神经网络

weixin_42731794

于 2024-04-24 17:36:07 发布

阅读量574

点赞数 8

文章标签：随机森林神经网络算法

本文链接：https://blog.csdn.net/weixin_42731794/article/details/138130736

版权

用GNN作为基分类器构建随机森林，结合集成学习和GNN优点

通过节点采样、特征选择、边dropout等方式将不同的子图构建为不同的训练集

然后用各种子图来训练GNN基分类器，其余特征用于训练全链接神经网络FCN

随机森林：一种机器学习方法，由多个决策树组成，每个决策树在随机选择的子样本和特征上训练，然后通过投票或者平均来确定最终的预测结果。

图神经网络（GNN）作为基分类器：传统随机森林中，基分类器通常是决策树，但是这里用GN来作为基分类器。

不同子图的构建：为了使用GNN来作为基分类器，将原始数据拆分成多个子图。这里面提到了好几种方法：节点采样（随机选择一部分节点）、特征选择（只选择部分特征）、边dropout（随机删除一些边），来构建不同训练集

训练GNN基分类器：针对每个子图，使用GNN进行训练，将图数据转换为预测结果。

训练全连接神经网络：使用全连接神经网络来处理剩余的特征，FCN处理向量数据。

输出对齐和聚合：每个子图和FCN都会产生一个输出，然后将它们对齐并聚合，生成最终的预测结果，这可能包括简单的平均或投票。

先补一下随机森林的知识：

随机森林里面每棵树看问题的角度不同，然后最终给一个输出，集成学习

它的超参数：有几棵树，各自怎么怎么样

为什么要用GNN来当基分类器，原因是：随机森林的基分类器是DT，DT的缺点是：容易过拟合，它们对复杂非线性关系的建模能力较弱（那就需要提取更多的特征）。对噪声敏感。

创新点：

（1）提出了一个随机森林算法和GNN相结合的框架，该框架利用GNN的关系能力和集成学习的优势

（2）提出一种对齐机制，通过有效利用特征选择后的剩余特征，进一步增强GNN基成模型的性能

（3）框架非常灵活，可以与各种广泛使用的骨干网一起使用

模型的框架图：

论文方法的大概介绍：：

（1）构建子图的方式

节点下采样（按照一定比例）
feature selection（按照一定比例）
edge dropping.（边缘丢弃是为了增加子图的区别）

GNN用来处理图数据，FCN用来处理非图数据。

GNN输出和FCN输出对齐方式：Hadamard乘积，点乘的方法。我们需要确保GNN的输出和FCN的输出具有相同的维度和含义，

先得出标签值，然后再计算预测标签和真实标签的差值。

算法1:训练算法

输入是：G和X，下采样（比例阿尔法）还有多个GNN和FCN。

GNN输出一个值，FCN输出一个值，然后align。更新参数：通过应用梯度下降来最大化更新 Gθi 和 Fθi 的参数（公式4:Li = − ∑ vn∈VL loss (yin, ̃ yin) ）

三个数据集

基线比较：

DT、RF、Node2Vec、GCN、SGC、GAT、Boosting-GNN、JK-Nets、GraphSAINT、LA-GCN

4.3变体

为了更全面地了解每个模块在整体学习框架中的运作方式，并更好地评估它们各自对性能改进的贡献，我们生成了完整 RF-GNN 模型的几个变体。

RF-GNN 模型由三个主要模块组成：子图构建模块、对齐机制和模型集成模块。

为了进行消融研究。

超参数：

AdamW 优化器、200 轮训练。除 Node2Vec 的学习率设置为 0.005 外，所有模型的学习率均设置为 0.01。所有数据集上的 L2 权重衰减因子均设置为 5e-4。dropout设置为 0.3 至 0.5。对于所有模型，GNN 层的输入和输出维度都是一致的，分别为 128 或 256。

GAT 和 RGAT的注意力头设置为 4。

我们使用 Pytorch 1.8.0、Python 3.7 实现 RF-GNN。 10、PyTorch Geometric [27] 与稀疏矩阵乘法。所有实验均在配备 9 Titan RTX GPU、2.20GHz Intel Xeon Silver 4210 CPU 和 512GB RAM 的服务器上执行。操作系统是Linux bcm 3.10.0。

GCN跟GAT模型比其他模型在不同数据集上表现更好，主要是因为它们引入了全局信息或注意力机制来适应特定任务。

实际效果：

SGC模型从GCN中去除了非线性激活函数。尽管所有数据集的准确性略有下降，但与 GCN 相比，SGC 可以实现相似的性能。

GCN方法讲归一化邻接矩阵和特征矩阵相乘，再将其与可训练参数矩阵相乘，以对整个图数据进行卷积运算。

RF-GCN 的 a 的最佳值为 0.5，在Cresci-15数据集上，RF-GCN的性能随着α的增加而逐渐提高。总体而言，当所有数据集的 α 在 0.3 到 0.7 范围内时，RFGCN 表现出稳定性。

特征选择概率β分析：特征选择比是对RF-GCN性能影响最大的参数。在所有数据集中，当 β 小于 0.3 时，RF-GCN 的性能很差。这可能是由于特征数量不足，阻碍了模型有效学习和检测机器人的能力。在 Twibot-20 数据集上，当 β 设置为 0.7 时，RF-GCN 表现最佳。在 MGTAB 和 Cresci-15 数据集上，β 的最佳值为 0.9，以获得最佳性能。

边缘保持概率 γ 分析：当所有数据集上 γ 在 0.1 到 0.9 范围内时，RF-GCN 是稳定的。减小γ值会增加数据增强对图数据的效果，模型性能会略有提升。

这意味着RF-GCN-E的每个基分类器都是在相同的训练集上训练得到的。这样做会导致基分类器之间的相似度很高。

weixin_42731794

关注

8
点赞
踩
18

收藏

觉得还不错? 一键收藏
0
评论
RF- GNN：随机森林增强图神经网络

对于所有模型，GNN 层的输入和输出维度都是一致的，分别为 128 或 256。RF-GCN 的 a 的最佳值为 0.5，在Cresci-15数据集上，RF-GCN的性能随着α的增加而逐渐提高。为什么要用GNN来当基分类器，原因是：随机森林的基分类器是DT，DT的缺点是：容易过拟合，它们对复杂非线性关系的建模能力较弱（那就需要提取更多的特征）。输出对齐和聚合：每个子图和FCN都会产生一个输出，然后将它们对齐并聚合，生成最终的预测结果，这可能包括简单的平均或投票。这样做会导致基分类器之间的相似度很高。
复制链接

扫一扫