图神经网络实战——利用节点回归预测网络流量
0. 前言
在机器学习中,回归指的是对连续值的预测。通常与分类形成鲜明对比,分类的目标是找到正确的类别(即离散值,而非连续值)。在图数据中,分类和回归分别对应于节点分类和节点回归。在本节中,我们将尝试预测每个节点的连续值,而非分类变量。
1. 数据集分析
为了利用节点回归预测网络流量,在本节中,我们将使用 Wikipedia Network
数据集,Wikipedia Network
数据集由 Rozemberckzi
等人于 2019
年引入。它由三个页面网络组成:chameleons
(包含 2277
个节点和 31421
条边)、crocodiles
(包含 11631
个节点和 170918
条边)和 squirrels
(包含 5201
个节点和 198493
条边)。在这些数据集中,节点代表文章,边代表文章之间的相互链接,节点特征反映了文章中包含的特定词语,我们的目标是预测 2018
年 12
月的平均流量的对数。
在本节中,我们将在 chameleon
数据集上应用图卷积网络 (Graph Convolutional Network, GCN) 来预测网络流量。
(1)