0 摘要
为了充分利用快速增长的无标签网络数据,本文介绍了一种新的自监督策略,通过利用数据本身
的自然监督来进行图表示学习
我们研究全局上下文是否可以成为学习有用的节点表示的监督信号的来源
随机选择图中给的几对节点,训练一个精心设计的神经网络来预测一个节点相对于另一个节点的上下文位置
1 介绍
应该学习什么一直是无监督学习的核心问题
在没有手工标注的情况下,如何设计合适的目标函数来学习理想的节点表示是一个具有挑战性的问题
如何有效地捕捉图的整体结构仍然是一个具有挑战性的问题
本文:
- 提出了使用路径的长度(跳数),来表示全局上下文。路径长度可以反映两个节点之间的相似程度。路径越短,他们之间的相互作用越大。
- 提出了一个自监督图表示学习框架S 2 ^2 2GRL预测图中一对节点的相对位置,它需要学习到的节点表示来编码全局拓扑信息,同时能够区分节点对之间的相似性和不相似性
贡献总结:
- 我们首次尝试研究隐藏在图结构数据中的自然监督信号,即跳数,并利用该信号以自监督方式学习未标记数据集上的节点表示
- 我们提出了一种有效的自监督学习框架 S 2 ^2 2GRL,它训练神经网络来预测节点对之间的相对上下文位置,从而学习全局上下文感知节点表示。
- 我们进行了广泛的实验来评估S 2 ^2 2GRL在三种常见的学习任务上的表现。结果表明,与最先进的无监督方法相比,它表现出了有竞争力的性能,有时甚至超过了一些强大的监督基线。
3 方法
3.1 问题描述
目标是训练一个编码器 f ω f_\omega fω,在输入图本身自动获得自然监督的指导下将每个节点投影到一个 q q q维空间 R q \mathbb{R}^q Rq中,这样节点将在全局上下文中表示为 Z = [ z 1 , z 2 , ⋯ , z n ] T ∈ R n × q Z=[z_1, z_2, \cdots, z_n]^T \in \mathbb{R}^{n \times q} Z=[z1,z2,⋯,zn]T∈Rn×q,这种监督信号将作为伪标签 Y ^ \hat{Y} Y^来训练编码器 f ω f_\omega fω的功能,通过求解
min ω , θ L ( Y ^ , h θ ( f ω ( X , A ) ) ) \min_{\omega, \theta} \mathcal{L}(\hat{Y}, h_\theta (f_\omega(X,A))) ω,θminL(Y^,hθ(fω(X,A)))
- h θ h_\theta hθ:预测伪标签的分类器
- 构建特定的伪标签 Y ^ \hat{Y} Y^使得所需的信息可以在节点表示中编码
3.2 一个节点的全局上下文
假设 G \mathcal{G} G中的所有节点都够成节点 v i v_i vi的全局上下文,任意其他节点 v j ∈ G v_j \in \mathcal{G} vj∈G都可以通过一条路径 p i j p_{ij} pij与其交互,这比基于随机游走的算法有限的窗口大小所指定的上下文要全面的多
节点 v i v_i vi的全局上下文定义为 C i = V − { v i } \mathcal{C}_i = \mathcal{V} - \{v_i\} C