【论文阅读】Self-Supervised Graph Representation Learning via Global Context Prediction

该论文提出了一种新的自监督策略——S2GRL,用于图表示学习。通过预测节点间的全局上下文(跳数)作为自然监督信号,S2GRL在无标签数据上学习节点表示。实验表明,S2GRL在节点分类、聚类和链路预测任务上表现出与监督方法竞争甚至超越的能力。
摘要由CSDN通过智能技术生成

论文地址: https://arxiv.org/abs/2003.01604

0 摘要

为了充分利用快速增长的无标签网络数据,本文介绍了一种新的自监督策略,通过利用数据本身

的自然监督来进行图表示学习

我们研究全局上下文是否可以成为学习有用的节点表示的监督信号的来源

随机选择图中给的几对节点,训练一个精心设计的神经网络来预测一个节点相对于另一个节点的上下文位置

1 介绍

应该学习什么一直是无监督学习的核心问题

在没有手工标注的情况下,如何设计合适的目标函数来学习理想的节点表示是一个具有挑战性的问题

如何有效地捕捉图的整体结构仍然是一个具有挑战性的问题

本文:

  • 提出了使用路径的长度(跳数),来表示全局上下文。路径长度可以反映两个节点之间的相似程度。路径越短,他们之间的相互作用越大。
  • 提出了一个自监督图表示学习框架S 2 ^2 2GRL预测图中一对节点的相对位置,它需要学习到的节点表示来编码全局拓扑信息,同时能够区分节点对之间的相似性和不相似性

贡献总结:

  • 我们首次尝试研究隐藏在图结构数据中的自然监督信号,即跳数,并利用该信号以自监督方式学习未标记数据集上的节点表示
  • 我们提出了一种有效的自监督学习框架 S 2 ^2 2GRL,它训练神经网络来预测节点对之间的相对上下文位置,从而学习全局上下文感知节点表示。
  • 我们进行了广泛的实验来评估S 2 ^2 2GRL在三种常见的学习任务上的表现。结果表明,与最先进的无监督方法相比,它表现出了有竞争力的性能,有时甚至超过了一些强大的监督基线。

3 方法

3.1 问题描述

目标是训练一个编码器 f ω f_\omega fω,在输入图本身自动获得自然监督的指导下将每个节点投影到一个 q q q维空间 R q \mathbb{R}^q Rq中,这样节点将在全局上下文中表示为 Z = [ z 1 , z 2 , ⋯   , z n ] T ∈ R n × q Z=[z_1, z_2, \cdots, z_n]^T \in \mathbb{R}^{n \times q} Z=[z1,z2,,zn]TRn×q,这种监督信号将作为伪标签 Y ^ \hat{Y} Y^来训练编码器 f ω f_\omega fω的功能,通过求解

min ⁡ ω , θ L ( Y ^ , h θ ( f ω ( X , A ) ) ) \min_{\omega, \theta} \mathcal{L}(\hat{Y}, h_\theta (f_\omega(X,A))) ω,θminL(Y^,hθ(fω(X,A)))

  • h θ h_\theta hθ:预测伪标签的分类器
  • 构建特定的伪标签 Y ^ \hat{Y} Y^使得所需的信息可以在节点表示中编码

3.2 一个节点的全局上下文

假设 G \mathcal{G} G中的所有节点都够成节点 v i v_i vi的全局上下文,任意其他节点 v j ∈ G v_j \in \mathcal{G} vjG都可以通过一条路径 p i j p_{ij} pij与其交互,这比基于随机游走的算法有限的窗口大小所指定的上下文要全面的多

节点 v i v_i vi的全局上下文定义为 C i = V − { v i } \mathcal{C}_i = \mathcal{V} - \{v_i\} C

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
自我监督学习是一种机器学习方法,通过对数据进行合理的预测任务,从中获得有用的表示。与传统的监督学习不同,自我监督学习不需要人工标注的标签来指导训练,而是利用数据自身的信息进行训练。 自我监督学习的基本思想是从未标记的数据中构造有意义的标签,然后将这些标签用作训练数据,以学习有用的特征表示。通过对输入数据进行某种形式的变换或遮挡,可以生成一对相关的样本。其中一个样本称为正样本,另一个则被视为负样本。例如,在图像领域中,可以通过将图像进行旋转、裁剪或遮挡等变换来生成正负样本对。模型的目标是通过学习从一个样本到另一个样本的映射,从而使得正样本对之间的相似度更高,负样本对之间的相似度更低。 自我监督学习在许多任务中都取得了很好的效果。例如,在自然语言处理任务中,可以通过遮挡句子中的某些单词或短语来生成正负样本对,然后通过学习从一个句子到另一个句子的映射来进行训练。在计算机视觉任务中,可以通过图像的旋转、裁剪、遮挡或色彩变换等方式来生成正负样本对。 自我监督学习的优点是不需要人工标注的标签,可以利用大量的未标记数据来进行训练,从而扩大训练数据的规模。此外,自我监督学习还可以通过学习到的特征表示来提高其他任务的性能,如分类、目标检测和语义分割等。 总之,自我监督学习是一种有效的无监督学习方法,通过构造有意义的预测任务,从未标记的数据中学习有用的特征表示。它在各种任务中都有广泛的应用,并具有很高的潜力。
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值