ICML21 : Self-supervised Graph-level Representation Learning with Local and Global Structure 上交

文章信息

在这里插入图片描述

摘要

监督/自监督的全图表示学习,这在药物和材料发现中的分子性质预测等许多任务中都是至关重要的。现有的方法主要集中在保留不同图实例之间的局部相似性结构上,但没有发现整个数据集的全局语义结构。
提出了一个统一的框架,称为局部实例和全局语义学习(GraphLoG),用于自监督的全图表示学习。具体来说,除了保留局部相似性外,GraphLoG还引入了分层原型来捕获全局语义集群。进一步开发了一种有效的在线期望最大化(EM)算法来学习该模型。我们通过对GraphLoG进行预训练,然后对下游任务进行微调。

简单来说:本文就是通过encoder,对整体和子图构造正负样本对来使得 相似的子图和图表征 能够 相似更近,不相似更远: 具体就是 正样本和负样本对距离尽可能大。 另一部分就是snell提出的原型网络,不知道是调研不够还是 有意回避,本文并为提及 nips上的snell所提出的prototype network。 :具体就是 为每个样本成簇 簇就是 原型, 所映射的 表征,在 特征空间尽可能 围绕原型更加紧凑。
作者任务是 多图分类,graph-level的对比学习,诸如此类的 有DGI的附属 InfoGraph等。

关注点: hierarchical prototypes

具体上: EM算法来生成。 E步,infer图的表征(encoder) + sample 隐变量(计算原型) M步: 通过目标函数来进行最大化 所有数据的似然。 EM步来使得 图的全局语义结构被发现和精炼。 模型是在大量无标签图上预训练的,但是在一些含有稀疏标签图上进行微调。 本文提到 这个 原型 又称–全局语义结构— 语义簇cluster

EM算法

E步:使用原始数据X,和上一阶段EM之后的模型参数θ来求得Z。 即 Z的后验分布 p(Z| X,θt-1)
M步: 整体数据的似然期望 定义为Q(θ),是通过E步求出的Z的后验分布求期望    Q(θ)= Ep(Z| X,θt-1)[log p(Z| X,θ)]。 模型的参数是通过M步最大化这个期望获得, 即 最大化上面的 Q(θ)的时候来更新参数θ 。   θt(最优的) = argmax Q(θ)。

1. introduction

直观地说,一个理想的图表示应该能够保持局部实例结构,这样相似的图就会嵌入得彼此靠近,而不同的图就会保持遥远的距离。此外,整个图集的表示也应该反映数据的全局语义结构,从而使具有相似语义属性的图被紧凑地嵌入
在这里插入图片描述
提出了一种用于自监督图表示学习的局部实例和全局语义学习(GraphLoG)框架。具体来说,为了保持不同图实例之间的局部相似性,我们试图通过区分相关图来对齐相关图/子图的嵌入来自负对的图/子图对。在这个局部光滑的潜在空间中,我们进一步引入了附加的模型参数,分层原型1,以以分层的方式描述图数据集的潜在分布。

上述文字就是 本文提出的方法: 1. 基于图和子图 构造样本对。通过正负样本对学习进行拉推。 2:构造原型 提及语义信息。

优化步骤:EM
在e步骤中,我们用GNN推断这些图的嵌入,并从当前模型定义的后验分布中采样每个图的潜在变量(即与每个图相关的原型)。在m步中,我们的目标是通过优化一个小批量诱导的目标函数来最大化对当前模型的完全数据似然的期望。对于模型学习,我们提出通过在线期望最大化(EM)算法来最大化GNN参数和层次原型的数据似然。给定从数据分布中采样的一小批图因此,在这个迭代的EM过程中,可以逐步发现和细化数据的全局语义结构。整个模型使用大量的未标记图进行预训练,然后对一些包含稀缺标记图的下游任务进行微调和评估。

2. 预备知识

介绍GNN EM算法

3. 方法

3.1 正负样本对学习

通过GNN 提取 graph 和 sub-graph的表征,构造样本对。 相似距离的度量 采用 余弦相似性。 这里整体图级的表征没有写公式。只写了两个视图各自 子图的表征。子图就是L跳内的节点组成的graph。
在这里插入图片描述

这里注意一下: graph正样本的组成(graph 和他 掩盖了节点或边) 负样本: 数据集其他的图( 多图任务,一个数据集 多张小图,都是一个类型, 很多都是分子药物等)
子图 正样本组成(子图和相应的) 负样本对: 当前相同的图 其他节点 所形成的子图。

底下的公式6,7就旨在 最大化相同节点的余弦相似性,每一项都是 一个期望。 这一部分简单来看就是infonce 在节点级,子图级推拉、
对于公式7 正样本对 从(原图,aug后的图)采样, 而负样本对这里的下标都是一样的,下标多了一个n, 是指 负采样。所以负样本对(原图,另外的图) 
对于公式8, 正样本对(原来的子图,aug后的子图)   负样本对(原来的子图,不同节点生成的子图)

在这里插入图片描述

3.2 原型网络

全局语义学习的目标是鼓励图紧凑地嵌入到相应的原型中,同时,细化层次原型以更好地表示数据

这里的原型,对于每一层L网络都M个。 即:如果是一个3层的2个原型。 相当于是 3*2 共6个原型。 这样的每一层都有原型,作者称为 hierarchical原型

这样的原型求解过程,也就是一个 隐变量模型求解问题。通常都是采用EM算法进行求解。

在该原型求解问题中,观察到的整体数据是G,参数是 encoder参数+原型 (C) E步: 即 p(Z|G,θ,C)。 EM算法的 M-步 目标是 最大化完全数据的似然,即 Ep(G,Z|θ,C)。 同时作者 说 vanillaEM算法要求数据都是完整走一遍,本文采用 online EM来高效计算(batch)
公式10就是M步最大似然, 11就是 E步求解。 M是batch,完全数据是有M个G,10,11公式是基于数据独立同分布假设。

在这里插入图片描述
在这里插入图片描述

3.2.1 模型初始化

首先通过局部的损失来预训练GNN。 通过GNN输出的Z,以及k-means来生成 第一层的 原型。 后续每一层的原型都是通过对于 上一层的原型 施加k-means 再生成。因此多层的就是一个树状,底层原型是叶子。 若一个cluster只有少于2个样本,丢弃这个,来避免平凡解。

3.2.2 E步

采样出batch个图,生成Z,这个Z是 自顶向下的 原型整体,即就是下一层的原型是上一层原型的children。这个C参数上一个迭代时刻的原型,θ是参数,G是数据。 Z是求解出的 原型链。
在这里插入图片描述
本文又采用了 随机EM算法,采样一个来进行蒙特卡洛评估。
具体: 在最顶层 通过 类别分布(softmax原型和表征的余弦相似性)来选取一个原型,下一层的原型和这个类似,表征计算和上一层原型的余弦相似性求得类别分布,进而选取,最终生成一个 层次级原型链。

3.2.3 M步

在这里插入图片描述
公式13是整体,14采用batch版本
在这里插入图片描述
在这里插入图片描述
负采样
在这里插入图片描述

采用EM算法优化 牵扯概率论较多 感兴趣建议读原文; 看算法流程还是比较清晰,M优化的梯度 类似SelfSAGCN, 实质上应该就是 snell那篇文章 以及 Xie 2017 ICML原型网络UDA的 类似工作
在这里插入图片描述

4. 实验

在介绍实验之间 有相关工作 这里不单独呈现; 较好的 是 本文相关工作 有关于 聚类和 表征学习 一起的joint框架,就有之前blog所提到的 16年ICML的方法
在这里插入图片描述

在这里插入图片描述
在这里插入图片描述

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值