【论文解读|KDD2021】HeCo - Self-supervised Heterogeneous Graph Neural Network with Co-contrastive Learning

在这里插入图片描述
对比学习
基于对比学习的自监督异构图神经网络

摘要

异构图神经网络(HGNNs)作为一种新兴技术,在处理异构信息网络(HIN)方面表现出了卓越的能力。然而,大多数HGNN遵循半监督学习方式,这明显限制了它们在现实中的广泛使用,因为在实际应用中标签通常很少。近年来,对比学习作为一种自监督的学习方法,成为最令人兴奋的学习范式之一,并在没有标签的情况下显示出巨大的潜力。本文研究了自监督HGNN问题,提出了一种新的HGNN协同对比学习机制,命名为HeCo。不同于传统的对比学习只关注正面和负面样本的对比,HeCo采用了跨视图对比机制。具体地说,提出了HIN的两个视图(网络模式和元路径视图)来学习节点嵌入,从而同时捕获局部和高阶结构。然后提出了跨视图对比学习和视图掩码机制,该机制能够从两个视图中提取出积极和消极的嵌入信息。这使得两个视图能够相互协作监督,并最终学习高级节点嵌入。此外,设计了两个扩展的HeCo,以生成更硬的高质量的负样本,进一步提高了HeCo的性能。在各种真实网络上进行的大量实验表明,所提出的方法优于目前的技术水平。

1 引言

在现实世界中,异构信息网络(HIN)或异构图(HG)[30]是普遍存在的,因为它能够建模各种类型的节点以及它们之间的各种交互,如书目网络[15]、生物医学网络[3]等。近年来,异构图神经网络(heterogeneous graph neural networks, hgnn)在处理HIN数据方面取得了巨大的成功,因为它们能够有效地将消息传递机制与复杂的异构性结合起来,从而很好地捕捉到复杂的结构和丰富的语义。到目前为止,hgnn显著促进了HIN分析向现实应用的发展,如推荐系统[6]和安全系统[7]。
基本上,大多数HGNN研究都属于半监督学习范式,即通常设计不同的异构消息传递机制来学习节点嵌入,然后由部分节点标签监督学习过程。然而,某些节点标签必须事先知道的要求实际上经常被违反,因为在某些现实环境中获取标签非常具有挑战性或成本很高。例如,准确地标记一个未知的基因通常需要大量的分子生物学知识,这对经验丰富的研究人员来说也不容易。最近,自监督学习,旨在自发地从数据本身找到监督信号,成为一个有希望的解决方案,没有明确的标签[24]。对比学习作为一种典型的自我监督学习技术,已经引起了广泛的关注[2,12,13,25,33]。通过提取数据中的正样本和负样本,对比学习的目标是使正样本之间的相似度最大化,而使负样本之间的相似度最小化。这样,即使没有标签,对比学习也能学习有区别的嵌入。尽管对比学习在计算机视觉[2,13]和自然语言处理[4,21]中得到了广泛的应用,但对HIN巨大潜力的研究却很少。
在实践中,设计具有对比学习的异质图神经网络并非易事,我们需要仔细考虑HIN和对比学习的特点。这需要解决三个根本性问题

  • 如何设计异构对比机制。(How to design a heterogeneous contrastive mechanism.)HIN由多种类型的节点和关系组成,这自然意味着它具有非常复杂的结构。例如,metpath,即多重关系的组成,通常用于捕获HIN[31]中的长程结构。不同的元路径代表不同的语义,每一个都反映HIN的一个方面。要学习一个能完全编码这些语义的有效节点嵌入,仅在单个元路径视图[26]上进行对比学习是远远不够的。因此,研究HGNN的异构跨视图对比机制尤为重要。
  • 如何在HIN中选择合适的视图。如前所述,HGNN需要跨视图对比学习。尽管由于异质性,人们可以从HIN中提取许多不同的视图,但一个基本要求是,所选的视图应该涵盖局部和高阶结构。网络模式是HIN[30]的元模板,反映了节点之间的直接连接,自然捕获了局部结构。相比之下,元路径被广泛用于高阶结构的提取。因此,应该仔细考虑网络模式和元路径结构视图
  • 如何设置一个困难的对比任务。众所周知,恰当的对比任务将进一步促进学习更具甄别性的嵌入[1,2,32]。如果两个视图太相似,监督信号就会太弱,无法学习信息嵌入。因此,我们需要使这两种观点的对比学习更加复杂。例如,一种策略是增强两种观点的信息多样性,另一种策略是生成高质量的更难的负面样本。总之,设计一个合适的对比任务对HGNN是非常重要的。

本文研究了HIN上的自监督学习问题,提出了一种新的具有协同对比学习的异质图神经网络(HeCo)。具体来说,不同于以往将原始网络和受损网络进行对比的对比学习,我们选择了网络模式和元路径结构作为两种视图进行协作监督。在网络模式视图下,节点嵌入是通过聚合直接邻接节点的信息来学习的,它能够捕获节点的局部结构。在元路径视图中,节点嵌入是通过沿着多条元路径传递消息来学习的,目的是捕获高阶结构。通过这种方法,我们设计了一种新颖的对比机制,可以捕获HIN中复杂的结构。为了使对比更加困难,我们提出了一个视图掩码机制,分别隐藏了网络模式和元路径的不同部分,这将进一步增强两个视图的多样性,并有助于从两个视图中提取更高层次的因子。此外,我们提出了两个扩展的HeCo,这产生了更多的高质量的负样本。最后,我们适度地将传统的对比损失应用到图数据中,其中一个节点有许多正样本而不是只有一个,这与CV的方法[2,13]不同。随着训练的进行,这两个视图将相互指导并协同优化。我们工作的贡献总结如下:

  • 据我们所知,这是第一次尝试研究基于交叉视图对比学习的自监督异质图神经网络。通过基于跨视图的对比学习,可以捕获高阶因子,使HGNN更好地应用于实际应用中,无需标签监督。
  • 我们提出了一种新的具有协同对比学习的异质图神经网络HeCo。HeCo创新地使用网络模式和元路径视图来相互协作监督,并设计了视图掩码机制,进一步提高了对比性能。此外,提出了两个扩展的HeCo,即HeCo_GAN和HeCo_MU,以生成高质量的负样本。
  • 我们在四个公共数据集上进行了不同的实验,所提出的HeCo方法在性能上优于现有的甚至半监督方法,从各个方面证明了HeCo方法的有效性。

2 相关工作

在这一节中,我们回顾了一些与之密切相关的研究,包括异质图神经网络和对比学习。
异构图神经网络。图神经网络(gnn)已经引起了广泛的关注,其中大多数gnn是针对同构图提出的,详细的调查可以在[36]中找到。近年来,异质图成为研究热点。例如HAN[35]使用层次注意来描述节点级和语义级结构,而MAGNN[8]则在此基础上考虑了元路径的中间节点。GTN[37]被用来自动识别有用的连接。HGT[16]是专为网络规模的异构网络设计的。在无监督设置下,HetGNN[38]对固定大小的邻居进行采样,并使用LSTM融合它们的特征。NSHE[40]关注网络模式,同时保持了成对和网络模式的接近性。然而,上述方法不能利用数据本身的监督信号来学习一般的节点嵌入。
对比学习。基于对比学习的方法通过对正对和负对的对比来学习表征,取得了很大的成功[1,2,13,25]。这里我们主要回顾一下与图相关的对比学习方法。DGI[33]以正对的形式构建局部patch和全局summary,并利用Infomax[23]理论进行对比。沿着这条线,提出GMI[27],从节点特征和拓扑结构来对比中心节点及其局部patch。MVGRL[12]采用了不同视图之间的对比,并实验了不同视图之间的构图。[28]着重于对比任意两个图的普遍局部结构的预训练。在异构域,DMGI[26]在每个单一视图、元路径上对原始网络和损坏网络进行对比学习,并设计共识正则化来指导不同元路径的融合。然而,在HIN中缺乏对不同视图进行对比的方法,以便能够捕获高层次的因素。

4 HeCo模型

本节我们提出了一种新的具有共对比学习的异质图神经网络HeCo,其总体架构如图2所示。该模型从网络模式视图和元路径视图对节点进行编码,完整地描述了HIN的结构。在编码过程中,我们创造性地引入了视图掩码机制,使这两个视图相互补充和监督。对于这两种特定于视图的嵌入,我们在这两种视图中采用了对比学习。考虑到节点间的高相关性,我们重新定义了HIN中节点的正样本,并设计了优化策略。

4.1 节点特征转化

4.2 网络模式视图编码器

4.3 元路径视图

4.4 视图掩码机制

4.5 协同对比优化

5 实验

6 结论

在本文中,我们提出了一种新的具有跨视图对比学习的自监督异质图神经网络,命名为HeCo。HeCo将网络模式和元路径作为两种视图来捕获局部结构和高阶结构,并在它们之间进行对比学习。这两个视图相互监督,并最终协作学习节点嵌入。此外,为了进一步提高HeCo的性能,设计了一种视图掩码机制和两个扩展HeCo,增加了对比学习的难度。大量的实验结果,以及这两种观点之间的协作变化趋势,验证了HeCo的有效性。


总结
本文采用了目前最新的对比学习方法,采用元路径和网络模式两种视图进行跨视图对比学习
课下应该补充对比学习相关知识SimCLR

  • 0
    点赞
  • 10
    收藏
    觉得还不错? 一键收藏
  • 3
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 3
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值