2.1 Hard Sample Aware Network for Contrastive Deep Graph Clustering

作者:国防科技大学智能科学与技术学院  西北工业大学   北京信息科技大学 


1.摘要

       对比深度图聚类旨在通过对比机制将节点划分为不相交的组,它是一个具有挑战性的研究领域。在现有工作中,基于硬样本挖掘的算法因其良好的性能而备受关注。然而,我们发现现有的硬样本挖掘方法存在以下两个问题。

1) 在硬度测量中,相似性计算忽略了重要的结构信息,降低了所选硬阴性样品的代表性。

2) 以往的工作只关注硬负样本对,而忽略了硬正样本对。

然而,同一聚类内但相似度较低的样本也应仔细学习。为了解决这些问题,我们提出了一种新的对比深度图聚类方法,称为硬样本感知网络(HSAN),通过引入综合的相似性度量标准和通用的动态样本加权策略。具体来说,在我们的算法中,通过考虑属性嵌入和结构嵌入来计算样本之间的相似性,更好地揭示样本之间的关系,并辅助硬度测量。此外,在精心收集的高置信度聚类信息的指导下,我们提出的权重调制函数将首先识别正样本和负样本,然后动态地对硬样本对进行增重,同时对易样本对进行减重。这样,我们的方法不仅可以挖掘出硬阴性样本,还可以挖掘出强阳性样本,从而进一步提高了样本的判别能力。大量的实验和分析证明了我们提出的方法的优越性和有效性。


2.引言

        近年来,由于强大的潜在监督信息提取能力,对比学习在深度图聚类领域取得了良好的效果。在最近的工作中,研究人员证明了对比学习中的硬负样本挖掘的有效性。具体地,GDCL被提出通过聚类伪标签来校正负样本选择的偏差。首先对假阴性样本进行滤波,然后通过样本插值生成更丰富的阴性样本集。

        尽管被证明是有效的,但我们指出了现有方法的两个缺点如下。1) 在测量样品硬度时,样品相似性计算忽略了重要的结构信息,降低了所选硬阴性样品的代表性。2) 以往的工作只关注硬阴性样本,而忽略了硬阳性样本,限制了样本的判别能力。我们认为,同一聚类中但相似度较低的样本也应该仔细学习。

        为了解决上述问题,我们通过设计一个综合的相似性度量标准和一个通用的动态样本权重策略,提出了一种新的对比深度图聚类方法,称为硬样本感知网络(HSAN)。具体来说,为了提供更可靠的硬度测量标准,通过属性相似性和结构相似性的可学习线性组合来计算样本相似性。此外,为了提高网络的判别能力,提出了一种新的对比样本加权策略。首先,我们对一致节点嵌入执行聚类算法,并生成高置信度聚类伪标签。然后,来自相同聚类的样本被识别为潜在正样本对,而来自不同聚类的样本则被选择为潜在负样本对。特别地,自适应样本加权函数根据训练难度来调整高置信度正样本对和负样本对的权重。如图1所示,相似性较小的正样本对和相似性较大的负样本对是需要更多关注的硬样本。

图1:样品权重策略示意图。在样本加权过程中,根据形成聚类过程生成的高置信度伪标签,来自相同聚类的样本被识别为潜在的正样本对。同时,来自不同聚类的样本被组合为潜在负样本对。为了驱动网络更多地关注硬样本,我们将更大的权重分配给子图(a)中所示的相似性较小的正样本对,并将更小的权重分配给与子图(b)中所述的相似性较低的负样本对。这样,同一聚类中相似度低的样本和不同聚类中相似度大的样本被挖掘为硬样本。



       本文的主要贡献总结如下:

      (1).我们提出了一种新的对比深度图聚类,称为硬样本感知网络(HSAN)。它引导网络同时关注硬阳性和阴性样本对。

      (2).为了辅助硬样本挖掘,我们设计了一个综合考虑属性和结构信息的相似性度量准则。它更好地揭示了样本之间的相似性。

       (3).在高置信度聚类信息的指导下,所提出的样本权重调制策略在对易样本进行加权的同时动态地对硬样本对进行加权,从而提高了网络的判别能力。

       (4).在六个数据集上的大量实验结果证明了我们提出的方法的优越性和有效性。


3.相关工作

       (1)深度图聚类

       深度图聚类深度学习在许多领域都取得了成功,包括计算机视觉、时间序列分析、生物信息学,以及图形数据挖掘。在这些方向中,深度图聚类近年来引起了极大的关注,它旨在用神经网络对节点进行编码,并将其划分为不相交的聚类。根据学习机制,现有方法大致可分为三类:生成方法、对抗性方法和对比方法。关于快速增长的深度图聚类的更多信息可以在我们的调查论文中查看(Liu et al 2022d)。在这项工作中,我们专注于最后一类,即对比深度图聚类。最近,对比机制在许多领域取得了成功,如图像(Xu和Lang 2020)和图(Zhu et al 2020;Wu et al 2021b)以及知识图(Liang et al 2022a)。受其成功的启发,越来越多地对比深度图聚类方法被提出。先驱AGE(Cui et al 2020)通过设计的自适应编码器进行对比学习。MVGRL(Hassani和Khasahmadi 2020)采用InfoMax损失(Hjelm et al 2018)来最大化跨视图互信息。随后,SCAGC(Xia等人,2022d)将阳性样本拉到一起,同时在增强视图中推开阴性样本。之后,DCRN及其变体(Liu等人,2022c,f)通过以双重方式减少相关性来缓解坍塌的表示。然后提出了SCGC(Liu et al 2022e),通过简化数据扩充和图卷积运算来降低现有方法的高时间成本。最近,阳性和阴性样本的选择引起了极大的关注。具体而言,GDCL(赵等人2021)开发了一种去偏采样策略,以纠正阴性样本的偏误。然而,大多数现有的方法对简单样本和硬样本一视同仁,导致无法区分。为了解决这个问题,我们通过挖掘硬样本提出了一种新的对比深度图聚类方法。在我们提出的方法中,硬正样本和负样本的权重将动态增加,而易样本的权重则会减少。

     (2)硬样本挖掘

        在对比学习方法中,正样本和负样本的选择是有希望表现的一个关键因素。先前关于图像的工作(Chuang等人2020;Robinson等人2020;Kalantidis等人2020)已经证明,硬阴性样本是硬的但有用的。受其成功的激励,越来越多的研究人员开始关注图上的硬负样本挖掘。具体而言,GDCL(赵等人2021)利用聚类伪标签来校正属性图聚类任务中负样本选择的偏差。此外,CuCo(Chu等人2021)在图分类任务中从容易到困难地选择和学习样本。此外,为了更好地挖掘真负样本和硬负样本,STENCIL(Zhu et al 2022)主张用异构图的局部结构模式丰富模型。最近,ProGCL(Xia等人2022a)通过设计的概率估计器为负样本的硬度以及相似性建立了更合适的度量。尽管验证了有效性,但以前的方法忽略了硬正样本对,从而导致了次优性能。在这项工作中,我们认为具有相同类别但相似性低的样本也应该仔细学习。基于这一动机,我们提出了一种通用的样本加权策略,以引导网络更多地关注硬正样本和负样本。

3.方法

       在本节中,我们提出了一种新的用于对比深度图聚类的硬样本感知网络(HSAN),通过引导我们的网络同时关注硬正样本和负样本对。该框架如图2所示。

图2:我们提出的硬样本感知网络示意图。在属性和结构编码中,我们使用属性编码器和结构编码器将属性和结构嵌入到潜在空间中。然后通过属性相似度和结构相似度的可学习线性组合来计算样本相似度,从而更好地揭示样本关系。此外,在高置信度信息的指导下,提出了一种通用的动态样本加权策略,对硬样本对进行加权,对易样本对进行减权。总体而言,硬样本感知的对比损失引导网络更多地关注硬阳性和阴性样本对,从而进一步提高样本的判别能力。

         (1).符号与问题定义

         设V={v1,v2,…,vN}是具有C类的N个节点的集合,E是边的集合。在矩阵形式中,X∈R和A∈R分别表示属性矩阵和原始邻接矩阵。则G={X,A}表示一个无向图。度矩阵公式化为D=diag(d1,d2,…,dN)∈R和di=P(vi,vj)∈EAij。图拉普拉斯矩阵定义为L=D−A。利用GCN中的重整化矩阵的迹 \widehat{A}=A+I,对称归一化图拉普拉斯矩阵表示为

表1总结了这些符号。

深度图聚类的目标是用神经网络以无监督的方式对节点进行编码,然后将它们划分为几个不相交的组。通常,首先在没有人为注释的情况下训练神经网络F,并通过利用节点属性和图结构将节点嵌入到潜在空间中,如下所示:

其中X和A表示属性矩阵和原始邻接矩阵。此外,E∈RN×d是学习的节点嵌入,其中N是样本数,d是特征维数。之后,采用聚类算法C,如K-means、谱聚类或聚类神经网络层,将节点划分为K个不相交的组,如下所示:             

其中,Φ ∈ RN ×K 表示所有 N 个样本的簇成员矩阵。N 是样本数量,K 是簇的数量。

     (2).属性和结构编码

        在本节中,设计了两种类型的编码器,将节点嵌入到潜在空间中。具体地,属性编码器(AE)和结构编码器(SE)分别对样本的属性信息和结构信息进行编码。

        在属性编码的过程中,我们遵循之前的工作并过滤属性矩阵 \widetilde{X} 中的高频噪声,具体公式如下:

其中I-\widetilde{L}是图拉普拉斯滤波器,t是滤波次数。然后我们用AE1和AE2对\widetilde{X}进行如下编码:

其中Z^{v_1}Z^{v_2}表示样本的两个视图属性嵌入。这里,AE_1AE_2都是简单多层感知(MLP),它们具有相同的架构,但参数不共享,因此Z^{v_1}Z^{v_2}包含不同的语义信息。与基于混合的方法不同,我们提出的方法不需要扩充。

        此外,我们还提出了结构编码器来对样本的结构信息进行编码。具体来说,我们对编码器的结构设计如下:

其中E^{v_1}E^{v_2}表示两个视图结构嵌入。类似地,SE_1SE_2是简单的MLP,它们具有相同的架构,但参数不共享,因此E^{v_1}E^{v_2}在训练期间包含不同的语义信息。

        通过这种方式,我们获得了每个样本的属性嵌入和结构嵌入。随后,提出了属性结构相似性函数S来计算第j个视图中的第i个样本和第l个视图中第k个样本之间的相似性,公式如下:

其中i,k∈{1,2,…,N}和j,l∈{1/2}。此外,α表示可学习的权衡参数。等式(6)中的第一项和第二项都表示余弦相似性。S可以同时考虑属性和结构信息,更好地揭示样本关系,从而有助于硬样本挖掘。

        (3).聚类与伪标签生成

       编码后,对学习到的节点嵌入进行K-means,得到聚类结果。然后我们提取更可靠的聚类信息。具体地说,我们首先生成聚类伪标签P,然后选择顶部T样本作为高置信度样本集H。这里,τ是置信度超参数,M是高置信度样本的数量。置信度是通过到聚类中心的距离来测量的(。基于P,我们计算样本对伪标签Q如下:

这里,Q_{ij}揭示了第i个和第j个样本之间的伪关系。确切地,Q_{ij}=1意味着第i个和第j个样本更有可能是正样本对,而Q_{ij}=0意味着它们更有可能是负样本对。

        (4).硬样本感知对比学习

        本节中,首先介绍了图对比方法中经典的infoNCE损失的缺点,然后提出了一种新的硬样本感知对比损失,以引导网络更多地关注硬正样本和负样本。

       第j个视图中第i个样本的infoNCE损失公式如下:

       

其中j \neq i。此外,\theta \left ( \cdot \right )表示潜在空间中成对样本之间的余弦相似性。通过最大限度地减少信息NCE损失,他们将不同视图中的相同样本聚集在一起,同时推开其他样本。

        然而,我们发现经典infoNCE的缺点是,硬样本对与易样本对被同等对待,限制了网络的判别能力。为了解决这个问题,我们提出了一个权重调制函数M来在训练过程中动态调整样本对的权重。具体地,基于所提出的属性结构相似性函数S和所生成的样本对伪标签Q,M被公式化如下:

其中i^{v_j}表示第j个视图中的第i个样本,并且Norm表示最小-最大归一化。在式(9),当第i个或第j个样本不具有高置信度时,即,-I(i,k∈H),我们在infoNCE损失中保持原始设置。不同的是,当样本具有高置信度时,利用伪信息和样本的相似性来调制样本权重。这里,超参数β∈[1,5]是聚焦因子,它决定了易样本对的下加权率。在下文中,我们分析了所提出的权重调制函数M的性质。

1) M可以在对容易样本进行加权的同时对硬样本进行加权。具体地,当第i个、第j个样本被识别为正样本对(Q_{ij}=1)时,将它们拉在一起的硬度随着相似性的增加而降低。因此,M对具有小相似性的正样本对(硬样本对)进行上加权,而对具有大相似性的样本对(容易样本对)则进行下加权。例如,当Q_{ij}=1和β=2时,具有0.90相似性的易正样本对被加权为0.01。不同的是,相似度为0.10的硬阳性样本对加权为0.81,显著大于0.01。在负样本对上也可以得到类似的结论。实验证据可以在图1中找到。

2) 聚焦因子β控制容易样本对的向下加权率。具体地说,当β增加时,容易样本对的向下加权率增加,反之亦然。以正样本对为例(Qij=1),相似度为0.9的简单样本被向下加权为0.1β。这里,当β=1时,权重设置为0.1。不同的是,当β=3时,重量下降到0.001,明显小于0.1。该特性通过附录图2-3中的可视化实验进行了验证。

          基于S和M,我们在第j个视图中对第i个样本的硬样本感知对比损失公式如下:

其中k̸=i。与infoNCE损失相比,我们首先采用了更全面的相似性测量标准S来辅助样本硬度测量。然后,我们提出了一个权重调制函数M,对硬样本对进行加权,对易样本对进行减权。总之,我们的方法的总体损失公式如下:

    

这种硬样本感知的对比损失可以引导我们的网络不仅关注硬阴性样本,还关注硬阳性样本,从而进一步提高样本的判别能力。我们总结两个原因如下。1) 所提出的属性-结构相似性函数S考虑了属性和结构信息,从而更好地揭示了样本关系。2) 所提出的权重调制函数M是用于正样本对和负样本对的通用动态样本加权策略。在训练过程中,它可以增加硬样本对的权重,而减少简单样本对的重量。

        (5).损失函数的复杂性分析

        本节中,分析了所提出的硬样本感知对比损失L的时间和空间复杂性。这里,我们表示批大小为B,该批中高置信度样本的数量为M,嵌入的维数为d。S和M的时间复杂度分别为O(B2d)和O(M2d)。由于M<B,整个硬样本感知对比损失的时间复杂度为O(B2d)。此外,我们提出的损失的空间复杂度为O(B2)。因此,与infoNCE损失相比,所提出的损失不会带来高的时间或空间成本。算法1总结了我们提出的HSAN的详细过程。此外,PyTorch风格的伪代码可以在附录中找到。

       4.结论

       本文提出了一种硬样本感知网络(HSAN)来挖掘对比深度图聚类中的硬样本。核心思想是增加硬样本对的权重,同时减少负样本对的加权。通过这种方式,所提出的硬样本感知对比损失迫使网络专注于正样本和负样本对,从而进一步提高了判别能力。对所提出的损失的时间和空间分析表明,与经典的infoNCE损失相比,它不会带来大的时间或空间成本。实验证明了该方法的有效性和优越性。HSAN的弱点在于置信度参数被设置为固定值。因此,一项值得未来研究的工作是设计一个可学习或自适应的置信参数。

  • 32
    点赞
  • 38
    收藏
    觉得还不错? 一键收藏
  • 2
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论 2
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值