AAAI-2024《Deep Contrastive Graph Learning with Clustering-Oriented Guidance》


推荐一个机器学习前沿公众号,第一时间获取最有价值的前沿机器学习文章。

在这里插入图片描述


核心思想

论文提出了一种名为深度对比图学习(Deep Contrastive Graph Learning, DCGL)的无监督深度学习框架,专门针对非图结构数据的聚类任务。DCGL通过结合伪孪生网络(pseudo-siamese network)、对比学习(contrastive learning)和图神经网络(GNN),在特征级别和聚类级别引入聚类导向指导,从而提升节点区分度和聚类结构的清晰度。框架通过构建局部亲近图(Local Propinquity Graph, LPG)全局扩散图(Global Diffusion Graph, GDG),分别捕捉数据的局部和全局流形结构,并通过孪生图卷积(siamese graph convolution)统一两种图的聚类结构。DCGL解决了现有基于GNN的聚类方法对高质量初始图的依赖以及缺乏聚类特定指导的问题,适用于没有预定义图结构的通用聚类场景。

核心组件包括:

  • 伪孪生网络:结合图卷积网络(GCN)学习结构信息和自编码器(auto-encoder)保留原始数据属性,防止表示崩塌(representation collapse)。
  • 对比学习
    • 特征级别对比学习:通过将节点推离其他聚类的中心来增强节点区分度。
    • 聚类级别对比学习:促进局部和全局图共享明确的聚类中心分布。
  • 局部与全局图学习
    • LPG基于成对相似性,采用自适应邻居更新策略捕获局部流形。
    • GDG通过个性化PageRank扩散捕获全局拓扑关系。
  • 聚类导向指导:利用k均值聚类结果指导对比学习,增强与聚类相关的特征保留。

DCGL通过以上机制在无监督聚类任务中实现了对数据的深层表示学习和结构优化,显著提升了聚类性能。

目标函数

DCGL的总体目标函数整合了多个损失项,优化伪孪生网络、图学习和对比学习模块,定义为:

L = L A E + L F L + α L G L + β L C L \mathcal{L} = \mathcal{L}_{AE} + \mathcal{L}_{FL} + \alpha \mathcal{L}_{GL} + \beta \mathcal{L}_{CL} L=LAE+LFL+αLGL+βLCL

其中:

  • L A E \mathcal{L}_{AE} LAE:自编码器损失,确保原始数据属性的保留。
  • L F L \mathcal{L}_{FL} LFL:特征级别对比损失,提升节点区分度。
  • L G L \mathcal{L}_{GL} LGL:图学习损失,优化局部亲近图。
  • L C L \mathcal{L}_{CL} LCL:聚类级别对比损失,强化聚类结构的清晰度。
  • α , β \alpha, \beta α,β:权衡参数,平衡图学习和聚类级别对比学习的贡献。

各损失项详解

  1. 自编码器损失( L A E \mathcal{L}_{AE} LAE
    用于训练自编码器以重构输入数据,保留原始属性:

    L A E = 1 2 n ∑ i = 1 n ∥ x i − x ~ i ∥ 2 2 \mathcal{L}_{AE} = \frac{1}{2n} \sum_{i=1}^n \|\mathbf{x}_i - \tilde{\mathbf{x}}_i\|_2^2 LAE=2n1i=1nxix~i22

    其中, x i \mathbf{x}_i xi为输入样本, x ~ i \tilde{\mathbf{x}}_i x~i为重构样本, n n n为样本数量。

  2. 特征级别对比损失( L F L \mathcal{L}_{FL} LFL
    通过k均值聚类在自编码器分支( H v 2 \mathbf{H}^{v_2} Hv2)上生成 c c c个聚类中心,利用InfoNCE损失增强节点区分度。对于每个锚点 H i v 1 \mathbf{H}_i^{v_1} Hiv1,其对应分支 H i v 2 \mathbf{H}_i^{v_2} Hiv2为正样本,其他聚类中心为负样本:

    L F L = 1 n ∑ i n ( − log ⁡ e θ ( H i v 1 , H i v 2 ) / τ e θ ( H i v 1 , H i v 2 ) / τ + ∑ j e θ ( H i v 1 , P j ( i ) ) / τ ) \mathcal{L}_{FL} = \frac{1}{n} \sum_i^n \left( -\log \frac{e^{\theta(\mathbf{H}_i^{v_1}, \mathbf{H}_i^{v_2}) / \tau}}{e^{\theta(\mathbf{H}_i^{v_1}, \mathbf{H}_i^{v_2}) / \tau} + \sum_j e^{\theta(\mathbf{H}_i^{v_1}, \mathbf{P}_j^{(i)}) / \tau}} \right) LFL=n1in logeθ(Hiv1,Hiv2)/τ+jeθ(Hiv1,Pj(i))/τeθ(Hiv1,Hiv2)/τ

    其中, θ ( ⋅ , ⋅ ) \theta(\cdot, \cdot) θ(,)为余弦相似度, τ \tau τ为温度参数, P j ( i ) \mathbf{P}_j^{(i)} Pj(i)为负样本中心集合。

  3. 图学习损失( L G L \mathcal{L}_{GL} LGL
    用于优化局部亲近图 S L \mathbf{S}^L SL,基于成对相似性推导流形结构,表达为迹形式:

    L G L = Tr ⁡ { ( H v 1 ) T L S H v 1 } + γ 2 Tr ⁡ { S L ( S L ) T } \mathcal{L}_{GL} = \operatorname{Tr}\left\{ (\mathbf{H}^{v_1})^{\mathrm{T}} \mathbf{L}_{\mathbf{S}} \mathbf{H}^{v_1} \right\} + \frac{\gamma}{2} \operatorname{Tr}\left\{ \mathbf{S}^L (\mathbf{S}^L)^{\mathrm{T}} \right\} LGL=Tr{(Hv1)TLSHv1}+2γTr{SL(SL)T}

    其中, L S \mathbf{L}_{\mathbf{S}} LS S L \mathbf{S}^L SL的拉普拉斯矩阵, γ \gamma γ为正则化参数。

  4. 聚类级别对比损失( L C L \mathcal{L}_{CL} LCL
    在聚类空间内执行对比学习,确保局部和全局图共享相同的聚类结构。聚类中心嵌入通过孪生GCN计算:

    Z v 1 = ( F v 1 ) T H v 1 , Z v 2 = ( F v 2 ) T H v 1 \mathbf{Z}^{v_1} = (\mathbf{F}^{v_1})^{\mathrm{T}} \mathbf{H}^{v_1}, \quad \mathbf{Z}^{v_2} = (\mathbf{F}^{v_2})^{\mathrm{T}} \mathbf{H}^{v_1} Zv1=(Fv1)THv1,Zv2=(Fv2)THv1

    损失函数为:

    L C L = 1 2 c ∑ i [ Ω ( Z i v 1 , Z i v 2 ) + Ω ( Z i v 2 , Z i v 1 ) ] \mathcal{L}_{CL} = \frac{1}{2c} \sum_i \left[ \Omega(\mathbf{Z}_i^{v_1}, \mathbf{Z}_i^{v_2}) + \Omega(\mathbf{Z}_i^{v_2}, \mathbf{Z}_i^{v_1}) \right] LCL=2c1i[Ω(Ziv1,Ziv2)+Ω(Ziv2,Ziv1)]

    其中,

    Ω ( Z i v 1 , Z i v 2 ) = − log ⁡ e θ ( z i v 1 , z i v 2 ) / τ ∑ j e θ ( z i v 1 , z j v 2 ) / τ + ∑ j ≠ i c e θ ( z i v 1 , z j v 1 ) / τ \Omega(\mathbf{Z}_i^{v_1}, \mathbf{Z}_i^{v_2}) = -\log \frac{e^{\theta(\mathbf{z}_i^{v_1}, \mathbf{z}_i^{v_2}) / \tau}}{\sum_j e^{\theta(\mathbf{z}_i^{v_1}, \mathbf{z}_j^{v_2}) / \tau} + \sum_{j \neq i}^c e^{\theta(\mathbf{z}_i^{v_1}, \mathbf{z}_j^{v_1}) / \tau}} Ω(Ziv1,Ziv2)=logjeθ(ziv1,zjv2)/τ+j=iceθ(ziv1,zjv1)/τeθ(ziv1,ziv2)/τ

目标函数的优化过程

DCGL的目标函数通过Adam优化器进行优化,具体流程如下(详见论文Algorithm 1):

  1. 初始化

    • 输入数据矩阵 X \mathbf{X} X、聚类数量 c c c、初始邻居数 k k k、邻居更新间隔 t t t、最大迭代次数 i t e r iter iter及参数 α , β , γ \alpha, \beta, \gamma α,β,γ

    • 通过公式(1)计算初始图 A \mathbf{A} A,基于欧几里得距离构建邻接关系:

      min ⁡ A ∑ i = 1 n ∥ x i − x j ∥ 2 2 a i j + γ ∥ A ∥ F 2 , s.t.  ∥ a i ∥ 1 = 1 , 0 ≤ a i ≤ 1 \min_{\mathbf{A}} \sum_{i=1}^n \|\mathbf{x}_i - \mathbf{x}_j\|_2^2 a_{ij} + \gamma \|\mathbf{A}\|_{\mathrm{F}}^2, \quad \text{s.t.} \ \|\mathbf{a}_i\|_1 = 1, 0 \leq \mathbf{a}_i \leq 1 Amini=1nxixj22aij+γAF2,s.t. ai1=1,0ai1

  2. 迭代优化

    • 伪孪生网络:计算GCN分支表示 H v 1 \mathbf{H}^{v_1} Hv1和自编码器分支表示 H v 2 \mathbf{H}^{v_2} Hv2,并生成重构数据 X ~ \tilde{\mathbf{X}} X~

    • 特征级别对比学习:在 H v 2 \mathbf{H}^{v_2} Hv2上执行k均值聚类获取 c c c个中心,计算 L F L \mathcal{L}_{FL} LFL

    • 局部图学习:基于 H v 1 \mathbf{H}^{v_1} Hv1更新LPG S L \mathbf{S}^L SL,计算 L G L \mathcal{L}_{GL} LGL,并按固定间隔 t t t逐步增加邻居数 k k k

    • 全局图学习:融合 H v 1 \mathbf{H}^{v_1} Hv1 H v 2 \mathbf{H}^{v_2} Hv2生成综合表示 H \mathbf{H} H,计算GDG S G \mathbf{S}^G SG,使用个性化PageRank扩散:

      S G = λ [ I n − ( 1 − λ ) D G − 1 2 G D G − 1 2 ] − 1 \mathbf{S}^G = \lambda \left[ \mathbf{I}_n - (1 - \lambda) \mathbf{D}_{\mathbf{G}}^{-\frac{1}{2}} \mathbf{G} \mathbf{D}_{\mathbf{G}}^{-\frac{1}{2}} \right]^{-1} SG=λ[In(1λ)DG21GDG21]1

    • 孪生图卷积:将 H v 1 \mathbf{H}^{v_1} Hv1和归一化的 S L , S G \mathbf{S}^L, \mathbf{S}^G SL,SG输入GCN,生成聚类指示器 F v 1 , F v 2 \mathbf{F}^{v_1}, \mathbf{F}^{v_2} Fv1,Fv2,计算聚类中心 Z v 1 , Z v 2 \mathbf{Z}^{v_1}, \mathbf{Z}^{v_2} Zv1,Zv2,并计算 L C L \mathcal{L}_{CL} LCL

    • 联合优化:通过Adam优化器最小化总损失 L \mathcal{L} L,更新模型参数。

  3. 收敛与输出

    • 当邻居数 k k k达到上限 ⌊ n c ⌋ \lfloor \frac{n}{c} \rfloor cn或迭代次数达到 i t e r iter iter时停止。
    • 对收敛的LPG S L \mathbf{S}^L SL执行谱聚类(NCut),输出最终聚类标签。

优化过程通过逐步增加邻居数实现LPG的阶段性增长,结合特征和聚类级别的对比学习,确保模型逐步逼近清晰的聚类结构。

主要贡献点

  1. 提出DCGL框架

    • 设计了一种新颖的无监督深度图学习框架,结合伪孪生网络和对比学习,适用于非图数据的聚类任务,显著降低了对初始图质量的依赖。
  2. 聚类导向的对比学习

    • 提出特征级别和聚类级别对比学习策略,利用k均值中心指导正负样本选择,提升节点区分度和聚类结构的清晰度。
  3. 局部与全局图学习

    • 创新性地构建LPG和GDG,分别捕获局部和全局流形信息,通过孪生图卷积实现统一聚类结构,增强了模型对复杂数据结构的适应性。
  4. 优异的实验性能

    • 在七个公开基准数据集(包括TOX-171、ORL、YaleB等)上,DCGL在准确率(ACC)和归一化互信息(NMI)指标上超越了13种传统和深度聚类方法,验证了其在通用聚类任务中的优越性。
  5. 鲁棒性和通用性

    • 通过消融实验验证了各模块的有效性,参数敏感性分析表明DCGL在合理参数范围内表现稳定,适用于多种数据类型(如图像、文本和记录数据)。

总结

DCGL通过伪孪生网络、对比学习和双图学习的创新设计,为非图数据聚类提供了一种高效的无监督解决方案。其聚类导向指导和局部-全局流形捕捉机制显著提升了聚类性能,填补了现有GNN聚类方法在通用场景中的不足。论文在AAAI-24的发表进一步凸显了其在机器学习和图聚类领域的学术价值。

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包

打赏作者

Christo3

你的鼓励将是我创作的最大动力!

¥1 ¥2 ¥4 ¥6 ¥10 ¥20
扫码支付:¥1
获取中
扫码支付

您的余额不足,请更换扫码支付或充值

打赏作者

实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值