论文阅读《Deep Graph Clustering via Dual Correlation Reduction》


论文信息

论文标题:Deep Graph Clustering via Dual Correlation Reduction
论文作者:Yue Liu, Wenxuan Tu, Sihang Zhou, Xinwang Liu, Linxuan Song, Xihong Yang, En Zhu
论文来源: 2021,arXiv
论文地址:download
论文代码:DCRNdeep graph clustering


一、Introduction

现有的基于GCN的聚类算法在样本编码过程中通常存在表示崩溃问题,并且倾向于将不同类别的节点映射到相似的表示中。因此,节点表示不区分,聚类性能有限。
为了解决这个问题,我们提出了一种新的自监督深度图聚类方法,称为双重相关约简网络(DCRN),通过双重方式降低信息的相关性来避免表示崩溃。

二、Dual Correlation Reduction Network

(一)符号汇总表

符号汇总表

(二)整体框架

CDR(N整体框架

1.Graph Distortion Module

图失真可以使网络从节点的不同上下文中学习丰富的表示。

(1)Feature Corruption(属性级失真)

对于属性级失真,我们首先从高斯分布 N ( 1 , 0.1 ) \mathcal{N}(1,0.1) N(1,0.1)中采样一个随机噪声矩阵 N ∈ R N × D \mathbf{N} \in \mathbb{R}^{N \times D} NRN×D,然后,生成的损坏属性矩阵 X ~ ∈ R N × D \widetilde{\mathbf{X}} \in \mathbb{R}^{N \times D} X RN×D可公式化:
X ~ = X ⊙ N \widetilde{\mathbf{X}}=\mathbf{X} \odot \mathbf{N} X =XN
⊙ \odot 是Hadamard product。

(2)Edge Perturbation(边扰动)

除了破坏节点特征外,对于结构级失真,我们还引入了两种边扰动策略。一种是基于相似度的边去除,另一种是图扩散。

①基于相似度的边去除

首先计算潜在空间中样本对的余弦相似度,然后根据相似度矩阵生成一个屏蔽矩阵 M ∈ R N × N \mathbf{M} \in \mathbb{R}^{N \times N} MRN×N,其中最低的10%的连接关系将被手动删除。最后,边缘屏蔽邻接矩阵 A m ∈ R N × N \mathbf{A}^{m} \in \mathbb{R}^{N \times N} AmRN×N被归一化,并计算为:
A m = D − 1 2 ( ( A ⊙ M ) + I ) D − 1 2 \mathbf{A}^{m}=\mathbf{D}^{-\frac{1}{2}}((\mathbf{A} \odot \mathbf{M})+\mathbf{I}) \mathbf{D}^{-\frac{1}{2}} Am=D21((AM)+I)D21

②图扩散

通过个性化网页排名(PPR)将归一化的邻接矩阵转化为图的扩散矩阵 。
A d = α ( I − ( 1 − α ) ( D − 1 2 ( A + I ) D − 1 2 ) ) − 1 \mathbf{A}^{d}=\alpha\left(\mathbf{I}-(1-\alpha)\left(\mathbf{D}^{-\frac{1}{2}}(\mathbf{A}+\mathbf{I}) \mathbf{D}^{-\frac{1}{2}}\right)\right)^{-1} Ad=α(I(1α)(D21(A+I)D21))1
其中 α \alpha α是设定为0.2的远程传输概率。

最后,我们将 G 1 = ( X ~ , A m ) \mathcal{G}^{1}=\left(\widetilde{\mathbf{X}}, \mathbf{A}^{m}\right) G1=(X ,Am) G 2 = ( X ~ , A d ) \mathcal{G}^{2}=\left(\widetilde{\mathbf{X}}, \mathbf{A}^{d}\right) G2=(X ,Ad)分别表示为图的两个视图。

2.Dual Information Correlation Reduction(DICR)

引入了一种双重信息相关约简(DICR)机制,以双重方式过滤潜在嵌入的冗余信息,即样本级相关性降低(SCR)特征级相关性降低(FCR),旨在约束我们的网络学习更多有区别的潜在特征,从而缓解表示崩溃。
所提出的DICR机制从样本和特征两个角度考虑了相关性降低。这样,可以过滤冗余特征,同时在潜在空间中保留更多区分性特征,从而使网络能够学习有意义的表示,避免崩溃,从而提高聚类性能。
SCR和FCR

(1)样本级相关性降低(Sample-level Correlation Reduction,SCR)

SCR的学习过程包括两个步骤。对于给定的由siamese graph encoder(孪生编码器)学习的两视图节点嵌入 Z v 1 \mathbf{Z}^{v_{1}} Zv1 Z v 2 \mathbf{Z}^{v_{2}} Zv2,我们首先计算互视图样本相关矩阵 S N ∈ R N × N \mathbf{S}^{\mathcal{N}} \in \mathbb{R}^{N \times N} SNRN×N中的元素:
S i j N = ( Z i v 1 ) ( Z j v 2 ) T ∥ Z i v 1 ∥ ∥ Z j v 2 ∥ , ∀ i , j ∈ [ 1 , N ] \mathbf{S}_{i j}^{\mathcal{N}}=\frac{\left(\mathbf{Z}_{i}^{v_{1}}\right)\left(\mathbf{Z}_{j}^{v_{2}}\right)^{\mathrm{T}}}{\left\|\mathbf{Z}_{i}^{v_{1}} \right\|\left\|\mathbf{Z}_{j}^{v_{2}}\right\|}, \forall i, j \in[1, N] SijN=Ziv1Zjv2(Ziv1)(Zjv2)T,i,j[1,N]
S i j N ∈ [ − 1 , 1 ] \mathbf{S}_{i j}^{\mathcal{N}} \in[-1, 1] SijN[1,1]表示第一视图中嵌入的第i个节点与第二视图中嵌入的第j个节点之间的余弦相似性。
然后,我们使互视图样本相关矩阵 S N \mathbf{S}^{\mathcal{N}} SN逼近单位矩阵 I ∈ R N × N \mathbf{I} \in \mathbb{R}^{N \times N} IRN×N,公式如下:
L N = 1 N 2 ∑ S ( S N − I ) 2 = 1 N ∑ i = 1 N ( S i i N − 1 ) 2 + 1 N 2 − N ∑ i = 1 N ∑ j ≠ i ( S i j N ) 2 \begin{aligned} \mathcal{L}_{N} &=\frac{1}{N^{2}} \sum^{\mathcal{S}}\left(\mathbf{S}^{\mathcal{N}}-\mathbf{I}\right)^{2} \\ &=\frac{1}{N} \sum_{i=1}^{N}\left(\mathbf{S}_{i i}^{\mathcal{N}}-1\right)^{2}+\frac{1}{N^{2}-N} \sum_{i=1}^{N} \sum_{j \neq i}\left(\mathbf{S}_{i j}^{\mathcal{N}}\right)^{2} \end{aligned} LN=N21S(SNI)2=N1i=1N(SiiN1)2+N2N1i=1Nj=i(SijN)2
其中,第一项鼓励 S N \mathbf{S}^{\mathcal{N}} SN中的对角线元素等于1,这表明每个节点在两个不同视图中的嵌入都被强制要求相互一致。第二项使 S N \mathbf{S}^{\mathcal{N}} SN中的非对角线元素等于0,以最小化两个视图中不同节点的嵌入之间的一致性。这种去相关操作可以帮助我们的网络减少潜在空间中的节点之间的冗余信息,从而使学习到的嵌入更具有辨别力。

(2)特征级相关性降低(Feature-level Correlation Reduction,FCR)

特征级相关性减少设计分三步实现:
第一步,我们使用读出函数 R ( ⋅ ) : R d × N → R d × K \mathcal{R}(\cdot): \mathbb{R}^{d \times N} \rightarrow \mathbb{R}^{d \times K} R():Rd×NRd×K将两个视图节点嵌入 Z v 1 \mathbf{Z}^{v_1} Zv1 Z v 2 \mathbf{Z}^{v_2} Zv2投影到聚类级嵌入 Z ~ v 1 \widetilde{\mathbf{Z}}^{v_{1}} Z v1 Z ~ v 2 ∈ R d × K \widetilde{\mathbf{Z}}^{v_{2}} \in \mathbb{R}^{d \times K} Z v2Rd×K 中,公式如下:
Z ~ v k = R ( ( Z v k ) T ) \widetilde{\mathbf{Z}}^{v_{k}}=\mathcal{R}\left(\left(\mathbf{Z}^{v_{k}}\right)^{\mathrm{T}}\right) Z vk=R((Zvk)T)
第二步,再次计算余弦相似度:
S i j F = ( Z ~ i v 1 ) ( Z ~ j v 2 ) T ∥ Z ~ i v 1 ∥ ∥ Z ~ j v 2 ∥ , ∀ i , j ∈ [ 1 , d ] \mathbf{S}_{i j}^{\mathcal{F}}=\frac{\left(\widetilde{\mathbf{Z}}_{i}^{v_{1}}\right)\left(\widetilde{\mathbf{Z}}_{j}^{v_{2}}\right)^{\mathrm{T}}}{\left\|\widetilde{\mathbf{Z}}_{i}^{v_{1}}\right\|\left\|\widetilde{\mathbf{Z}}_{j}^{v_{2}}\right\|}, \forall i, j \in[1, d] SijF=Z iv1Z jv2(Z iv1)(Z jv2)T,i,j[1,d]
S i j F \mathbf{S}_{i j}^{\mathcal{F}} SijF表示一个视图中第i维特征与另一个视图中第j维特征之间的特征相似性。
第三步,我们使互视图特征相关矩阵 S F \mathbf{S}^{\mathcal{F}} SF等于单位矩阵 I ~ ∈ R d × d \tilde{\mathbf{I}} \in \mathbb{R}^{d \times d} I~Rd×d,公式如下:
L F = 1 d 2 ∑ ( S F − I ~ ) 2 = 1 d 2 ∑ i = 1 d ( S i i F − 1 ) 2 + 1 d 2 − d ∑ i = 1 d ∑ j ≠ i ( S i j F ) 2 \begin{array}{l} \mathcal{L}_{F}=\frac{1}{d^{2}} \sum\left(\mathbf{S}^{\mathcal{F}}-\widetilde{\mathbf{I}}\right)^{2}\\ =\frac{1}{d^{2}} \sum_{i=1}^{d}\left(\mathbf{S}_{i i}^{\mathcal{F}}-1\right)^{2}+\frac{1}{d^{2}-d} \sum_{i=1}^{d} \sum_{j \neq i}\left(\mathbf{S}_{i j}^{\mathcal{F}}\right)^{2} \end{array} LF=d21(SFI )2=d21i=1d(SiiF1)2+d2d1i=1dj=i(SijF)2
其中d是潜在嵌入维数。公式中的这两项意味着在两个增强的视图中,相同维度特征的表示被拉近,而其他的则被推远。

最后,我们将两个视图中的解相关潜在嵌入与线性组合操作相结合,从而得到面向聚类的潜在嵌入 Z ∈ N N × d \mathbf{Z} \in \mathbb{N}^{N \times d} ZNN×d 然后可以通过K-均值进行聚类。
Z = 1 2 ( Z v 1 + Z v 2 ) \mathbf{Z}=\frac{1}{2}\left(\mathbf{Z}^{v_{1}}+\mathbf{Z}^{v_{2}}\right) Z=21(Zv1+Zv2)

(3)传播正则化

为了缓解网络训练期间的过度平滑现象,我们引入了一种传播正则化,公式如下:
L R = J S D ( Z , A ~ Z ) \mathcal{L}_{R}=J S D(\mathbf{Z}, \tilde{\mathbf{A}} \mathbf{Z}) LR=JSD(Z,A~Z)
其中 J S D ( ⋅ ) : {JSD}(\cdot): JSD():指的是Jensen-Shannon散度,通过公式网络能够以浅层网络结构捕捉长距离信息,以缓解整个框架内传播的信息深入时的过度平滑。

综上所述,DICR模块的目标可以通过以下方式计算出来:
L D I C R = L N + L F + γ L R \mathcal{L}_{D I C R}=\mathcal{L}_{N}+\mathcal{L}_{F}+\gamma \mathcal{L}_{R} LDICR=LN+LF+γLR
其中γ是一个平衡超参数。

(三)伪代码

算法

三、目标函数

所提方法的总体优化目标包括三部分:所提DICR的损失、重建损失和聚类损失
L = L D I C R + L R E C + λ L K L \mathcal{L}=\mathcal{L}_{D I C R}+\mathcal{L}_{R E C}+\lambda \mathcal{L}_{K L} L=LDICR+LREC+λLKL

  • 1
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
Deep Graph Infomax是一篇由Petar Veličković等人于2019年在ICLR上发表的论文。该论文提出了一种基于图对比学习的方法,旨在学习图数据的表示。方法中使用了一个GNN Encoder来将图的节点编码为向量表示,通过一个Read-out函数将节点表示汇总为整个图的表示向量。同时,该方法对原始图进行扰动,并使用相同的GNN Encoder对扰动后的图进行编码,然后通过一个Decoder来使图的表示与原始图的节点表示更接近,并使扰动后的图的节点表示与原始图的节点表示更加疏远。这篇论文的贡献是提出了一种基于互信息最大化的自监督图学习通用框架。<span class="em">1</span><span class="em">2</span><span class="em">3</span> #### 引用[.reference_title] - *1* *3* [图对比学习三篇顶会论文](https://blog.csdn.net/qq_51072801/article/details/130251996)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] - *2* [论文阅读Deep Graph Infomax(DGI)》](https://blog.csdn.net/m0_71014828/article/details/125199457)[target="_blank" data-report-click={"spm":"1018.2226.3001.9630","extra":{"utm_source":"vip_chatgpt_common_search_pc_result","utm_medium":"distribute.pc_search_result.none-task-cask-2~all~insert_cask~default-1-null.142^v92^chatsearchT0_1"}}] [.reference_item style="max-width: 50%"] [ .reference_list ]

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值