论文信息
论文标题:Deep Graph Clustering via Dual Correlation Reduction
论文作者:Yue Liu, Wenxuan Tu, Sihang Zhou, Xinwang Liu, Linxuan Song, Xihong Yang, En Zhu
论文来源: 2021,arXiv
论文地址:download
论文代码:DCRN,deep graph clustering
一、Introduction
现有的基于GCN的聚类算法在样本编码过程中通常存在表示崩溃问题,并且倾向于将不同类别的节点映射到相似的表示中。因此,节点表示不区分,聚类性能有限。
为了解决这个问题,我们提出了一种新的自监督深度图聚类方法,称为双重相关约简网络(DCRN),通过双重方式降低信息的相关性来避免表示崩溃。
二、Dual Correlation Reduction Network
(一)符号汇总表
(二)整体框架
1.Graph Distortion Module
图失真可以使网络从节点的不同上下文中学习丰富的表示。
(1)Feature Corruption(属性级失真)
对于属性级失真,我们首先从高斯分布
N
(
1
,
0.1
)
\mathcal{N}(1,0.1)
N(1,0.1)中采样一个随机噪声矩阵
N
∈
R
N
×
D
\mathbf{N} \in \mathbb{R}^{N \times D}
N∈RN×D,然后,生成的损坏属性矩阵
X
~
∈
R
N
×
D
\widetilde{\mathbf{X}} \in \mathbb{R}^{N \times D}
X
∈RN×D可公式化:
X
~
=
X
⊙
N
\widetilde{\mathbf{X}}=\mathbf{X} \odot \mathbf{N}
X
=X⊙N
⊙
\odot
⊙是Hadamard product。
(2)Edge Perturbation(边扰动)
除了破坏节点特征外,对于结构级失真,我们还引入了两种边扰动策略。一种是基于相似度的边去除,另一种是图扩散。
①基于相似度的边去除
首先计算潜在空间中样本对的余弦相似度,然后根据相似度矩阵生成一个屏蔽矩阵
M
∈
R
N
×
N
\mathbf{M} \in \mathbb{R}^{N \times N}
M∈RN×N,其中最低的10%的连接关系将被手动删除。最后,边缘屏蔽邻接矩阵
A
m
∈
R
N
×
N
\mathbf{A}^{m} \in \mathbb{R}^{N \times N}
Am∈RN×N被归一化,并计算为:
A
m
=
D
−
1
2
(
(
A
⊙
M
)
+
I
)
D
−
1
2
\mathbf{A}^{m}=\mathbf{D}^{-\frac{1}{2}}((\mathbf{A} \odot \mathbf{M})+\mathbf{I}) \mathbf{D}^{-\frac{1}{2}}
Am=D−21((A⊙M)+I)D−21
②图扩散
通过个性化网页排名(PPR)将归一化的邻接矩阵转化为图的扩散矩阵 。
A
d
=
α
(
I
−
(
1
−
α
)
(
D
−
1
2
(
A
+
I
)
D
−
1
2
)
)
−
1
\mathbf{A}^{d}=\alpha\left(\mathbf{I}-(1-\alpha)\left(\mathbf{D}^{-\frac{1}{2}}(\mathbf{A}+\mathbf{I}) \mathbf{D}^{-\frac{1}{2}}\right)\right)^{-1}
Ad=α(I−(1−α)(D−21(A+I)D−21))−1
其中
α
\alpha
α是设定为0.2的远程传输概率。
最后,我们将 G 1 = ( X ~ , A m ) \mathcal{G}^{1}=\left(\widetilde{\mathbf{X}}, \mathbf{A}^{m}\right) G1=(X ,Am)和 G 2 = ( X ~ , A d ) \mathcal{G}^{2}=\left(\widetilde{\mathbf{X}}, \mathbf{A}^{d}\right) G2=(X ,Ad)分别表示为图的两个视图。
2.Dual Information Correlation Reduction(DICR)
引入了一种双重信息相关约简(DICR)机制,以双重方式过滤潜在嵌入的冗余信息,即样本级相关性降低(SCR) 和特征级相关性降低(FCR),旨在约束我们的网络学习更多有区别的潜在特征,从而缓解表示崩溃。
所提出的DICR机制从样本和特征两个角度考虑了相关性降低。这样,可以过滤冗余特征,同时在潜在空间中保留更多区分性特征,从而使网络能够学习有意义的表示,避免崩溃,从而提高聚类性能。
(1)样本级相关性降低(Sample-level Correlation Reduction,SCR)
SCR的学习过程包括两个步骤。对于给定的由siamese graph encoder(孪生编码器)学习的两视图节点嵌入
Z
v
1
\mathbf{Z}^{v_{1}}
Zv1和
Z
v
2
\mathbf{Z}^{v_{2}}
Zv2,我们首先计算互视图样本相关矩阵
S
N
∈
R
N
×
N
\mathbf{S}^{\mathcal{N}} \in \mathbb{R}^{N \times N}
SN∈RN×N中的元素:
S
i
j
N
=
(
Z
i
v
1
)
(
Z
j
v
2
)
T
∥
Z
i
v
1
∥
∥
Z
j
v
2
∥
,
∀
i
,
j
∈
[
1
,
N
]
\mathbf{S}_{i j}^{\mathcal{N}}=\frac{\left(\mathbf{Z}_{i}^{v_{1}}\right)\left(\mathbf{Z}_{j}^{v_{2}}\right)^{\mathrm{T}}}{\left\|\mathbf{Z}_{i}^{v_{1}} \right\|\left\|\mathbf{Z}_{j}^{v_{2}}\right\|}, \forall i, j \in[1, N]
SijN=∥Ziv1∥∥∥Zjv2∥∥(Ziv1)(Zjv2)T,∀i,j∈[1,N]
S
i
j
N
∈
[
−
1
,
1
]
\mathbf{S}_{i j}^{\mathcal{N}} \in[-1, 1]
SijN∈[−1,1]表示第一视图中嵌入的第i个节点与第二视图中嵌入的第j个节点之间的余弦相似性。
然后,我们使互视图样本相关矩阵
S
N
\mathbf{S}^{\mathcal{N}}
SN逼近单位矩阵
I
∈
R
N
×
N
\mathbf{I} \in \mathbb{R}^{N \times N}
I∈RN×N,公式如下:
L
N
=
1
N
2
∑
S
(
S
N
−
I
)
2
=
1
N
∑
i
=
1
N
(
S
i
i
N
−
1
)
2
+
1
N
2
−
N
∑
i
=
1
N
∑
j
≠
i
(
S
i
j
N
)
2
\begin{aligned} \mathcal{L}_{N} &=\frac{1}{N^{2}} \sum^{\mathcal{S}}\left(\mathbf{S}^{\mathcal{N}}-\mathbf{I}\right)^{2} \\ &=\frac{1}{N} \sum_{i=1}^{N}\left(\mathbf{S}_{i i}^{\mathcal{N}}-1\right)^{2}+\frac{1}{N^{2}-N} \sum_{i=1}^{N} \sum_{j \neq i}\left(\mathbf{S}_{i j}^{\mathcal{N}}\right)^{2} \end{aligned}
LN=N21∑S(SN−I)2=N1i=1∑N(SiiN−1)2+N2−N1i=1∑Nj=i∑(SijN)2
其中,第一项鼓励
S
N
\mathbf{S}^{\mathcal{N}}
SN中的对角线元素等于1,这表明每个节点在两个不同视图中的嵌入都被强制要求相互一致。第二项使
S
N
\mathbf{S}^{\mathcal{N}}
SN中的非对角线元素等于0,以最小化两个视图中不同节点的嵌入之间的一致性。这种去相关操作可以帮助我们的网络减少潜在空间中的节点之间的冗余信息,从而使学习到的嵌入更具有辨别力。
(2)特征级相关性降低(Feature-level Correlation Reduction,FCR)
特征级相关性减少设计分三步实现:
第一步,我们使用读出函数
R
(
⋅
)
:
R
d
×
N
→
R
d
×
K
\mathcal{R}(\cdot): \mathbb{R}^{d \times N} \rightarrow \mathbb{R}^{d \times K}
R(⋅):Rd×N→Rd×K将两个视图节点嵌入
Z
v
1
\mathbf{Z}^{v_1}
Zv1和
Z
v
2
\mathbf{Z}^{v_2}
Zv2投影到聚类级嵌入
Z
~
v
1
\widetilde{\mathbf{Z}}^{v_{1}}
Z
v1和
Z
~
v
2
∈
R
d
×
K
\widetilde{\mathbf{Z}}^{v_{2}} \in \mathbb{R}^{d \times K}
Z
v2∈Rd×K 中,公式如下:
Z
~
v
k
=
R
(
(
Z
v
k
)
T
)
\widetilde{\mathbf{Z}}^{v_{k}}=\mathcal{R}\left(\left(\mathbf{Z}^{v_{k}}\right)^{\mathrm{T}}\right)
Z
vk=R((Zvk)T)
第二步,再次计算余弦相似度:
S
i
j
F
=
(
Z
~
i
v
1
)
(
Z
~
j
v
2
)
T
∥
Z
~
i
v
1
∥
∥
Z
~
j
v
2
∥
,
∀
i
,
j
∈
[
1
,
d
]
\mathbf{S}_{i j}^{\mathcal{F}}=\frac{\left(\widetilde{\mathbf{Z}}_{i}^{v_{1}}\right)\left(\widetilde{\mathbf{Z}}_{j}^{v_{2}}\right)^{\mathrm{T}}}{\left\|\widetilde{\mathbf{Z}}_{i}^{v_{1}}\right\|\left\|\widetilde{\mathbf{Z}}_{j}^{v_{2}}\right\|}, \forall i, j \in[1, d]
SijF=∥∥∥Z
iv1∥∥∥∥∥∥Z
jv2∥∥∥(Z
iv1)(Z
jv2)T,∀i,j∈[1,d]
S
i
j
F
\mathbf{S}_{i j}^{\mathcal{F}}
SijF表示一个视图中第i维特征与另一个视图中第j维特征之间的特征相似性。
第三步,我们使互视图特征相关矩阵
S
F
\mathbf{S}^{\mathcal{F}}
SF等于单位矩阵
I
~
∈
R
d
×
d
\tilde{\mathbf{I}} \in \mathbb{R}^{d \times d}
I~∈Rd×d,公式如下:
L
F
=
1
d
2
∑
(
S
F
−
I
~
)
2
=
1
d
2
∑
i
=
1
d
(
S
i
i
F
−
1
)
2
+
1
d
2
−
d
∑
i
=
1
d
∑
j
≠
i
(
S
i
j
F
)
2
\begin{array}{l} \mathcal{L}_{F}=\frac{1}{d^{2}} \sum\left(\mathbf{S}^{\mathcal{F}}-\widetilde{\mathbf{I}}\right)^{2}\\ =\frac{1}{d^{2}} \sum_{i=1}^{d}\left(\mathbf{S}_{i i}^{\mathcal{F}}-1\right)^{2}+\frac{1}{d^{2}-d} \sum_{i=1}^{d} \sum_{j \neq i}\left(\mathbf{S}_{i j}^{\mathcal{F}}\right)^{2} \end{array}
LF=d21∑(SF−I
)2=d21∑i=1d(SiiF−1)2+d2−d1∑i=1d∑j=i(SijF)2
其中d是潜在嵌入维数。公式中的这两项意味着在两个增强的视图中,相同维度特征的表示被拉近,而其他的则被推远。
最后,我们将两个视图中的解相关潜在嵌入与线性组合操作相结合,从而得到面向聚类的潜在嵌入 Z ∈ N N × d \mathbf{Z} \in \mathbb{N}^{N \times d} Z∈NN×d 然后可以通过K-均值进行聚类。
Z = 1 2 ( Z v 1 + Z v 2 ) \mathbf{Z}=\frac{1}{2}\left(\mathbf{Z}^{v_{1}}+\mathbf{Z}^{v_{2}}\right) Z=21(Zv1+Zv2)
(3)传播正则化
为了缓解网络训练期间的过度平滑现象,我们引入了一种传播正则化,公式如下:
L
R
=
J
S
D
(
Z
,
A
~
Z
)
\mathcal{L}_{R}=J S D(\mathbf{Z}, \tilde{\mathbf{A}} \mathbf{Z})
LR=JSD(Z,A~Z)
其中
J
S
D
(
⋅
)
:
{JSD}(\cdot):
JSD(⋅):指的是Jensen-Shannon散度,通过公式网络能够以浅层网络结构捕捉长距离信息,以缓解整个框架内传播的信息深入时的过度平滑。
综上所述,DICR模块的目标可以通过以下方式计算出来:
L D I C R = L N + L F + γ L R \mathcal{L}_{D I C R}=\mathcal{L}_{N}+\mathcal{L}_{F}+\gamma \mathcal{L}_{R} LDICR=LN+LF+γLR
其中γ是一个平衡超参数。
(三)伪代码
三、目标函数
所提方法的总体优化目标包括三部分:所提DICR的损失、重建损失和聚类损失:
L
=
L
D
I
C
R
+
L
R
E
C
+
λ
L
K
L
\mathcal{L}=\mathcal{L}_{D I C R}+\mathcal{L}_{R E C}+\lambda \mathcal{L}_{K L}
L=LDICR+LREC+λLKL