【论文笔记】Multi-view Contrastive Graph Clustering

KeepingReal

已于 2024-11-22 23:06:39 修改

阅读量1.2k

点赞数 27

分类专栏：论文阅读文章标签：算法深度学习机器学习

于 2024-11-17 23:47:17 首次发布

本文链接：https://blog.csdn.net/my_lamado/article/details/143822849

版权

论文阅读专栏收录该内容

5 篇文章

订阅专栏

创新点

1. 图对比正则化器（GCR）

引入了 Graph Contrastive Regularizer，在图矩阵 S 上引入对比学习：
- 直接作用于图的几何结构，拉近正样本对（k-最近邻节点），分离负样本对（非邻居节点）。
- 强化了图的区分性，显著提升图聚类的效果。
- 相比传统基于节点特征的对比学习，首次在图级别应用对比正则化。

2. 动态视图权重学习

动态优化视图权重，使不同视图对最终图矩阵 S 的贡献按需调节：
- 自动调整每个视图的重要性，解决了视图信息不一致的问题。
- 引入正则化项，防止某些视图权重过大，提升多视图融合的鲁棒性。

3. 图滤波与优化

提出了结合 图滤波（Graph Filtering） 的图矩阵学习方法：
- 对多视图的特征进行平滑，去除噪声，同时保留图的几何结构。
- 优化过程中采用交替优化策略，通过梯度下降动态更新 S 和 $\lambda^{v}$ ，提升优化效率和效果。

4. 共识图与聚类

生成一个综合所有视图信息的 共享共识图 S：
- 消除视图之间的矛盾，通过对称化处理提升图的质量。
- 使用对称化的 S 进行聚类，显著提高了聚类任务的性能。

Graph Filtering(图滤波)：

1. 基本概念

图滤波的背景来源于信号处理：在图中，节点特征可以看作是图信号（每个节点的特征就是信号值），而邻接关系定义了信号传播的路径。滤波的目标是让信号在相邻节点之间更加平滑。

在本文中，假设有一个特征矩阵 $X\in R^{n \times d}$ ，它包含 N个节点的 d-维特征。图滤波的目标是从 X 中计算一个平滑后的特征矩阵 H。

2. 平滑的定义

我们希望特征 H 满足两个条件：

接近原始特征：H 不应偏离 X 太远；
局部平滑：在图的结构上，邻近的节点应该有相似的特征。

为了实现这两个目标，定义了一个优化问题：

$\min_H \| H - X \|_F^2 + s \, \text{Tr}(H^\top L H)$

其中：

$\| H - X \|_F^2$ ：约束 HH 不偏离原始特征 XX；
$\text{Tr}(H^\top L H)$ ：图拉普拉斯正则化项，鼓励相邻节点的特征相似；
s>0：平衡两个目标的超参数；
L=I−A：图拉普拉斯矩阵，AA 是归一化邻接矩阵。

3. 解析解

通过对优化目标函数对 HH 求导，并令导数为零，可以得到解析解：

$H = (I + sL)^{-1} X$

其中：

I 是单位矩阵；
sL 是图的拉普拉斯项，用来平滑信号。

这个公式表示，我们需要对 X 应用一个滤波器 $(I + sL)^{-1}$ 。

4. 简化计算

直接求解 $(I + sL)^{-1}$ 涉及矩阵求逆，计算代价高。为了简化计算，采用一阶泰勒展开近似：

$H = (I - sL) X$ .

这一近似的直观理解是：I−sL的作用类似于一个低通滤波器，去除高频噪声。

更进一步，如果希望进行更深层次的平滑，可以使用 m-阶滤波：

$H = (I - sL)^m X$

其中 m 是滤波的阶数，表示应用 (I−sL)的次数。

5. 图滤波的作用

去噪：高频信号通常对应于噪声或异常值，通过图滤波可以抑制这些高频成分。
保留结构：图滤波保留了节点与其邻居之间的关系，使得平滑后的特征依然能反映图的几何结构。
灵活性：通过调整 s 和 m 可以控制滤波的强度。

6. 图滤波的实际意义

如果 s 太大，可能导致过度平滑，节点特征趋于均值；
如果 s 太小，则噪声无法有效去除；
m 决定了滤波的深度，太高可能导致过度计算，太低可能无法完全去噪。

通过图滤波，本文的模型可以生成更平滑的特征表示 H，为后续的图学习和聚类提供了更可靠的输入。

不完整（噪声）处理

1. 背景与动机

在实际场景中，初始图（例如通过邻接矩阵 A 表示的图结构）可能包含噪声、不完整或不准确的信息。如果直接使用初始图数据进行聚类，可能会导致结果的性能下降。因此，本文提出了一种从平滑表示 H 中学习优化图 S 的方法。

单视图图学习

$\min_S \| H - HS \|_F^2 + \alpha \| S \|_F^2$

公式分析

符号含义：
- H：节点的平滑特征表示。
- S：学习到的图矩阵，表示节点之间的关系。
- $\| H - HS \|_F^2$ ：重构误差，表示通过 SS 重建 HH 的能力。
- $\alpha \| S \|_F^2$ ：正则化项，限制 SS 的大小，避免过拟合。
- α>0：平衡重构误差与正则化的超参数。
公式的含义：
- 第一项 $\| H - HS \|_F^2$ ：希望 S 能很好地重构 H，即通过 S 建立的节点关系能够反映出节点的特征分布。
- 第二项 $\alpha \| S \|_F^2$ ：引入正则化约束，限制 S 的复杂度，避免权重值过大或过拟合。
目标：
- 学习一个 S，使其既能准确表达 H 的关系，又能保持足够的简洁性和鲁棒性。
优化过程：
- 通过迭代更新 S，最小化目标函数，使得 S 能够捕捉节点之间的关系。

多视图图学习

$\min_S, \lambda_v \sum_{v=1}^V \lambda_v \| H^v - H^v S \|_F^2 + \alpha \| S \|_F^2 + g(\lambda_v)$

公式分析

符号含义：
- V：视图的数量。
- $H^{v}$ ：第 v 个视图的节点特征表示。
- $\lambda ^{v}$ ：第 v 个视图的权重。
- $\sum_{v=1}^V \lambda_v \| H^v - H^v S \|_F^2$ ：多视图的重构误差项。
- $\alpha \| S \|_F^2$ ：图矩阵 S的正则化项。
- $g(\lambda_v)$ ：权重正则化项，防止某个视图的权重过大。
公式的含义：
- 第一项 $\sum_{v=1}^V \lambda_v \| H^v - H^v S \|_F^2$ ：对所有视图进行加权重构误差最小化，每个视图的权重 λv决定了其对共识图 SS 的贡献。
- 第二项 $\alpha \| S \|_F^2$ ：限制 S 的复杂度，防止 S 的值过大，同时提升其泛化能力。
- 第三项 $g(\lambda_v)$ ：防止某个视图的权重 $\lambda ^{v}$ 过大，确保所有视图的信息被合理利用。
目标：
- 学习一个统一的图矩阵 S，能够有效融合所有视图的信息。
- 学习视图权重 $\lambda ^{v}$ ，自动调整各视图的重要性。
优化过程：
- 交替优化 S 和：
  - 固定 $\lambda ^{v}$ ：优化 S，使其能够尽可能重构所有视图的 $H^{v}$ 。
  - 固定 S：优化 $\lambda ^{v}$ ，根据视图的贡献动态调整其权重。
- 不断迭代，直到收敛，最终得到一个高质量的 S 和合理的 $\lambda ^{v}$ 。

两者的联系与区别

联系：
- 两个公式的核心思想一致：通过最小化重构误差来学习图矩阵 S。
- 都引入正则化项，限制 S 的复杂度，提升模型的泛化能力。
区别：
- 单视图公式仅考虑一个 H，目标是学习单视图的 S。
- 多视图公式融合了多个 $H^{v}$ ，通过加权的方式整合各视图信息，并且需要同时学习视图权重 $\lambda ^{v}$ 。

图对比正则化器

图对比正则化器的目标是：

拉近正样本对（邻居节点）：让相邻节点的关系更紧密；
分离负样本对（非邻居节点）：减少不相关节点之间的关系权重。

通过在图矩阵 S 上应用对比正则化器，增强图的质量，使其更适合后续的聚类

传统对比学习：
- 对比学习一般在实例级别进行，通过数据增强构造正/负样本对。
- 目标是最大化正样本对之间的相似性，最小化负样本对之间的相似性。
在图上的应用：
- 传统方法通常对节点或边进行随机扰动，学习节点的表示。
- 本文的方法不同：通过 k-最近邻 (kNN) 在图上定义正样本对，直接在图矩阵 S 上应用对比学习，而不是节点特征 H。

实现步骤

Step 1：正负样本的定义

正样本对：每个节点 i 及其 k-最近邻节点（kNN） j，构成正样本对 (i,j)。优化目标是最大化正样本对的相似性 Sij。
负样本对：其他所有非邻居节点（不属于 k-最近邻集合的节点），构成负样本对 (i,p)。优化目标是最小化负样本对的相似性 $S_{ip}$ 。

这些样本对的定义基于节点间的几何关系，通过 k-最近邻方法获取。

Step 2：对比学习目标函数

对比正则化器的目标函数 J 为：

$J = -\sum_{i=1}^{N} \sum_{j \in N_i} \log \frac{\exp(S_{ij})}{\sum_{p \neq i} \exp(S_{ip})}$

$S_{ij}$ ：节点 i 和节点 j 在图矩阵 S 中的关系强度。
Ni：节点 i 的 k-最近邻集合。

函数解析

分子 exp⁡( $S_{ij}$ )：
- 表示节点 i 和 j 的关系强度，经过指数化后值范围更适合优化。
- 优化目标是让正样本的关系权重更高。
分母 $\sum _{p\neq i}exp(S_{ip})$ ：
- 表示节点 ii 与所有其他节点（包括正样本和负样本）的关系强度总和。
- 通过优化使非邻居节点（负样本）的权重降低。
对数函数 log⁡：
- 对比学习的核心，类似于交叉熵损失。
- 在优化过程中，拉大正样本与负样本之间的区分度。

完整优化目标

$\min_{S, \lambda} \sum_{v=1}^{V} \lambda^v \left( \left\| H^v - H^{vT} S \right\|_F^2 + \alpha \sum_{i=1}^{N} \sum_{j \in N_i^v} -\log \frac{\exp(S_{ij})}{\sum_{p \neq i} \exp(S_{ip})} \right) + \sum_{v=1}^{V} (\lambda^v)^\gamma$

逐部分解析

重构误差：

$\left\| H^v - H^{vT} S \right\|_F^2$

$\left\| H^v - H^{vT} S \right\|_F^2$ ：衡量 S 在第 v 个视图上重构平滑表示 $H^{v}$ 的能力。 $\lambda ^{v}$ ：视图 v 的权重，表示该视图的重要性。

对比正则化器：

$\alpha \sum_{i=1}^{N} \sum_{j \in N_i^v} -\log \frac{\exp(S_{ij})}{\sum_{p \neq i} \exp(S_{ip})}$
α：对比正则化的平衡参数，控制对比学习在优化目标中的重要性。

这部分通过拉近正样本关系、分离负样本关系，提高图矩阵 S 的质量。

视图权重正则化：

$\sum_{v=1}^{V} (\lambda^v)^\gamma$

$\lambda^{v}$ ：每个视图的权重，动态调整视图的重要性。

γ>1：平衡参数，防止某个视图权重过大而导致其他视图信息被忽略。

公式目标

综合来看，上述公式的目标是：

通过重构误差学习图矩阵 S：使 S 能够同时重构多个视图的平滑表示 $H^{v}$ 。
通过对比正则化提升区分能力：增强正样本对的关系强度，削弱负样本对的关系。
动态调整视图权重 $\lambda^{v}$ ：根据每个视图对优化目标的贡献动态分配权重，提升多视图融合效果。

优化过程详解

优化上述公式需要同时处理两个变量：

图矩阵 S
视图权重 $\lambda^{v}$

直接优化这两个变量比较困难，因此采用 交替优化策略：

固定 $\lambda^{v}$ ，优化 S；
固定 S，优化 $\lambda^{v}$ 。

第一步：固定 $\lambda^{v}$ ，优化 S

目标函数在固定 $\lambda^{v}$ 时，可以写成：

$\min_S \sum_{v=1}^V \lambda^v \left( \| H^{v \top} - H^{v \top} S \|_F^2 + \alpha \sum_{i=1}^N \sum_{j \in N_i^v} -\log \frac{\exp(S_{ij})}{\sum_{p \neq i} \exp(S_{ip})} \right)$

梯度计算

为了优化 S，采用梯度下降法。目标函数对 S 的梯度分为两部分：

$\nabla^{(t)} = \nabla_1^{(t)} + \alpha \nabla_2^{(t)}$

第一项 ∇1(t)∇1(t)：重构误差的梯度
$\nabla_1^{(t)} = 2 \sum_{v=1}^V \lambda^v \left( -H^v H^{v \top}_{ij} + H^v H^{v \top} S_{ij}^{(t-1)} \right)$
第二项 ∇2(t)∇2(t)：对比正则化的梯度
$\nabla_2^{(t)} = \begin{cases} \sum_{v=1}^V \lambda^v \left( -1 + \frac{n \exp(S_{ij}^{(t-1)})}{K^{(t-1)}} \right), & \text{if } j \in N_i^v, \\ \sum_{v=1}^V \lambda^v \frac{n \exp(S_{ij}^{(t-1)})}{K^{(t-1)}}, & \text{otherwise}. \end{cases}$
$N_{i}^{v}$ ：节点 i 在第 v 个视图中的 k-最近邻。
$K^{(t-1)} = \sum_{p \neq i} \exp(S_{ip}^{(t-1)})$ ：节点 i 的所有邻居关系总和。

这部分来自对比正则化项，通过提升正样本相似性、降低负样本相似性优化 S。

更新规则

利用 Adam 优化器更新 S，使其逐渐接近最优解。

第二步：固定 S，优化 $\lambda^{v}$

当图矩阵 S 固定时，目标函数的权重正则化项变得简单：

$\min_{\lambda^v} \sum_{v=1}^V \left( \lambda^v M^v + (\lambda^v)^\gamma \right)$

其中：

$M^v = \| H^{v \top} - H^{v \top} S \|_F^2 + \alpha J$ ；
J：对比正则化器。

通过对目标函数求导并令其为零，可以得到 $\lambda^{v}$ 的更新公式：

$\lambda^v = \left( \frac{-M^v}{\gamma} \right)^{\frac{1}{\gamma-1}}$ .

含义

通过优化 $\lambda^{v}$ ，动态调整每个视图的权重，使贡献大的视图获得更高的权重。

第三步：完整算法实现（Algorithm 1）

步骤解析：

输入：
- 邻接矩阵 A~1,…,A~VA~1,…,A~V。
- 特征矩阵 X1,…,XVX1,…,XV。
- 图滤波阶数 mm 和其他超参数（如 α,s,γ）。
初始化：
- 初始化视图权重 $\lambda^{v}$ =1。
- 计算归一化邻接矩阵 $A^{v}$ 和拉普拉斯矩阵 $L^{v}$ 。
- 对每个视图进行图滤波，生成平滑特征 $H^{v}$ 。
交替优化：
- 固定，优化图矩阵 S：
  - 使用梯度下降法和对比正则化更新 S。
- 固定 S，优化视图权重：
  - 按照权重更新公式调整 $\lambda^{v}$ 。
对称化：
- 对 S 进行对称化处理： $C = \frac{|S| + |S^\top|}{2}$ .
聚类：
- 对 C 进行聚类，输出最终结果。