创新点
1. 图对比正则化器(GCR)
- 引入了 Graph Contrastive Regularizer,在图矩阵 S 上引入对比学习:
- 直接作用于图的几何结构,拉近正样本对(k-最近邻节点),分离负样本对(非邻居节点)。
- 强化了图的区分性,显著提升图聚类的效果。
- 相比传统基于节点特征的对比学习,首次在图级别应用对比正则化。
2. 动态视图权重学习
- 动态优化视图权重 ,使不同视图对最终图矩阵 S 的贡献按需调节:
- 自动调整每个视图的重要性,解决了视图信息不一致的问题。
- 引入正则化项,防止某些视图权重过大,提升多视图融合的鲁棒性。
3. 图滤波与优化
- 提出了结合 图滤波(Graph Filtering) 的图矩阵学习方法:
- 对多视图的特征进行平滑,去除噪声,同时保留图的几何结构。
- 优化过程中采用交替优化策略,通过梯度下降动态更新 S 和
,提升优化效率和效果。
4. 共识图与聚类
- 生成一个综合所有视图信息的 共享共识图 S:
- 消除视图之间的矛盾,通过对称化处理提升图的质量。
- 使用对称化的 S 进行聚类,显著提高了聚类任务的性能。
Graph Filtering(图滤波):
1. 基本概念
图滤波的背景来源于信号处理:在图中,节点特征可以看作是图信号(每个节点的特征就是信号值),而邻接关系定义了信号传播的路径。滤波的目标是让信号在相邻节点之间更加平滑。
在本文中,假设有一个特征矩阵 ,它包含 N个节点的 d-维特征。图滤波的目标是从 X 中计算一个平滑后的特征矩阵 H。
2. 平滑的定义
我们希望特征 H 满足两个条件:
- 接近原始特征:H 不应偏离 X 太远;
- 局部平滑:在图的结构上,邻近的节点应该有相似的特征。
为了实现这两个目标,定义了一个优化问题:
其中:
:约束 HH 不偏离原始特征 XX;
:图拉普拉斯正则化项,鼓励相邻节点的特征相似;
- s>0:平衡两个目标的超参数;
- L=I−A:图拉普拉斯矩阵,AA 是归一化邻接矩阵。
3. 解析解
通过对优化目标函数对 HH 求导,并令导数为零,可以得到解析解:
其中:
- I 是单位矩阵;
- sL 是图的拉普拉斯项,用来平滑信号。
这个公式表示,我们需要对 X 应用一个滤波器 。
4. 简化计算
直接求解 涉及矩阵求逆,计算代价高。为了简化计算,采用一阶泰勒展开近似:
.
这一近似的直观理解是:I−sL的作用类似于一个低通滤波器,去除高频噪声。
更进一步,如果希望进行更深层次的平滑,可以使用 m-阶滤波:
其中 m 是滤波的阶数,表示应用 (I−sL)的次数。
5. 图滤波的作用
- 去噪:高频信号通常对应于噪声或异常值,通过图滤波可以抑制这些高频成分。
- 保留结构:图滤波保留了节点与其邻居之间的关系,使得平滑后的特征依然能反映图的几何结构。
- 灵活性:通过调整 s 和 m 可以控制滤波的强度。
6. 图滤波的实际意义
- 如果 s 太大,可能导致过度平滑,节点特征趋于均值;
- 如果 s 太小,则噪声无法有效去除;
- m 决定了滤波的深度,太高可能导致过度计算,太低可能无法完全去噪。
通过图滤波,本文的模型可以生成更平滑的特征表示 H,为后续的图学习和聚类提供了更可靠的输入。
不完整(噪声)处理
1. 背景与动机
在实际场景中,初始图(例如通过邻接矩阵 A 表示的图结构)可能包含噪声、不完整或不准确的信息。如果直接使用初始图数据进行聚类,可能会导致结果的性能下降。因此,本文提出了一种从平滑表示 H 中学习优化图 S 的方法。
单视图图学习
公式分析
-
符号含义:
- H:节点的平滑特征表示。
- S:学习到的图矩阵,表示节点之间的关系。
:重构误差,表示通过 SS 重建 HH 的能力。
:正则化项,限制 SS 的大小,避免过拟合。
- α>0:平衡重构误差与正则化的超参数。
-
公式的含义:
- 第一项
:希望 S 能很好地重构 H,即通过 S 建立的节点关系能够反映出节点的特征分布。
- 第二项
:引入正则化约束,限制 S 的复杂度,避免权重值过大或过拟合。
- 第一项
-
目标:
- 学习一个 S,使其既能准确表达 H 的关系,又能保持足够的简洁性和鲁棒性。
-
优化过程:
- 通过迭代更新 S,最小化目标函数,使得 S 能够捕捉节点之间的关系。
多视图图学习
公式分析
-
符号含义:
- V:视图的数量。
:第 v 个视图的节点特征表示。
:第 v 个视图的权重。
:多视图的重构误差项。
:图矩阵 S的正则化项。
:权重正则化项,防止某个视图的权重过大。
-
公式的含义:
- 第一项
:对所有视图进行加权重构误差最小化,每个视图的权重 λv决定了其对共识图 SS 的贡献。
- 第二项
:限制 S 的复杂度,防止 S 的值过大,同时提升其泛化能力。
- 第三项
:防止某个视图的权重
过大,确保所有视图的信息被合理利用。
- 第一项
-
目标:
- 学习一个统一的图矩阵 S,能够有效融合所有视图的信息。
- 学习视图权重
,自动调整各视图的重要性。
-
优化过程:
- 交替优化 S 和
:
- 固定
:优化 S,使其能够尽可能重构所有视图的
。
- 固定 S:优化
,根据视图的贡献动态调整其权重。
- 固定
- 不断迭代,直到收敛,最终得到一个高质量的 S 和合理的
。
- 交替优化 S 和
两者的联系与区别
-
联系:
- 两个公式的核心思想一致:通过最小化重构误差来学习图矩阵 S。
- 都引入正则化项,限制 S 的复杂度,提升模型的泛化能力。
-
区别:
- 单视图公式仅考虑一个 H,目标是学习单视图的 S。
- 多视图公式融合了多个
,通过加权的方式整合各视图信息,并且需要同时学习视图权重
。
图对比正则化器
图对比正则化器的目标是:
- 拉近正样本对(邻居节点):让相邻节点的关系更紧密;
- 分离负样本对(非邻居节点):减少不相关节点之间的关系权重。
通过在图矩阵 S 上应用对比正则化器,增强图的质量,使其更适合后续的聚类
-
传统对比学习:
- 对比学习一般在实例级别进行,通过数据增强构造正/负样本对。
- 目标是最大化正样本对之间的相似性,最小化负样本对之间的相似性。
-
在图上的应用:
- 传统方法通常对节点或边进行随机扰动,学习节点的表示。
- 本文的方法不同:通过 k-最近邻 (kNN) 在图上定义正样本对,直接在图矩阵 S 上应用对比学习,而不是节点特征 H。
实现步骤
Step 1:正负样本的定义
- 正样本对:每个节点 i 及其 k-最近邻节点(kNN) j,构成正样本对 (i,j)。优化目标是最大化正样本对的相似性 Sij。
- 负样本对:其他所有非邻居节点(不属于 k-最近邻集合的节点),构成负样本对 (i,p)。优化目标是最小化负样本对的相似性
。
这些样本对的定义基于节点间的几何关系,通过 k-最近邻方法获取。
Step 2:对比学习目标函数
对比正则化器的目标函数 J 为:
:节点 i 和节点 j 在图矩阵 S 中的关系强度。
- Ni:节点 i 的 k-最近邻集合。
函数解析
-
分子 exp(
):
- 表示节点 i 和 j 的关系强度,经过指数化后值范围更适合优化。
- 优化目标是让正样本的关系权重更高。
-
分母
:
- 表示节点 ii 与所有其他节点(包括正样本和负样本)的关系强度总和。
- 通过优化使非邻居节点(负样本)的权重降低。
-
对数函数 log:
- 对比学习的核心,类似于交叉熵损失。
- 在优化过程中,拉大正样本与负样本之间的区分度。
完整优化目标
逐部分解析
重构误差:
:衡量 S 在第 v 个视图上重构平滑表示
的能力。
:视图 v 的权重,表示该视图的重要性。
对比正则化器:
-
-
α:对比正则化的平衡参数,控制对比学习在优化目标中的重要性。
这部分通过拉近正样本关系、分离负样本关系,提高图矩阵 S 的质量。
-
视图权重正则化:
:每个视图的权重,动态调整视图的重要性。
γ>1:平衡参数,防止某个视图权重过大而导致其他视图信息被忽略。
公式目标
综合来看,上述公式的目标是:
- 通过重构误差学习图矩阵 S:使 S 能够同时重构多个视图的平滑表示
。
- 通过对比正则化提升区分能力:增强正样本对的关系强度,削弱负样本对的关系。
- 动态调整视图权重
:根据每个视图对优化目标的贡献动态分配权重,提升多视图融合效果。
优化过程详解
优化上述公式需要同时处理两个变量:
- 图矩阵 S
- 视图权重
直接优化这两个变量比较困难,因此采用 交替优化策略:
- 固定
,优化 S;
- 固定 S,优化
。
第一步:固定
,优化 S
目标函数在固定 时,可以写成:
梯度计算
为了优化 S,采用梯度下降法。目标函数对 S 的梯度分为两部分:
-
第一项 ∇1(t)∇1(t):重构误差的梯度
-
第二项 ∇2(t)∇2(t):对比正则化的梯度
:节点 i 在第 v 个视图中的 k-最近邻。
:节点 i 的所有邻居关系总和。
这部分来自对比正则化项,通过提升正样本相似性、降低负样本相似性优化 S。
更新规则
利用 Adam 优化器更新 S,使其逐渐接近最优解。
第二步:固定 S,优化
当图矩阵 S 固定时,目标函数的权重正则化项变得简单:
其中:
;
- J:对比正则化器。
通过对目标函数求导并令其为零,可以得到 的更新公式:
.
含义
- 通过优化
,动态调整每个视图的权重,使贡献大的视图获得更高的权重。
第三步:完整算法实现(Algorithm 1)
步骤解析:
-
输入:
- 邻接矩阵 A~1,…,A~VA~1,…,A~V。
- 特征矩阵 X1,…,XVX1,…,XV。
- 图滤波阶数 mm 和其他超参数(如 α,s,γ)。
-
初始化:
- 初始化视图权重
=1。
- 计算归一化邻接矩阵
和拉普拉斯矩阵
。
- 对每个视图进行图滤波,生成平滑特征
。
- 初始化视图权重
-
交替优化:
- 固定
,优化图矩阵 S:
- 使用梯度下降法和对比正则化更新 S。
- 固定 S,优化视图权重
:
- 按照权重更新公式调整
。
- 按照权重更新公式调整
- 固定
-
对称化:
- 对 S 进行对称化处理:
.
- 对 S 进行对称化处理:
-
聚类:
- 对 C 进行聚类,输出最终结果。