Highly Confident Local Structure Based Consensus Graph Learning forIncomplete Multi-view Clustering

核心创新点

目前问题:

        部分方法仅适用于双视图数据,或要求至少有一个视图是完整的;构造图的方法对噪声较为敏感,可能影响性能。

本文贡献:

1. 提出一种新颖的模型 HCLS-CGL,用于解决 IMC 任务,能够处理任意视图缺失情况。

2. 与现有 GIMC 方法不同,我们设计了一种新颖的置信最近邻图,通过样本对的组邻居相似性来引导共识图的学习。

主要方法

Motivation1

1. 核心目标与模型描述

1.1 问题背景

        多视图聚类的一个核心问题是如何学习一个高质量的共识图  S ,该图能够揭示数据的内在关系,并将多个视图的信息统一起来。共识图  S  的目的是综合所有视图的信息,使得最终的聚类结果更加鲁棒。

1.2 初始目标函数

为了学习共识图  S ,引入以下优化目标函数(公式(2)):

\min_{\phi(S, \alpha)} \sum_{v=1}^l \alpha_v \left\| S - Z^{(v)} \right\|_F^2 + \lambda \|S\|_F^2

其中:

•  S :待学习的共识图;

•  Z^{(v)} :视图  v  的初始相似图(如  k -最近邻图);

\alpha_v :视图  v  的权重,表示该视图对共识图的贡献;

\lambda \|S\|_F^2 :正则化项,用于控制  S  的复杂度;

\phi(S, \alpha) :优化变量  S  和  \alpha  的约束条件:

\phi(S, \alpha) = \{0 \leq S \leq 1, S1 = 1, \text{rank}(L_S) = n - c, 0 \leq \alpha_v \leq 1, \sum_{v=1}^l \alpha_v = 1\}

•  S1 = 1 :限制  S  的行归一化,避免行向量全为 0;

\text{rank}(L_S) = n - c :保证  S  的拉普拉斯矩阵  L_S  有  c  个连通分量,从而实现  c  类聚类;

\alpha_v  的约束:权重为非负,且总和为 1。

        优化目标可以通过最小化  S  与各视图  Z^{(v)}  的偏差,同时正则化  S  的复杂度来实现。

2. 动机与问题分析

2.1 多视图缺失问题

在多视图数据中,由于数据采集问题、噪声干扰等原因,某些视图的部分样本可能是缺失的。缺失视图会导致以下问题:

1. 样本维度不一致: 多视图样本之间无法对齐。

2. 结构不对齐: 不完整数据构建的相似图  Z^{(v)} 难以反映数据的真实结构。

3. 恢复方法的局限性:

• 很多方法尝试恢复缺失视图,但计算代价高,且难以获得高质量恢复结果,可能进一步降低聚类性能。

2.2 本文提出的解决方案

为了解决视图缺失问题,本文的关键在于:

1. 直接利用非缺失视图的信息: 从可靠的视图信息中构造共识图  S ,而非依赖于恢复的低质量数据。

2. 利用视图缺失的先验信息: 通过缺失视图索引矩阵  O \in \{0, 1\}^{n \times l},定义缺失样本的位置,其中:

•  O_{i,v} = 1 :表示第  v  个视图中样本  i  存在;

•  O_{i,v} = 0 :表示第  v  个视图中样本  i  缺失。

3. 改进目标函数与方法

3.1 改进后的目标函数(公式(3))

为应对缺失视图问题,提出以下优化目标:

\min_{S, \alpha} \sum_{v=1}^l \left\| G^{(v)} S G^{(v)^T} - \tilde{Z}^{(v)} \right\|_F^2 + \lambda_1 \|S\|_F^2

•  G^{(v)}:转换矩阵,将非缺失样本的信息对齐到全局相似图  S ;

•  \tilde{Z}^{(v)}:由非缺失样本构建的视图  v  的相似图。

优化约束条件:

0 \leq \alpha_v \leq 1, \quad \sum_{v=1}^l \alpha_v = 1, \quad S^T = S, \quad 0 \leq S \leq 1, \quad \text{diag}(S) = 0, \quad \text{rank}(L_S) = n - c

3.2 相似性图的构建(公式(4))

相似图  \tilde{Z}^{(v)}  是通过  k -最近邻算法构建的:
\tilde{Z}^{(v)}_{i,j} = \begin{cases} e^{-\frac{\|x_i^{(v)} - x_j^{(v)}\|_2^2}{2}}, & \text{if } x_j^{(v)} \in \psi(x_i^{(v)}) \text{ or } x_i^{(v)} \in \psi(x_j^{(v)}) \\ 0, & \text{else} \end{cases}

其中:

•  \psi(x_i^{(v)}) :样本  i  的  k -最近邻集合;

• 若  i 和 j  是彼此的  k -最近邻,则  \tilde{Z}_{i,j}^{(v)} \neq 0

G_{i,j}^{(v)} = \begin{cases} 1, & \text{if the $i$-th available instance $x_i^{(v)}$ of the $v$-th view belongs to the $j$-th sample} \\ 0, & \text{otherwise} \end{cases}

4. 方法总结与创新点

1. 创新点:

• 通过转换矩阵  G^{(v)}  和缺失视图索引  O ,仅利用非缺失视图中的可靠信息,避免了直接恢复缺失数据的局限性。

• 提出改进的目标函数(公式(3)),在多视图数据中引入视图对齐的思想。

2. 方法的核心步骤:

• 构建非缺失视图的相似图  \tilde{Z}^{(v)}

• 利用转换矩阵  G^{(v)} 对齐各视图的信息;

• 优化目标函数学习共识图  S ,并用于后续聚类。

这一方法有效解决了多视图数据中视图缺失问题,同时增强了聚类结果的鲁棒性。

Motivation2

问题描述

• 在大多数情况下,一个样本及其最近邻样本之间有很高的概率属于同一类别。

• 然而,对于不完整的多视图数据,由于视图缺失和噪声的不可控性,预构建的相似性图  \tilde{Z}^{(v)} 可能无法真实反映样本之间的最近邻关系。

• 这种情况下,很难通过噪声较大的图 \{\tilde{Z}^{(v)}\}_{v=1}^l 学习出一个高质量的共识图。

现有方法的缺点

• 一些方法尝试将自适应最近邻图学习模型融入共识图学习框架,但存在以下问题:

1. 计算开销高:需要更复杂的优化过程。

2. 优化复杂性大:模型的优化难度和收敛时间显著增加。

2. 提出的解决方案

本文提出了一种简单但新颖的解决方案,基于如下假设:

假设

如果样本 x_i 和  x_j  是彼此的“内在最近邻”(intrinsic nearest neighbors),那么它们的最近邻集合应该包含一些共同的样本。

解释

• 样本  x_i  和  x_j  的“共同最近邻”数量越多,这两个样本属于同一类别的概率越高。

3. 方法细节

3.1 计算“共同最近邻”数量

• 对于样本 x_i 和  x_j ,它们的“共同最近邻”数量可以通过以下公式计算:

H_{i,j} = A_{i,:} A_{:,j}

•  A :一个特殊的二值  k -最近邻图,表示样本之间是否为彼此的  k -最近邻关系。

3.2 构建置信最近邻图

• 将  H_{i,j}  的值归一化:

\hat{H}{i,j} = \frac{H{i,j}}{H_{\text{max}}}

•  H_{\text{max}} : H  的最大值。

\hat{H}:归一化后的置信最近邻图,其元素表示样本  x_i  和  x_j  之间为最近邻的置信度。

3.3 引入置信最近邻图到共识图学习

• 在目标函数中引入置信最近邻图  \hat{H}^{(v)}

\min_{S,\alpha} \sum_{v=1}^l \alpha_v \left\| \left( G^{(v)} SG^{(v)^T} - \tilde{Z}^{(v)} \right) \odot \hat{H}^{(v)} \right\|_F^2 + \lambda_1 \|S\|_F^2

•  \odot :逐元素乘法操作。

\hat{H}^{(v)}:置信最近邻图,强调可靠的样本关系。

• 目标:重点关注样本之间置信度高的部分,减少噪声和不可靠关系的影响。

约束条件

• 目标函数中的约束条件包括:

•  S^T = S:共识图  S  是对称矩阵;

•  0 \leq S \leq 1 :共识图的值在合理范围内;

\text{diag}(S) = 0 :对角元素为 0(避免自连接);

\text{rank}(L_S) = n - c:拉普拉斯矩阵的秩约束,用于保证聚类结果的连通分量数量。

4. 方法的优势

4.1 与传统方法的比较

• 传统的最近邻图 \tilde{Z}^{(v)} 易受噪声影响,无法准确反映样本关系。

• 引入置信最近邻图 \hat{H}^{(v)}  后:

1. 提供了一种新的结构信息;

2. 更加关注高置信度的样本关系;

3. 降低了噪声数据对共识图学习的干扰。

4.2 潜力

• 通过置信最近邻图引导,共识图学习模型有潜力获得更内在的高质量图,用于实现更好的聚类结果。

优化过程

1. 原始公式 (6)

公式 (6) 是学习共识图  S  的优化问题:

\min_{S, \alpha} \sum_{v=1}^l \alpha_v \left\| \left( G^{(v)} S G^{(v)^T} - \tilde{Z}^{(v)} \right) \odot \hat{H}^{(v)} \right\|_F^2 + \lambda_1 \|S\|F^2

约束条件为:

0 \leq \alpha_v \leq 1, \quad \sum{v=1}^l \alpha_v = 1, \quad S^T = S, \quad 0 \leq S \leq 1, \quad \text{diag}(S) = 0, \quad \text{rank}(L_S) = n - c

主要符号解释:

G^{(v)} S G^{(v)^T}:从  S  映射到视图  v  上的部分子图;

•  \tilde{Z}^{(v)}:视图  v  的相似图;

\hat{H}^{(v)}:视图  v  的置信最近邻图,用于加权;

\|S\|_F^2 :正则化项,用于控制  S  的复杂性。

这里的核心是项 (G^{(v)} S G^{(v)T} - \tilde{Z}^{(v)}) \odot \tilde{H}^{(v)} 。通过仔细观察,可以对其中的变量作如下变化与等价变换,以使问题结构更加清晰:

公式 (7)

将公式 (6) 转换为:

\min_{S, \alpha} \lambda_1 \|S\|F^2 + \sum{v=1}^l \alpha_v \left\| \left( S - G^{(v)^T} \tilde{Z}^{(v)} G^{(v)} \right) \odot \left( G^{(v)^T} \hat{H}^{(v)} G^{(v)} \right) \right\|_F^2

约束条件不变。

转换推导过程

1. 重新定义 Z^{(v)}​​​​​​​  和  H^{(v)} 

• 定义  Z^{(v)} = G^{(v)^T} \tilde{Z}^{(v)} G^{(v)} ,即视图  v  的全局相似图;

• 定义  H^{(v)} = G^{(v)^T} \hat{H}^{(v)} G^{(v)},即视图  v  的全局置信图。

这些定义表明,我们在全局图  S  中只关注非缺失样本的信息。

2. 矩阵重构:

• 将  G^{(v)} S G^{(v)^T} 的表达形式替换为  S ,因为  S  是全局图,包含所有样本的信息。

• 将  G^{(v)^T} \tilde{Z}^{(v)} G^{(v)}  替换为  Z^{(v)} ,用来表示从局部相似图到全局相似图的映射。

3. 目标函数替换:

• 将原始公式中 \left\| G^{(v)} S G^{(v)^T} - \tilde{Z}^{(v)} \right\|_F^2  替换为  \left\| S - Z^{(v)} \right\|_F^2

• 将权重矩阵 \hat{H}^{(v)} 的作用从局部图转移到全局图中,替换为 H^{(v)} 。

最终得到了公式 (7)。

详细推导过程:

1. 引入中间变量的动机

在(6)中,有 (G^{(v)} S G^{(v)T} - \tilde{Z}^{(v)}) \odot \tilde{H}^{(v)}。为进一步简化,我们考虑将问题转化到一个变换后的空间中。若我们定义:

Z^{(v)} := G^{(v)T} \tilde{Z}^{(v)} G^{(v)}, \quad H^{(v)} := G^{(v)T}\tilde{H}^{(v)}G^{(v)}

请注意,上述定义实际上是(7)与(8)中出现的形式,但在此说明推导过程时,先展示思路,再行解释。

问题是如何从(G^{(v)} S G^{(v)T} - \tilde{Z}^{(v)}) \odot \tilde{H}^{(v)}转化到类似(S - Z^{(v)}) \odot H^{(v)} 的形式。

2. 等价变换

在(6)中,(G^{(v)} S G^{(v)T} - \tilde{Z}^{(v)}) \odot \tilde{H}^{(v)}为F范数下的矩阵元素逐点相乘的残差项。

假设存在适当的正交或单位变换(由G^{(v)}定义)使得在该变换域中,问题呈现更简洁的形式。具体而言,由于G^{(v)}通常为给定的数据相关矩阵(如图拉普拉斯矩阵的特征向量矩阵,或数据嵌入矩阵等),通过将问题映射至G^{(v)}的转置域,可简化运算。

若在(7)式中能写出与G^{(v)}相关的项,我们就可将问题表示为:

\min_{S,\alpha} \lambda_1 \|S\|F^2 + \sum{v=1}^l \alpha_v \| (S - G^{(v)T}\tilde{Z}^{(v)}G^{(v)}) \odot (G^{(v)T}\tilde{H}^{(v)}G^{(v)}) \|_F^2.

在(7)中,已经明确地把(G^{(v)} S G^{(v)T} - \tilde{Z}^{(v)}) \odot \tilde{H}^{(v)}通过等价的矩阵变换写成:

(S - G^{(v)T}\tilde{Z}^{(v)}G^{(v)}) \odot (G^{(v)T}\tilde{H}^{(v)}G^{(v)})

这实际上是利用了G^{(v)} G^{(v)T}G^{(v)T} G^{(v)}的某些性质(例如正交性、对称性或在特定约束下的等价性)来进行变换,使得在(7)式中所有优化变量仍为S和\alpha,但形式更对称整齐,更便于后续处理。

简言之:

• 将G^{(v)} S G^{(v)T}映射到SH^{(v)}=G^{(v)T}\tilde{H}^{(v)}G^{(v)},就得到(7)的形式。

因此,从(6)到(7)的关键就是在适当的变换下等价地重写误差项。

公式 (8)

在公式 (7) 的基础上引入拉普拉斯约束项,将目标函数扩展为:

\min_{S,\alpha,F} \sum_{v=1}^l \alpha_v \left\| \left( S - Z^{(v)} \right) \odot H^{(v)} \right\|_F^2 + \lambda_1 \|S\|_F^2 + \lambda_2 \text{Tr}(F^T L_S F)

其中:

• 新增变量  F:表示低维嵌入矩阵,用于优化拉普拉斯约束;

\text{Tr}(F^T L_S F):用来替代 \text{rank}(L_S) = n - c  的拉普拉斯秩约束。

转换推导过程

1. 引入低维嵌入矩阵  F 

• 根据谱聚类理论,拉普拉斯矩阵 L_S  的最小  c  个特征值为 0,其对应的特征向量可以用来表示  c  个聚类的分布。

• 换句话说,拉普拉斯矩阵的秩约束 \text{rank}(L_S) = n - c  等价于优化嵌入矩阵  F ,使得  F^T F = I  并最小化  \text{Tr}(F^T L_S F)

2. 将拉普拉斯约束项添加到目标函数中:

• 原始的秩约束通过引入嵌入矩阵  F  转化为优化问题:

\min_{F^T F=I} \text{Tr}(F^T L_S F)

• 这一转换避免了直接处理非凸的秩约束问题。

3. 合并目标函数:

• 将拉普拉斯约束项  \text{Tr}(F^T L_S F) 添加到公式 (7) 中,形成公式 (8)。

• 同时保留原有的相似性约束和正则化项  \|S\|_F^2 。

最终,公式 (8) 成为完整的优化问题。

详细推导过程

下面更详细解释从(7)到(8)的推导思想和步骤。在(7)和(8)之间,最关键的变化在于如何处理秩约束 \text{rank}(L_S) = n - c

回顾(7)式的问题形式:

(7)式的优化问题可写为(略去不变的条件):

\min_{S,\alpha} \lambda_1 \|S\|F^2 + \sum{v=1}^l \alpha_v \|(S - Z^{(v)}) \odot H^{(v)}\|_F^2

同时有约束条件:

0 \leq \alpha_v \leq 1, \quad \sum_{v=1}^l \alpha_v=1, \quad S^T 1 = 1, \quad 0 \leq S \leq 1, \quad \text{diag}(S)=0, \quad \text{rank}(L_S)=n-c.

这里的难点是\text{rank}(L_S)=n-c 这个秩约束。秩约束是一个非凸的、难以直接求解的约束,它限制了矩阵 L_S 的特征结构。

为何要引入 F 矩阵和\lambda_2 项?

        为了解决复杂的秩约束,常用的技巧是将其转化为一个可通过优化辅助变量间接实现的形式。      

参考文献中([25]等),一种可行的方法是:

• 引入一个辅助矩阵 F \in \mathbb{R}^{n \times (n-c)}(具体维度需与秩条件匹配),并要求 F^T F = I(即 F 的列向量正交归一化,形成一个正交基)。

• 在理想情况下,如果 L_S 的秩为 n-c,那么可以找到一个合适的 F,使得 F^T L_S F 接近一个“理想结构”(如接近单位阵 I),从而表征L_S 在 F 所定义的子空间内有 n-c 个非零特征值并保持该秩结构。

简单理解是:

L_S 是与 S 有关的拉普拉斯型矩阵或某种图结构矩阵。控制 L_S 的秩相当于控制其特征值分布。

• 如果 \text{rank}(L_S)=n-c,说明 L_S 有 n-c 个非零特征值(或满足一定特征值分布要求),即可以在某个正交基 F 下把 L_S 映射得较为“标准化”。

• 将 \text{rank}(L_S)=n-c 替换为一个最小化问题:\min_{F} \|F^T L_S F - I\|_F^2或者近似\|F^T L_S F\|_F^2的最小化问题。这样一来,如果我们找到一个 F 使得 F^T L_S F 逼近单位阵,就说明 L_S 的所需秩特性已满足。

为什么逼近单位阵能体现秩特性?

在一个合适的子空间基 F 中,如果 F^T L_S F \approx I,意味着在这个子空间上L_S 行为类似一个满秩的单位矩阵(尺寸是 (n-c)\times(n-c) )。这样就间接确保了\text{rank}(L_S)=n-c。当然,这里可能略有简化或与文中定义的场景相关,但基本思想是:通过选择 F 和在目标函数中加入\|F^T L_S F - I\|_F^2(或 \|F^T L_S F\|_F^2的惩罚项,我们让优化过程自动寻找一个 F,从而使 L_S 的结构向满足该秩要求的矩阵靠拢。

(8)式的最终形式:

因此,在(8)式中引入了 F 和\lambda_2项,将原来的秩约束通过一个正则化项来表达:

\min_{S,\alpha,F} \sum_{v=1}^l \alpha_v \| (S - Z^{(v)}) \odot H^{(v)} \|_F^2 + \lambda_1 \|S\|_F^2 + \lambda_2 \|F^T L_S F\|_F^2

并添加约束:

0 \leq \alpha_v \leq 1, \quad \sum_{v=1}^l \alpha_v=1, \quad S^T 1=1,\quad 0 \leq S \leq 1, \quad \text{diag}(S)=0, \quad F^T F = I

通过这一步,我们用一个额外优化变量 F 和一项正则化 \lambda_2 \|F^T L_S F\|_F^2 来实现对\text{rank}(L_S)的间接控制。

• 当\lambda_2 较大时,优化过程会更加努力地使 F^T L_S F 接近一个期望的结构(如 I),从而实现 \text{rank}(L_S)=n-c 的要求。

• 这样就不用直接处理 \text{rank}(L_S)=n-c 这个棘手的非凸约束,而是通过引入 F 的正交约束 F^T F=I(可控的凸约束)和可导的正则项\|F^T L_S F\|_F^2,将原问题转换为更容易求解的优化形式。

总结下来,从(7)到(8)的本质是用一种辅助变量和正则化替代难以处理的秩约束:

1. 原问题中的秩约束太复杂,难以直接优化。

2. 引入辅助矩阵 F 并要求 F^T F = I来提供一个标准正交基。

3. 在目标函数中加入 \lambda_2 \|F^T L_S F\|_F^2 项,通过调节\lambda_2 的大小,使 L_S在 F 定义的子空间中呈现出期望的秩结构(间接满足 \text{rank}(L_S)=n-c)。

 交替优化过程(公式9-17)

由于  S, F, \alpha  之间相互耦合,难以同时求解,因此采用交替优化的方法逐步优化每个变量:

Step 1:优化  S (共识图)

目标:

固定  F  和 \alpha ,优化  S :

\min_{S} \sum_{v=1}^l \alpha_v \left\| \left( S - Z^{(v)} \right) \odot H^{(v)} \right\|_F^2 + \lambda_1 \|S\|_F^2 + \lambda_2 \text{Tr}(F^T L_S F)

推导过程大纲:

1. 展开 Tr项:

拉普拉斯约束项  \text{Tr}(F^T L_S F)  可展开为:

\text{Tr}(F^T L_S F) = \frac{1}{2} \sum_{i,j=1}^n \|F_{i,:} - F_{j,:}\|2^2 S{i,j}

表明该项直接与  S  相关,是一个二次型优化问题。

2. 逐元素优化:

将目标函数分解为对每个  S_{i,j}  的优化,得到:

S_{i,j} = \frac{T_{i,j} + \eta_{j,+}}{\sum_{i=1}^n T_{i,j}}

其中:

T_{i,j} = \sum_{v=1}^l \alpha_v H^{(v)}{i,j} Z^{(v)}{i,j} - \frac{\lambda_2}{2} \|F_{i,:} - F_{j,:}\|_2^2

\eta_{j,+} 是拉格朗日乘子,用于满足约束  S_{i,j} \geq 0 。

详细推导过程

在固定了 F 和\alpha 后,对 S 的优化问题。该子问题的形式(对应公式(9))大致为:

\min_{S} \sum_{v=1}^l \alpha_v \| (S - Z^{(v)}) \odot H^{(v)} \|_F^2 + \lambda_1 \|S\|_F^2 + \lambda_2 \mathrm{Tr}(F^T L_S F)

约束条件为:

S^T 1 = 1, \quad 0 \leq S \leq 1, \quad \mathrm{diag}(S)=0

其中\odot表示元素级(Hadamard)相乘,\|\cdot\|_F 是Frobenius范数,\alpha_v, \lambda_1, \lambda_2为给定的参数。矩阵 Z^{(v)}, H^{(v)} 均已知且固定。

将Frobenius范数的误差项分解为元素级形式

首先考虑目标函数中 \| (S - Z^{(v)}) \odot H^{(v)} \|_F^2 的展开。Frobenius范数的平方即为所有元素平方和,故有:

\| (S - Z^{(v)}) \odot H^{(v)} \|F^2 = \sum{i,j} (S_{i,j} - Z^{(v)}{i,j})^2 (H^{(v)}{i,j})^2

将所有 v 的误差项叠加,并加入\lambda_1 \|S\|F^2 和 \lambda_2 \mathrm{Tr}(F^T L_S F)项,最终可以将目标函数写成对 S{i,j} 的二次型形式,即:

\sum_{v=1}^l \alpha_v (H^{(v)}{i,j})^2 (S{i,j}-Z^{(v)}{i,j})^2 + \lambda_1 (S{i,j})^2 + \lambda_2(\text{terms involving }S_{i,j})

这里\text{Tr}(F^T L_S F)也是一个二次型的函数,可以展开为\sum_{i,j} E_{i,j} S_{i,j}或包含二次项(F^T L_S F)的分解。根据文中所给提示,可以定义一些中间符号 E_{i,j}, F_{i,j} 等,将\text{Tr}(F^T L_S F)分解为对S_{i,j}的线性或简单二次形式。这种分解的细节通常依赖 L_S 的定义(例如 L_S = D - S 一类的图拉普拉斯形式)和 F 的性质。最终可以达到将整个人类不可读的矩阵优化问题化为元素级别的和式。

问题可分解性:按列拆分

观察约束:

S^T 1 = 1意味着对每一列 j\sum_{i=1}^n S_{i,j} = 1

0 \leq S_{i,j} \leq 1 给出了元素的上下界约束。

\mathrm{diag}(S)=0 则意味着 S_{i,i}=0 对所有 i

由于上述约束对每一列而言相对独立(列和为1的约束在列间是独立的,对角为0只是指定列中一个元素为0,非负性和上界也在列内独立),再加上目标函数在展开后可对列进行分块(每一列的优化子问题相互解耦),因此我们可以将整个问题分为 n 个列级别的独立子问题,即对每个 j:

\min_{\{S_{i,j}\}} \sum_{v=1}^l \alpha_v (H^{(v)}{i,j})^2 (S{i,j}-Z^{(v)}{i,j})^2 + \lambda_1 (S{i,j})^2 + \lambda_2\text{(terms in } S_{:,j})

经过适当的线性化和分解,\lambda_2 \text{Tr}(F^T L_S F)中的与列 j 有关的项也可以写成关于 \{S_{i,j}\}的线性或简单二次形式。最终的结果是每个列 j 上的优化问题只有该列的 \{S_{i,j}\}{i=1}^n作为变量,且满足\sum_i S{i,j}=1S_{j,j}=0的特殊条件。

利用拉格朗日乘子法解决列级子问题

对列 j 的子问题来说,我们有一个典型的有界二次规划问题:

• 目标函数是\sum_{i} w_{i,j} (S_{i,j}-u_{i,j})^2 + \lambda_1 (S_{i,j})^2 +\text{(linear terms)}

这里 w_{i,j} 和 u_{i,j} 是根据前面分解得到的由 \alpha_v, Z^{(v)}, H^{(v)}, E_{i,j} 等决定的系数。

• 约束包括:\sum_{i=1}^n S_{i,j}=1(线性约束)、0 \leq S_{i,j}\leq 1(盒子约束)以及 S_{j,j}=0(固定值约束)。

引入拉格朗日乘子 \eta_j来处理 \sum_i S_{i,j}=1的约束。对于有盒子约束的二次问题,一个常用的技巧是先不考虑盒子约束求出无约束的最优解,然后对该解进行投影(Projection)操作使之满足非负、上界等要求。作者最终给出的闭式解(12)就是通过这种思路得到的。

基本步骤是:

1. 无约束解的计算

假设先忽略非负约束和上界约束,只考虑\sum_i S_{i,j}=1。对该二次形式加上拉格朗日项\eta_j( \sum_i S_{i,j}-1 )。求关于 \{S_{i,j}\}的驻点条件可以得到一组线性方程,根据这些方程可以解出S_{i,j} 关于 \eta_j的关系。

得到的形式约为:S_{i,j}= T_{i,j} + \eta_j,其中 T_{i,j} 是在不考虑 \eta_j和盒子约束时的“初步解”(与目标函数的系数矩阵、常数项有关)。

2. 满足非负和上界约束的投影

有了 S_{i,j} = T_{i,j} + \eta_j,接下来需要选择 \eta_j 使得 \sum_i S_{i,j}=1。这给出 \sum_i (T_{i,j} + \eta_j)=1,由此可以解出 \eta_j

\eta_j = \frac{1 - \sum_i T_{i,j}}{n} \quad{(如果没有其他约束的话)}

然而,这只是一个初步选择,还需要检查非负性和上界 S_{i,j}\leq 1。如果有元素小于0,则需要提高 \eta_j(或做出相应的调整)以使该元素变为0;若有元素大于1,则需相反方向调整 \eta_j 或对该元素截断在1。

最终,这相当于一个投影操作,把初步解 \{T_{i,j}\}投影到可行域(满足所有约束的单纯形和盒子范围内)上。这个投影结果给出了闭式的形式,即:

S_{i,j} = (T_{i,j} + \eta_j)+ \quad (i \neq j), \quad S{j,j}=0

同时根据列和为1的约束通过迭代或解析方法精确求出满足\sum_i S_{i,j}=1 的\eta_j

3. 对角元素为0的处理

S_{j,j}=0 是硬性条件,所以该元素直接设置为0,不参与投影过程(或可看作固定死的一个值)。这一点在计算 \eta_j 时需特别考虑,即列和时不计入该元素的自由度。

通过这些数学手段,作者实现了从一个复杂的有界、带线性约束和二次项的优化问题到一个有闭式解的结构形式。这种闭式解(12)的存在大大简化了数值求解的过程,因为每次更新 S 时都可以直接利用这种解析形式,而不需要求解大型的数值优化问题。

总结

从推导的角度来看,这部分内容的数学原理在于:

1. 将矩阵F范数和线性代数项都分解为元素级别的二次和线性形式。

2. 利用问题的结构性约束(列和为1、非负、上界、对角为0)将多维的矩阵优化问题分解为一组独立的列向量优化问题。

3. 对每个列向量的优化问题,使用拉格朗日乘子处理线性约束,然后通过投影操作处理非负和上界约束,从而得到闭式解析解。

4. 最终的闭式解(12)是对列向量的最优解在给定参数和辅助量后的直接表达式。

这些步骤体现了典型的优化问题求解思路:

• 先分解化简至可独立求解的基本子问题;

• 再对子问题使用标准的优化技术(如拉格朗日法)得到解析解;

• 最后处理不等式约束(如非负和上界)使用投影操作得到最终可行且最优解。

Step 2:优化  F (嵌入矩阵)

目标:

固定  S  和  \alpha ,优化  F :

\min_{F^T F=I} \text{Tr}(F^T L_S F)

推导过程大纲:

1. 对  L_S  进行特征值分解,得到特征值  \delta_1 \leq \delta_2 \leq \cdots \leq \delta_n  和对应的特征向量  u_1, u_2, \cdots, u_n 。

2. 取最小的  c  个特征值对应的特征向量,构成  F :

F = [u_1, u_2, \cdots, u_c]

这确保了  F  满足约束  F^T F = I ,同时最小化目标函数。

详细推导过程:

当从公式(8)式出发,固定 S 和 \alpha 后,关注优化变量 F 的子问题,就会得到如下形式的优化问题(对应公式(13)):

\min_{F} \mathrm{Tr}(F^T L_S F) \quad \text{subject to} \quad F^T F = I

这里 L_S 是一个和 S 有关的图拉普拉斯矩阵(或具有类似特性的实对称矩阵),且 F 是一个 n \times c的矩阵,列与列之间需正交归一化,即 F 的列向量是一组正交标准化的向量。

数学直观

目标函数\mathrm{Tr}(F^T L_S F)

考虑 F = [f_1, f_2, \ldots, f_c] 其中每个 f_i \in \mathbb{R}^n是列向量。则有:

\mathrm{Tr}(F^T L_S F) = \sum_{i=1}^c f_i^T L_S f_i

因为L_S 是一个对称实矩阵(通常图拉普拉斯矩阵是对称半正定的),它有一组正交标准化的特征向量 u_1, u_2, \ldots, u_n 对应特征值 \delta_1 \leq \delta_2 \leq \cdots \leq \delta_n。这里 \delta_i 是 L_S 的第 i 小特征值。

利用特征分解求解

对称实矩阵 L_S的特征分解为:

L_S = U \Lambda U^T

其中 U=[u_1, u_2, \ldots, u_n] 是由标准正交基组成的特征向量矩阵,\Lambda = \mathrm{diag}(\delta_1, \delta_2, \ldots, \delta_n)为特征值对角阵。

考虑到目标 \mathrm{Tr}(F^T L_S F) 在特征基下的表示。令F = UY ,由于 U 是正交矩阵 (U^T U = I),并且 F^T F = I 意味着 Y 必须满足 Y^T Y = I

\mathrm{Tr}(F^T L_S F) = \mathrm{Tr}( (UY)^T L_S (UY) ) = \mathrm{Tr}( Y^T U^T U \Lambda U^T U Y ) = \mathrm{Tr}( Y^T \Lambda Y )

这里用到了 U^T U = I

因此问题变成:

\min_{Y^T Y = I} \mathrm{Tr}(Y^T \Lambda Y) = \min_{Y^T Y = I} \sum_{i=1}^c \sum_{j=1}^c Y_{j,i}^2 \delta_j

因为 \Lambda是对角阵,\mathrm{Tr}(Y^T \Lambda Y) 就是 \sum_{j=1}^n \delta_j \sum_{i=1}^c Y_{j,i}^2。此时我们注意到约束 Y^T Y = I 表示 Y 的列向量也是一组正交标准向量,但是在特征值排序下,我们想要使得 \mathrm{Tr}(Y^T \Lambda Y)尽可能小。

如果想要最小化 \sum_{j=1}^n \delta_j \sum_{i=1}^c Y_{j,i}^2,最优策略是让 Y 的列向量只在对应最小特征值的特征向量上有分量,从而使得加权和最小。例如:

• 若选择使 F 的列向量即为 \{u_1, u_2, \ldots, u_c\}(对应 \delta_1, \delta_2, \ldots, \delta_c 最小的 c 个特征值),则:

F = [u_1, u_2, \ldots, u_c], \quad F^T L_S F = \mathrm{diag}(\delta_1, \delta_2, \ldots, \delta_c)

此时 \mathrm{Tr}(F^T L_S F) = \delta_1 + \delta_2 + \cdots + \delta_c为选择的 c 个特征值的和。

• 若尝试选择其他任意正交的 F ,由于特征值是从小到大排列好的,包含更大特征值方向的分量只会增大 \mathrm{Tr}(F^T L_S F)

最优解的必要性与充分性

该问题是经典的“从对称矩阵中选取一个低维子空间来最小化子空间中二次型期望值”的问题。由于 L_S 是对称实矩阵,特征值分解给出了全局极值。将 F 的列选为对应最小特征值的特征向量保证了全局最优性。这点是线性代数和最优化理论中的标准结论:在正交约束下最小化\mathrm{Tr}(F^T L_S F) 必须选择与最小特征值对应的特征向量。

更正式的说法是:

Rayleigh-Ritz定理(Rayleigh quotient及其推广) 告诉我们,对于实对称矩阵,约束优化问题 \min_{F^T F = I} \mathrm{Tr}(F^T L_S F)的解是由矩阵 L_S的最小特征值对应的特征向量张成的子空间来提供。

总结

问题(13):

\min_{F^T F=I} \mathrm{Tr}(F^T L_S F)

的最优解是选取 L_S 的最小 c 个特征值对应的特征向量来构成 F。这是因为特征值分解将 L_S 拆解为一组正交特征向量方向上的权重。在正交约束下,选择那些对应最小特征值的特征向量,使得二次型 \mathrm{Tr}(F^T L_S F) 的值达到全局最小。

Step 3:优化  \alpha (视图权重)

目标:

固定  S  和 F ,优化 \alpha

\min_{\alpha} \sum_{v=1}^l \alpha_v p_v \quad \text{s.t. } \sum_{v=1}^l \alpha_v = 1, \quad 0 \leq \alpha_v \leq 1

其中:

p_v = \left\| \left( S - Z^{(v)} \right) \odot H^{(v)} \right\|_F^2

推导过程大纲:

1. 利用拉格朗日方法,将约束条件加入目标函数:

\mathcal{L}(\alpha, \mu) = \sum_{v=1}^l \alpha_v p_v - \mu \left( \sum_{v=1}^l \alpha_v - 1 \right)

2. 令偏导数为 0,得到:

\alpha_v = \frac{\mu}{p_v}

3. 根据约束 \sum_{v=1}^l \alpha_v = 1 ,进一步得到:

\alpha_v = \frac{1 / p_v}{\sum_{v=1}^l (1 / p_v)}

详细推导过程:

根据给定的公式(14)及参考文献中的一般化处理方式,我们需要求解:

\min_{\alpha} \sum_{v=1}^l \alpha_v \| (S - Z^{(v)}) \odot H^{(v)} \|F^2

subject \ to                                                

0 \leq \alpha_v \leq 1,\quad \sum{v=1}^l \alpha_v = 1

为推导出(16)与(17)的形式,一般在文献[46]的启发下,将该问题考虑为带有一般化指数的优化问题(或假设有一类广义凸组合形式),即考虑更一般的模型:

\min_{\alpha} \sum_{v=1}^l p_v (\alpha_v)^r

subject \ to

\sum_{v=1}^l \alpha_v = 1,\quad \alpha_v \geq 0

其中 p_v = \| (S - Z^{(v)}) \odot H^{(v)} \|_F^2,_{r > 1} 为某参数(若问题原文中没有显式说明,则该形式来自于文献参考或附录中说明的推广,一般通过这种形式可导出类似的闭式解。若不考虑 r 的一般化情形,而是线性情况,最终结果则会趋于挑选最优方向的稀疏解。但论文显然给出了像(16)(17)这样有r-依赖的公式,说明其采用的是广义形式)。

引入拉格朗日乘子

定义拉格朗日函数:

\mathcal{L}(\alpha, \mu) = \sum_{v=1}^l p_v (\alpha_v)^r - \mu\left(\sum_{v=1}^l \alpha_v - 1\right)

其中 \mu 是约束\sum_{v=1}^l \alpha_v = 1对应的拉格朗日乘子。

求导并求驻点

对 \alpha_v 求偏导并令其为零:

\frac{\partial \mathcal{L}}{\partial \alpha_v} = r p_v (\alpha_v)^{r-1} - \mu = 0

由此可得:

r p_v (\alpha_v)^{r-1} = \mu \implies (\alpha_v)^{r-1} = \frac{\mu}{r p_v}

因此:

\alpha_v = \left(\frac{\mu}{r p_v}\right)^{\frac{1}{r-1}}

利用约束\sum_{v=1}^l \alpha_v = 1

将上式代入约束条件:

\sum_{v=1}^l \alpha_v = \sum_{v=1}^l \left(\frac{\mu}{r p_v}\right)^{\frac{1}{r-1}} = 1

定义 \beta = \mu / r,则:

\sum_{v=1}^l p_v^{-\frac{1}{r-1}} \beta^{\frac{1}{r-1}} = 1

\beta^{\frac{1}{r-1}} = \frac{1}{\sum_{v=1}^l p_v^{-\frac{1}{r-1}}}

所以:

\beta = \left(\frac{1}{\sum_{v=1}^l p_v^{-\frac{1}{r-1}}}\right)^{r-1}

由于 \beta = \frac{\mu}{r},有:

\mu = r \left(\frac{1}{\sum_{v=1}^l p_v^{-\frac{1}{r-1}}}\right)^{r-1}.

现在将\mu 代回 \alpha_v 的表达式:

\alpha_v = \left(\frac{\mu}{r p_v}\right)^{\frac{1}{r-1}} = \frac{( \mu / r )^{\frac{1}{r-1}}}{p_v^{\frac{1}{r-1}}}

但是 (\mu/r)^{\frac{1}{r-1}} 刚才求出为  \frac{1}{\sum_{u=1}^l p_u^{-\frac{1}{r-1}}} ,故:

\alpha_v = \frac{p_v^{-\frac{1}{r-1}}}{\sum_{u=1}^l p_u^{-\frac{1}{r-1}}}.

得到最终公式

这就是对应文中所述的公式(17)的形式:

\alpha_v = \frac{p_v^{-\frac{1}{r-1}}}{\sum_{u=1}^l p_u^{-\frac{1}{r-1}}}

从数学原理上看,这是一个标准的带有幂函数形式的加权优化问题。在引入拉格朗日乘子并求解后,我们得到\alpha_v 的闭式解,其权重与 p_v 成反比的幂次关系。该解决方案本质上是通过调整参数 r 来实现对 \alpha 的平衡分配:当 r 趋于1时,该分配接近在最小的 p_v 处集中(线性问题的极端情况),而更一般的r>1 则导致一种柔和的权衡分布,使得所有\alpha_v 按p_v^{-\frac{1}{r-1}} 的权重分配。

总结

通过上述推导,我们从最初的优化问题出发,引入拉格朗日乘子法,对 \alpha 求导并利用约束条件求出闭式解。最终的公式(17)给出了\alpha_v 的解析表达式。该过程数学上清晰、严格,并且依赖特征参数 r 来灵活控制\alpha的分布特征。

算法综述

算法旨在基于多视图数据(multi-view data)构建一个共识图  S ,并同时确定合适的加权参数 \alpha和辅助矩阵 F,以实现对数据的聚类或分群(特别是从不完整的多视图数据中提取一致的图结构)。

在这个问题中:

• 不完整多视图数据集\{Y^{(v)}\}_{v=1}^l 含有缺失视图(有的样本在某些视图缺失特征)。缺失部分用 ‘NaN’ 表示。

• 索引矩阵 O \in \{0,1\}^{n \times l}标识数据的观测情况:O_{i,v}=1表示第i个样本在视图v下有观测数据,0则表示该视图信息缺失。

• 构造Z^{(v)}H^{(v)}的初始图与加权矩阵,为后续优化提供初始条件。

• 参数\lambda_1, \lambda_2 用于正则化和控制问题中的秩约束松弛。

初始化步骤

1. 构建近邻图

基于每个视图的观测数据\{Y^{(v)}\},利用已观测的样本集合,先构建k-近邻图Z^{(v)}。这一步通常是从数据点构建图的标准做法:

• 对每一视图v,在已观测数据中找到每个点的k-最近邻,形成邻接关系 A^{(v)}(二值矩阵)。

• 根据该邻接信息,计算出加权图Z^{(v)}用于表示样本之间的相似度或距离结构。

2. 计算加权矩阵 H^{(v)}

使用给定的概率性质或归一化方法,将邻接信息 A^{(v)}转化为信任加权矩阵H^{(v)}。文中指出通过 (A^{(v)} + I)(A^{(v)} + I)^T 的最大值归一化来定义H^{(v)}H^{(v)}用来加权误差项,在后续优化中起到了控制不同样本对最终共识图贡献程度的作用。

此时,我们有了初始的Z^{(v)}, H^{(v)}和缺失信息索引O以及参数\lambda_1, \lambda_2 。

交替迭代优化过程

算法采用交替迭代优化的策略来求解问题(6)。考虑到直接联合求解 S, F, \alpha 的困难性,算法分为三个子步骤反复更新:

1. 更新 S (在固定 F 和 \alpha 的情况下)

2. 更新 F (在固定S 和 \alpha 的情况下)

3. 更新 \alpha (在固定 S 和 F 的情况下)

在每次迭代中,先更新 S,然后更新 F,最后更新 \alpha,一直到收敛。

更新 S

根据前面推导,当\alpha 和 F 固定后,优化关于 S 的子问题等价于分解为列独立的小问题。通过引入拉格朗日乘子法和投影操作,将复杂约束(非负、行和为1、对角为0)的问题简化为可由闭式解表达的形式(即(12)式的求解过程)。更新 S 时,利用公式(12)的结果直接获得列向量更新,从而快速得到新一轮的 S

更新 F

在固定 S 和 \alpha 后,更新 F 的问题为对称矩阵下的正交约束特征问题。对 L_S 进行特征分解,选取对应最小 c 个特征值的特征向量作为列向量,即可得最优 F (对应于(13)的问题)。这实际上是一个经典的谱聚类步骤:选择最小特征值的特征向量空间作为嵌入。

更新 \alpha

固定 S 和 F 后,问题约化为简单的加权求解问题。之前的详细推导((14)-(17))显示,在有适当的函数形式下,引入拉格朗日乘子并求导,可以得到 \alpha_v 的闭式解(17式)。该解根据每个视图的误差项 \| (S - Z^{(v)}) \odot H^{(v)} \|_F^2 来动态调整视图权重 \alpha_v。最终所有 \alpha_v满足\sum_v \alpha_v=1且 0\leq \alpha_v \leq 1

循环迭代与收敛

整个算法的结构是一个“while not converged do … end while”的迭代循环。在每一轮迭代中:

• 根据(12)公式更新 S

• 根据(13)公式的特征分解更新 F

• 根据(17)的闭式解更新\alpha

反复迭代,直至达到收敛条件(如 S 或目标函数值不再显著变化)。

输出结果

算法最终输出的是共识图 S 和谱嵌入矩阵 F

S 是在多个视图间平衡而得到的图结构矩阵,表示聚合后的数据邻接关系,称为共识图。

F 是从 \alpha 加权并对 L_S光滑化处理后得到的特征向量子空间,用于谱聚类或其他后续分析。通过对 F 行进行 k-means 聚类,可以获得数据的最终分群结果。

总结

• 初始化步骤利用邻接信息构建初始图和加权矩阵。

• 在主体循环中,通过交替迭代更新 S、F、\alpha,利用已推导的闭式解和特征分解方法,使得每个子问题都有高效的求解途径。

• 最终得到的 S 和 F 可以直接用于聚类分析,从不完整多视图数据中获得稳健而有意义的聚类结果。

复杂度分析

Step 1:优化  S 

目标:

优化公式为:

\min_{S} \sum_{v=1}^l \alpha_v \left\| \left( S - Z^{(v)} \right) \odot H^{(v)} \right\|_F^2 + \lambda_1 \|S\|_F^2 + \lambda_2 \text{Tr}(F^T L_S F)

 S  的更新公式由逐元素优化(element-wise optimization)得到。

主要操作:

• 矩阵逐元素的加法、乘法、除法等基本操作。

• 不需要复杂的矩阵分解或其他高阶运算。

时间复杂度:

• 对于一个  n \times n 的矩阵  S ,逐元素操作的复杂度是 O(n^2)

• 因此,优化  S  的复杂度为  O(n^2) 。

Step 2:优化  F 

目标:

优化公式为:

\min_{F^T F=I} \text{Tr}(F^T L_S F)

该问题通过对拉普拉斯矩阵 L_S 的特征值分解(eigenvalue decomposition)来求解。

主要操作:

• 计算  L_S  的前  c  个最小特征值及其对应的特征向量。

• 利用这些特征向量构造嵌入矩阵  F 。

时间复杂度:

• 对于一个  n \times n  的矩阵,完整的特征值分解复杂度为  O(n^3)

• 但由于这里只需要前  c  个特征值和特征向量,可以采用更高效的稀疏特征分解算法(如 eigs 算法),其复杂度为  O(cn^2)

• 因此,优化  F  的复杂度为  O(cn^2) 。

Step 3:优化 \alpha

目标:

优化公式为:

\min_{\alpha} \sum_{v=1}^l \alpha_v p_v \quad \text{s.t. } \sum_{v=1}^l \alpha_v = 1, \quad 0 \leq \alpha_v \leq 1

其中:

p_v = \left\| \left( S - Z^{(v)} \right) \odot H^{(v)} \right\|_F^2

主要操作:

• 计算  p_v  的值(涉及逐元素的乘法和加法操作)。

• 更新权重  \alpha  的闭式解。

时间复杂度:

• 计算  p_v  涉及  n \times n  矩阵的逐元素操作,复杂度为  O(n^2) 。

• 更新 \alpha  的操作仅为向量计算,复杂度为  O(l),可以忽略不计。

• 因此,优化 \alpha  的复杂度为  O(n^2) 。

3. 总体复杂度分析

在一个完整的交替优化迭代中:

1. Step 1 和 Step 3 的复杂度均为  O(n^2) ;

2. Step 2 的复杂度为  O(cn^2)(通常  c \ll n )。

单次迭代的总复杂度:

O(n^2 + cn^2) = O(cn^2)

如果总迭代次数为  t ,则整个优化过程的总复杂度为:O(tcn^2)

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值