论文 GMC: Graph-based Multi-view Clustering

最新推荐文章于 2024-07-21 17:53:40 发布

I_am_toutu

最新推荐文章于 2024-07-21 17:53:40 发布

阅读量655

点赞数 10

文章标签： matlab 聚类

本文链接：https://blog.csdn.net/I_am_toutu/article/details/139456794

版权

GMC: Graph-based Multi-view Clustering

文章连接地址：https://doi.org/10.1109/TKDE.2019.2903810

一、文章介绍

GMC 模型是一个多视图学习，侧重于无监督的多视图聚类。

多视图（Multi-view）：多个视图来描述同一个对象或者系统，每个视图都是一个学习任务，但每个视图之间的侧重点是不一样，假设现有一个新闻数据，我们可以用多个视图（eg：文字、图片）来描述同一个新闻，它们可以单独地表述，也可以聚合起来一起描述药物信息。单视图数据一般用一个矩阵表示，而多视图就相当于有 $m$ 个矩阵。

多视图学习是聚合多个矩阵来训练模型以得到预测结果。通常的多视图图的聚类方法，首先在所有输入图（视图）上找到一个融合图，然后在这个融合图上使用一个额外的聚类算法来产生最终的聚类。

但是在 GMC 模型中，首先为每个视图构建一个 SIG（similarity-induced graph）矩阵，就会产生 $m$ 个 SIG 矩阵 $\{\mathbf{S}^1, ..., \mathbf{S}^m\}$ ；然后将这些 SIG 矩阵融合在一起，学习得到 a unified matrix $\mathbf{U}$ ，在 $\mathbf{U}$ 的学习过程中会自动计算每个视图的权重；最后，对最终学习到 $\mathbf{U}$ 的拉普拉斯矩阵添加一个 rank constraint（秩约束），即意味着约束了 $\mathbf{U}$ 的连通数量，以确保 $\mathbf{U}$ 中的连通数量等于所需的聚类数目 $c$ 。

二、GMC 模型的构建

SIG 矩阵的构建

对于有 $m$ 个视图的多视图数据集： $\mathbf{X}^1$ , $\mathbf{X}^2$ , …, $\mathbf{X}^m$ ，且第 $v$ 个视图矩阵为 $\mathbf{X}^v = \{\mathbf{x}_1^v, \mathbf{x}_2^v, ..., \mathbf{x}_n^v\} \in \mathbb{R}^{d_v \times n}$ 。
$\mathbf{X}^v$ 的一列表示一个数据点，因此一共有 $n$ 个样本点，其中 $\mathbf{x}_i^v$ 表示为 $\mathbf{X}^v$ 的第 $i$ 列向量且有 $d_v$ 个维度。

相似度计算可以将原始的数据转为点与点之间的关系（距离）。这种关系可以表示为一个关系矩阵，其中矩阵的每个元素表示两个数据点之间的相似度或者关系程度；两个数据点之间的距离越小，对应的相似度值就越大，两个数据点之间的距离越大，对应的相似度值就越小(或为零)。
如果 $\mathbf{S}^v_{ij}$ 表示数据点 $i$ 和数据点 $j$ 之间的相似度，那么当 $\mathbf{S}^v_{ij}$ 的值较大时，可以认为数据点 $i$ 和数据点 $j$ 在图中是相连的；而当 $\mathbf{S}^v_{ij}$ 的值较小或者为零时，则表示数据点 $i$ 和数据点 $j$ 在图中是没有连接的。

为此，我们使用一种稀疏表示 (sparse representation) 方法来构造 SIG 矩阵 $\mathbf{S}^v \in \mathbb{R}^{n \times n}$ 。在数学上，我们对这个问题的建模如下：
$\mathop{\min}_{\{ \mathbf{S}^v \}} \sum_{v=1}^{m} \sum_{i,j=1}^{n} \parallel \mathbf{x}_i^v - \mathbf{x}_j^v \parallel^2_2 s^v_{ij} + \beta \sum_{v=1}^{m} \sum_{i}^{n} \parallel \mathbf{s}_i^v \parallel^2_2 \\ s.t. \forall v, s_{ii}^v = 0, s_{ij}^v \geq 0, \mathbf{1}^T \mathbf{s}_i^v = 1. \tag{1}$
其中， $\parallel \cdot \parallel^2_2$ 是二范数， $\mathbf{s}_i^v$ 是 $\mathbf{S}^v$ 的第 $i$ 个向量，且此时一行向量表示一个数据， $\{ \mathbf{S}^v \}$ 为 $\mathbf{S}^1$ , …, $\mathbf{S}^m$ 。每个视图的 SIG 矩阵之间是独立的。

矩阵 $\mathbf{U}$ 的构建

通过融合和学习 SIG 矩阵 { $\mathbf{S}^1$ , …, $\mathbf{S}^m$ } ，得到 $\mathbf{U} \in \mathbb{R}^{n \times n}$ 矩阵：
$\mathop{\min}_{\mathbf{U}} \sum_{v=1}^{m} w_v \parallel \mathbf{U} - \mathbf{S}^v \parallel^2_F \\ s.t. \forall i, u_{ij} \geq 0, \mathbf{1}^T \mathbf{u}_i=1. \tag{2}$
其中， $\parallel \cdot \parallel^2_F$ 是 Frobenius 范数， $\mathbf{u}_i \in \mathbb{R}^{n \times 1}$ 是 $\mathbf{U}$ 的第 $i$ 个向量， $u_{ij}$ 是 $\mathbf{u}_i$ 的第 $j$ 个元素（一行向量表示一个数据）， $w_v$ 是第 $v$ 个 SIG 矩阵 $\mathbf{S}^v$ 的权重， $\mathbf{w} = \{w_1, w_2, ..., w_m\}$ 。

在融合的过程中，注意条件 $\mathbf{1}^T \mathbf{u}_i = 1$ 。

$\mathbf{1}^T \mathbf{u}_i=1$ 表示了向量 $\mathbf{u}_i$ 的所有元素之和等于 1。在概率分布中，确保概率值之和为 1。

根据文中描述，在对 $\mathbf{U}$ 求解中将权重 $w_v$ 定义为：
$w_v = \frac{1}{2\sqrt{\parallel \mathbf{U} - \mathbf{S}^v \parallel^2_F}} \tag{3}$

联合公式 $(1)$ , $(2)$ 和 $(3)$ ，就可以将SIG 矩阵与统一图矩阵 $\mathbf{U}$ 耦合起来，描述为：
$\mathop{\min}_{\{ \mathbf{S}^v \}, \mathbf{U}} \sum_{v=1}^{m} \sum_{i,j=1}^{n} \parallel \mathbf{x}_i^v - \mathbf{x}_j^v \parallel^2_2 s^v_{ij} + \beta \sum_{v=1}^{m} \sum_{i}^{n} \parallel \mathbf{s}_i^v \parallel^2_2 \\ + \sum_{v=1}^{m} w_v \parallel \mathbf{U} - \mathbf{S}^v \parallel^2_F \\ s.t. \forall v, s_{ii}^v = 0, s_{ij}^v \geq 0, \mathbf{1}^T \mathbf{s}_i^v = 1, \\ u_{ij} \geq 0, \mathbf{1}^T \mathbf{u}_i=1 \tag{4}$

添加约束拉普拉斯秩进行多视图聚类

为了可以直接从 $\mathbf{U}$ 中得到簇类结果，需要在 $\mathbf{U}$ 的图拉普拉斯矩阵 $\mathbf{L}_U$ 上施加一个 秩约束 来限定 $\mathbf{U}$ 的连通分量的个数。

定理2：拉普拉斯矩阵 $\mathbf{L}_U$ 的特征值为 $0$ 的重数 $r$ 等于矩阵 $\mathbf{U}$ 的图中连通分量的个数。
解释：拉普拉斯矩阵 $\mathbf{L}_U$ 的特征值 $0$ 的重数 $r$ 表示图 $\mathbf{U}$ 有 $r$ 个连通分量，每个连通分量可以看作是一个独立的子图，其中的节点之间是相互连接的，而与其他连通分量的节点是没有连接的。
特征值的重数：特征值的重数是指该特征值在特征多项式中出现的次数。
拉普拉斯矩阵至少有一个特征值为 0，零特征值的个数等于图的连通分量（Connected Components）的个数。

假设 $\vartheta_i(\mathbf{L}_U)$ 为 $\mathbf{L}_U$ 中第 $i$ 个最小的特征值，且需要 $\mathbf{L}_U$ 是半正定矩阵，因为 $\vartheta_i(\mathbf{L}_U) \ge 0$ 。

如果矩阵 $\mathbf{L}_U$ 有 $c$ 个零特征值（ $\sum_{i=1}^c \vartheta_i(\mathbf{L}_U) = 0$ ），那么矩阵 $\mathbf{L}_U$ 就有 $\mathbf{L}_U ) = n − c$ 。因此需要求解 $\mathbf{L}_U$ 的最小特征值：
$\sum_{i=1}^c \vartheta_i(\mathbf{L}_U) = \mathop{\min}_{\mathbf{F}\in \mathbb{R}^{n \times c}}Tr( \mathbf{F}^T \mathbf{L}_U \mathbf{F} ) \quad s.t. \mathbf{F}^T \mathbf{F} = \mathbf{I} \tag{5}$
其中， $\mathbf{F} = \{\mathbf{f}_1, ..., \mathbf{f}_c \}$ 是一个嵌入矩阵，即为 $\mathbf{L}_U$ 的特征向量。

$\mathbf{F}^T \mathbf{L}_U \mathbf{F}$ 表示拉普拉斯矩阵 $\mathbf{L}_U$ 在其特征向量基底上的对角化形式，结果是一个对角矩阵，其对角元素为拉普拉斯矩阵的特征值。
$\mathbf{F}^T \mathbf{L}_U \mathbf{F} )$ 求括号内矩阵的对角线上所有元素的和，即为求得拉普拉斯矩阵 $\mathbf{L}_U$ 的所有特征值之和。

因此，我们在公式 $(4)$ 中添加了一个秩约束 $\mathbf{L}_U ) = n − c$ ，通过上面的定理2，目标公式变为：
$\mathop{\min}_{\{ \mathbf{S}^v \}, \mathbf{U}} \sum_{v=1}^{m} \sum_{i,j=1}^{n} \parallel \mathbf{x}_i^v - \mathbf{x}_j^v \parallel^2_2 s^v_{ij} + \beta \sum_{v=1}^{m} \sum_{i}^{n} \parallel \mathbf{s}_i^v \parallel^2_2 \\ + \sum_{v=1}^{m} w_v \parallel \mathbf{U} - \mathbf{S}^v \parallel^2_F + 2 \lambda Tr( \mathbf{F}^T \mathbf{L}_U \mathbf{F} ) \\ s.t. \forall v, s_{ii}^v = 0, s_{ij}^v \geq 0, \mathbf{1}^T \mathbf{s}_i^v = 1, \\ u_{ij} \geq 0, \mathbf{1}^T \mathbf{u}_i=1, \mathbf{F}^T \mathbf{F} = \mathbf{I} \tag{6}$
其中， $\lambda$ 是一个参数，且它的值由 $c$ 个簇决定（In practice, we increase or decrease the value of $\lambda$ when the number of connected components is smaller or greater than $c$ . ）。

三、OPTIMIZATION ALGORITHMS

1、初始化每个变量

初始化 SIG 矩阵 $\mathbf{S}^v$ ：每个维度为 $d_{v} \times n$ 的视图矩阵 $\mathbf{X}^v$ 都会生成一个维度为 $\times n$ 的SIG 矩阵 $\mathbf{S}^v$ ，其中每一行表示一个数据点【可以根据 $k$ 个邻居点进行构建 – 选取按从大到小排好序的一行的前 k+1 个元素】；
$s_{ij} = \left\{ \begin{array}{ll} \frac{b_{i,k+1} - b_{ij}}{k b_{i, k+1} - \sum_{h=1}^k b_{ih}} &j \leq k \\ 0 & j > k \end{array} \right.$
其中， $b_{ij} = \|\mathbf{x}_i^v - \mathbf{x}_j^v \|_2^2$ ， $k$ 是邻居点的个数。
初始化 $w_v$ ：每个元素均为 $\frac{1}{m}$ ，且维度为 $\times 1$ ；
初始化 $\mathbf{U}$ ：公式 $(2)$ ，根据上一步得到 SIG 矩阵，生成一个 $\times n$ 的矩阵 $\mathbf{U}$ ，；
初始化 $\mathbf{F}$ ：公式 $(5)$ ，先得到 $\mathbf{U}$ 的拉普拉斯矩阵 $\mathbf{L}_U (n \times n)$ ，再对这个 $\mathbf{L}_U$ 进行 eig() 计算得到特征向量和特征值，其中维度为 $\times c$ 的特征向量就是 $\mathbf{F}$ ，而特征值的维度为 $\times 1$ 。

[V, D] = eig(A)：在 matlab 中这个函数求解方阵 A 的特征值和特征向量，返回得到的 V 是特征向量，而 D 是对角矩阵，对角元素为与特征向量所对应的特征值，且没有排序关系。

2、循环更新这些变量

固定 $w,\mathbf{U},\mathbf{F}$ ，逐个更新每个视图的相似度 $\mathbf{S}^v$ ，问题 $(6)$ 变为：
$\mathop{\min}_{\mathbf{S}^v} \sum_{v=1}^{m} \sum_{i,j=1}^{n} \parallel \mathbf{x}_i^v - \mathbf{x}_j^v \parallel^2_2 s^v_{ij} + \beta \sum_{v=1}^{m} \sum_{i}^{n} \parallel \mathbf{s}_i^v \parallel^2_2 + \sum_{v=1}^{m} w_v \parallel \mathbf{U} - \mathbf{S}^v \parallel^2_F \\s.t. s_{ii}^v = 0, s_{ij}^v \geq 0, \mathbf{1}^T \mathbf{s}_i^v = 1 \tag{7}$
实际上，我们不需要选择全部的特征，而是选择具有较高相似度的点。也就是说，我们在 $\mathbf{S}^v$ 中学习 $\mathbf{S}^v_i$ （一个数据点 (行) 中选择 $k$ 个特征），从数据点的邻居中找出 $k$ 个最高的相似度值作为学习的目标。因此变化为：
$s_{ij}^v = \left\{ \begin{array}{ll} \frac{e_{i,k+1} - e_{ij} + 2 w_v u_{ij} - 2 w_v u_{i, k+1}}{k e_{i, k+1} - \sum_{h=1}^k e_{ih} - 2k w_v u_{i,k+1} + \sum_{h=1}^k w_v u_{ih}} &j \leq k \\ 0 & j > k \end{array} \right. \tag{8}$
其中， $e_{ij} = \parallel \mathbf{x}_i^v - \mathbf{x}_j^v \parallel^2_2$
固定 $\mathbf{S}^1, ..., \mathbf{S}^m, \mathbf{U},\mathbf{F}$ ，更新权重 $w_v$ ，则根据等式 ( $3$ ) 直接求得；
固定 $\mathbf{S}^1, ..., \mathbf{S}^m, w_v,\mathbf{F}$ ，更新 $\mathbf{U}$ ，当 $Tr(\mathbf{F}^T \mathbf{L}_U \mathbf{F}) = \frac{1}{2}\sum_{i,j} \parallel \mathbf{f}_i - \mathbf{f}_j \parallel^2_2 u_{ij}$ ，且求解单个的 $\mathbf{u}_i$ （注意条件关于 $s_{ij}$ 的范围），则问题 $(6)$ 变成：
$\mathop{\min}_{\mathbf{u}_i} \sum_{v=1}^{m} \sum_{j=1}^{n} w_v (u_{ij} - s_{ij}^v)^2 + \lambda \sum_{j=1}^{n} \parallel \mathbf{f}_i - \mathbf{f}_j \parallel^2_2 u_{ij} \\ s.t. \forall i, u_{ij} \geq 0, \mathbf{1}^T \mathbf{u}_i=1 . \tag{9}$
其中，将 $d_{ij} = \parallel \mathbf{f}_i - \mathbf{f}_j \parallel^2_2$ ，则 $(9)$ 变为（通过额外的步骤）：
$\mathop{\min}_{\mathbf{u}_i} \sum_{v=1}^{m} \parallel \mathbf{u}_i - \mathbf{s}_i^v + \frac{\lambda}{2 m w_v}\mathbf{d}_i \parallel^2_2 \\ s.t. \forall i, u_{ij} \geq 0, \mathbf{1}^T \mathbf{u}_i=1 . \tag{10}$
关于 $u_{ij}$ 的求解需要参考 4.2 章节。
固定 $\mathbf{S}^1, ..., \mathbf{S}^m, w_v, \mathbf{U}$ ，更新 $\mathbf{F}$ ：根据公式 $(5)$ 更新，过程跟初始化差不多，需要 $\mathbf{U}$ 的参与。
当迭代次数或 $\lambda$ 大小到一定范围后，循环结束，得到最终 $\mathbf{U}$ 。
对 $\mathbf{U}$ 直接使用 graphconncomp() 函数进行求解，得到图的连通分量的个数以及每个数据点对应的连通分量。

graphconncomp 函数是 MATLAB 中用于计算图的连通分量的函数。[S, C] = graphconncomp(sparse(A)) ：S 是连通分量的数量，C 是每个节点的连通分量标签。
然而在 MATLAB R2022b 及之后的版本中，该函数已被删除或不推荐使用，后续的版本可以用 conncomp 函数来代替。

文章中，模型执行流程