Spectral clustering via ensemble deep autoencoder learning (SC-EDAE)

最新推荐文章于 2024-07-11 12:18:33 发布

OFF JUMPOL

最新推荐文章于 2024-07-11 12:18:33 发布

阅读量206

点赞数 1

分类专栏：计算数学文章标签：聚类

本文链接：https://blog.csdn.net/qq_34179307/article/details/124583216

版权

计算数学专栏收录该内容

7 篇文章 0 订阅

订阅专栏

论文：2020 Pattern Recognition

网络结构

给定数据矩阵 $\in R^{n×d}$ ，首先使用 $m$ 个不同超参数的AutoEncoder（由PCA构建）进行训练，得到中间层表示 $\{Y_l \}_{l \in [1, m]}$ 。然后通过每个 $Y_l$ 构造一个图相似度矩阵 $S_l$ 并将其融合成一个集成的图相似矩阵 $\bar S$ 。最后，在 $\bar S$ 上应用谱聚类方法。

接下来我们从谱聚类切入，详细介绍相似矩阵的构建过程。

谱聚类

这里使用的是对称拉普拉斯矩阵。
$L_{sym} =D^{−1/2}LD^{−1/2} = I - D^{−1/2}WD^{−1/2}$

对于无向图 $G$ 的切图，我们的目标是将图 $G (V, E)$ 切成相互没有连接的k个子图，每个子图点的集合为： $A_1,A_2,...,A_k$ ，它们满足 $A_i∩A_j=∅$ ,且 $A_1∪A_2∪...∪A_k=V$ .

对于任意两个子图点的集合 $A, B \subset V, A \cap B = \emptyset$ , 我们定义 $A$ 和 $B$ 之间的切图权重为：
$\sum\limits_{i \in A, j \in B}w_{ij}$

那么对于我们 $k$ 个子图点的集合： $A_1,A_2,...,A_k$ ，我们定义切图cut为：
$cut(A_1,A_2,...A_k) = \frac{1}{2}\sum\limits_{i=1}^{k}W(A_i, \overline{A}_i )$

其中 $\bar A_i$ 为 $A_i$ 的补集，意为除 $A_i$ 子集外其他 $V$ 的子集的并集。

那么如何切图可以让子图内的点权重和高，子图间的点权重和低呢？一个自然的想法就是最小化 $cut(A_1,A_2,...,A_k)$ , 但是可以发现，这种极小化的切图存在问题，如下图

　我们选择一个权重最小的边缘的点，比如C和H之间进行cut，这样可以最小化 $cut(A_1,A_2,...,A_k)$ , 但是却不是最优的切图，如何避免这种切图，并且找到类似图中"Best Cut"这样的最优切图呢，可以用下面的Ncut的切图方法。

Ncut切图

对每个切图，不光考虑最小化cut(A1,A2,…Ak)，它还同时考虑最大化每个子图点的权重
$NCut(A_1,A_2,...A_k) = \frac{1}{2}\sum\limits_{i=1}^{k}\frac{W(A_i, \overline{A}_i )}{vol(A_i)}$

那么怎么最小化这个Ncut函数呢？牛人们发现，Ncut函数可以通过如下方式表示。
我们引入指示向量 $h_j∈\{h_1,h_2,...,h_k\}$ , $j = 1, 2, . . . k,$ 对于任意一个向量 $h_j$ , 它是一个n维向量（n为样本数），我们定义 $h_{ij}$ 为：
$h_{ij}= \begin{cases} 0& { v_i \notin A_j}\\ \frac{1}{\sqrt{vol(A_j)}}& { v_i \in A_j} \end{cases}$
那么我们对于 $h_i^TLh_i$ ，我们有
我们的优化目标是
$NCut(A_1,A_2,...A_k) = \sum\limits_{i=1}^{k}h_i^TLh_i = \sum\limits_{i=1}^{k}(H^TLH)_{ii} = tr(H^TLH)$
但是此时我们的 $H^TH \neq I$ ，而是 $H^TDH = I$ 。推导如下：
$h_i^TDh_i = \sum\limits_{j=1}^{n}h_{ij}^2d_j =\frac{1}{vol(A_i)}\sum\limits_{j \in A_i}d_j= \frac{1}{vol(A_i)}vol(A_i) =1$
也就是说，此时我们的优化目标最终为
$\underbrace{arg\;min}_H\; tr(H^TLH) \;\; s.t.\;H^TDH=I$

此时我们的H中的指示向量h并不是标准正交基，所以将指示向量矩阵H做一个小小的转化。
我们令 $H = D^{-1/2}F$ ，则 $H^TLH = F^TD^{-1/2}LD^{-1/2}F, H^TDH=F^TF = I$ ，也就是说优化目标变成了:
$\underbrace{arg\;min}_F\; tr(F^TD^{-1/2}LD^{-1/2}F) \;\; s.t.\;F^TF=I$

求出 $D^{-1/2}LD^{-1/2}$ 的最小的前 $k$ 个特征值，然后求出对应的特征向量，并标准化，得到最后的特征矩阵 $F$ ,最后对F进行一次传统的聚类（比如K-Means）即可。
一般来说， $D^{-1/2}LD^{-1/2}$ 相当于对拉普拉斯矩阵L做了一次标准化，即 $\frac{L_{ij}}{\sqrt{d_i*d_j}}$ 。

回归本文

$L_{sym} =D^{−1/2}LD^{−1/2} = I - D^{−1/2}WD^{−1/2}$
最小化 $L_{sym}$ 就是最大化 $D^{−1/2}WD^{−1/2}$

（1）的解是S的最大k个特征值，B是其对应的最大k个特征向量，对B的每一行进行归一化后再使用K-means分类。

构建邻接矩阵

使用Landmark 和AnchorGraph的思想对原始的n个表示进行了转换。
利用K-Means选取p个点作为landmark；计算landmark与剩余数据之间相似度矩阵Z，用p线性表示n个数据。在这里插入图片描述
邻接矩阵 $S_l$ 用 $Z_l$ 表示：
$S_l = Z_l \Lambda ^{-1} Z_l^T \\ \Lambda = \sum^n_{ i=1} Z^l_{ij}$
进一步表示：

最终整体的方式采用多个亲和度矩阵平均的方法：

优化算法

不直接求B对应的最大k个特征向量，而是求U

最小化 $BB^TZ||^2_F$ ，就是最大化 $||BB^TZ||^2_F$ ，根据 $||M||^2_F=Tr[M^TM]$ ，
所以 $||BB^TZ||^2_F = Tr[(BB^TZ)^T(BB^TZ)] \\ \qquad \qquad \qquad \quad=Tr[Z^TBB^TBB^TZ] \\ \qquad \qquad \qquad \quad=Tr[Z^TBB^TZ]$
根据 $T r [A B] = T r [B A]$ 得到 $Tr[Z^TBB^TZ]=Tr[B^TZZ^TB]$
在这里插入图片描述

参考链接:
Large Scale Spectral Clustering with Landmark-Based Representation (in Julia)
Large Scale Spectral Clustering with Landmark-Based Representation
Large Graph Construction for Scalable Semi-Supervised Learning
谱聚类（spectral clustering）原理总结-刘建平

OFF JUMPOL

关注

1
点赞
踩
1

收藏

觉得还不错? 一键收藏
2
评论
Spectral clustering via ensemble deep autoencoder learning (SC-EDAE)

论文：2020 Pattern Recognition参考链接:Large Scale Spectral Clustering with Landmark-Based Representation (in Julia)Large Scale Spectral Clustering with Landmark-Based Representation[Large Graph Construction for Scalable Semi-Supervised Learning](https://icml
复制链接

扫一扫