【论文笔记】Deep Spectral Clustering With Constrained Laplacian Rank（DSCCLR）

wonder_if_

已于 2024-07-01 16:22:54 修改

阅读量719

点赞数 21

分类专栏：深度学习论文文章标签：论文阅读深度学习聚类

于 2024-07-01 16:15:31 首次发布

本文链接：https://blog.csdn.net/qq_42200733/article/details/140103694

版权

Deep Spectral Clustering With Constrained Laplacian Rank

具有拉普拉斯秩约束的深度谱聚类

论文来源：Deep Spectral Clustering With Constrained Laplacian Rank, TNNLS, 2022.

Abstract

谱聚类 (Spectral clustering, SC) 缺陷：
- 大规模数据集上的效率问题
- 可扩展性问题
提出一种新的基于SC的高效深度聚类架构（deep SC with constrained Laplacian rank, DSCCLR)
- 过约束拉普拉斯秩建立了一个具有聚类友好结构的自适应亲和矩阵，极大地挖掘了内在关系。
- 通过在最后一层引入具有正交性约束的简单全连接网络，在较短的训练时间内学习到判别表示。
该方法特点：
- 克服了现有DSC方法泛化能力和可扩展性的局限性
- 挖掘亲和矩阵中样本间的内在关系，尽可能保持数据的潜在流形
- 通过一个简单而有效的全连通网络，降低了特征分解的复杂度。
实验验证性能良好

关键字：约束拉普拉斯秩，嵌入网络，特征提取，谱聚类(SC)，无监督学习。

1. Introduction

聚类：重要的无监督任务处理方法。通过距离度量将相似数据分配到同一个簇，
一些聚类算法的不足：
- 层次聚类：复杂度太高，且依赖聚类的分裂点和合并点的选择。
- 密度距离：不能处理密度和不同簇之间距离变化太多的簇。
- CAN[11]：通过为每个数据点分配自适应邻居来学习亲和矩阵，学习到的亲和包含清晰的聚类结构。无法承受大规模的数据集。
- Zeta l-links：无法承担大规模数据集的复杂性。
谱聚类 (Spectral clustering, SC) 对数据分布不敏感，通过特征分解进行求解。难以处理大规模数据集上
深度谱聚类 (DSC)：
- 深度嵌入聚类 (Deep embedding clustering, DEC) 通过KL散度的迭代优化同时进行表示学习和聚类分配
  - 利用自编码器(Autoencoder, AE) 学习低秩表示 (low-rank representations, LRRs)
  - 利用局部保持约束以保持输入数据的局部结构特征。
- InfoGAN[35] 以无监督的方式学习解纠缠表示，最小化观测值与GAN的固定噪声变量子集之间的互信息以进行聚类。
提出方法：
- 引入了一个基于约束拉普拉斯秩的自适应距离度量，来计算每次迭代时批次样本的相似度矩阵。
- FC最后一层施加正交性约束来近似特征向量，而非采用特征分解方法求解。
- 测试时无需计算相似性
贡献：
- 提出了一种新的DSC并行结构，具有良好的泛化能力和可扩展性，DSCCLR解决了样本外扩展的问题。
- 使用自适应亲和矩阵，可有效地挖掘复杂流形数据集中数据对之间的相似性。
- 使用FC网络学习映射函数，通过在最后一层施加正交性约束来近似特征向量。

2. Related Works

A. Spectral Clustring

数据集： $\mathcal{X}=\left\{\mathbf{x}_i\right\}_{i=1}^n$ ；样本数量： $n$

通过距离度量构造了一个无向加权图 $\mathcal{G}=\{\mathcal{X}, \mathbf{S}\}$
- $\mathcal{X}$ ：顶点
- $\mathbf{S} \in \mathbb{R}^{n \times n}$ ：邻接矩阵
  $\mathbf{S}_{i j}= \begin{cases}\exp \left(-\frac{\left\|\mathbf{x}_i-\mathbf{x}_j\right\|^2}{\sigma^2}\right), & \mathbf{x}_i \text { and } \mathbf{x}_j \text { are neighbors } \\ 0, & \text { otherwise }\end{cases}$
  $\sigma$ 调整邻域的大小
定义 $\mathbf{C}=\left[c_1, c_2, \ldots, c_n\right]^{\mathrm{T}}$ ：数据集的分配概率矩阵。
度矩阵： $\mathbf{D}$ ；拉普拉斯矩阵： $\mathbf{L}=\mathbf{D}-\mathbf{S}$
引入
- $\mathbf{H}=\mathbf{C}\left(\mathbf{C}^{\mathrm{T}} \mathbf{D C}\right)^{-1 / 2}$
- $\mathbf{I}_k$ 为单位矩阵.
任务为

$\begin{equation} \min _{\mathbf{H}^{\mathrm{T}} \mathbf{D H}=\mathbf{I}_k} \operatorname{Tr}\left(\mathbf{H}^{\mathrm{T}} \mathbf{S H}\right) \end{equation}$

引入簇分配矩阵： $\overline{\mathbf{A}}=\mathbf{D}^{1 / 2} \mathbf{H}=\mathbf{D}^{1 / 2} \mathbf{C}\left(\mathbf{C}^{\mathrm{T}} \mathbf{D C}\right)^{-1 / 2}=f(\mathbf{C})$
(1) 变换为

$\begin{equation} \min _{\overline{\mathbf{A}}^{\mathrm{T}} \overline{\mathbf{A}}=\mathbf{I}_k} \operatorname{Tr}\left(\overline{\mathbf{A}}^{\mathrm{T}} \mathbf{D}^{-\frac{1}{2}} \mathbf{S D}^{-\frac{1}{2}} \overline{\mathbf{A}}\right) . \end{equation}$

$\overline{\mathbf{A}}$ 离散，(2) 难以解决。将 $\overline{\mathbf{A}}$ 松弛为连续值，引入 $\mathbf{A} \in \mathbb{R}^{n \times k}$ ， $\mathbf{M}=\mathbf{D}^{-1 / 2} \mathbf{S D}^{-1 / 2}$
问题重写为

$\begin{equation} \min _{\mathbf{A}^{\mathrm{T}} \mathbf{A}=\mathbf{I}_k} \operatorname{Tr}\left(\mathbf{A}^{\mathrm{T}} \mathbf{M} \mathbf{A}\right) \end{equation}$

矩阵 $\mathbf{A}$ 可以通过 $\mathbf{M}$ 的特征分解得到
最后，通过经典的K-Means算法将 $\mathbf{A}$ 分为 $k$ 个簇[39].

数据集的谱嵌入 $\mathbf{A}$ 可以通过对图拉普拉斯矩阵的简单特征值分解得到。

存在的问题：

大规模数据集时，计算复杂度令人望而却步
难以处理样本外扩展问题，这极大地影响了有效性和实用性。

B. Deep Clustering

传统的聚类方法通常不适用于高维数据，而深度度神经网络（DNN）具有强大的非线性表示能力，。
深度学习的成功大多依赖于监督学习，但聚类也十分重要
DSC使用一个编码器和两个解码器对网络进行训练，以获得用于聚类的判别特征，并通过神经网络实现聚类分配，因此最终的损失函数包括三个项，两个重建损失项和一个聚类分配损失项。然而，最终的聚类结果需要花很长时间来调整，因为要反复测试几个超参数(λ、γ和δ)。
DSCL提出了一种新的基于SC的度量学习框架，优化了梯度的计算步骤，将复杂度降低到线性复杂度。而传统的基于梯度的聚类方法虽然大大加快了训练过程，但对最终聚类结果并没有明显的改善。
SpectralNet通过全连接神经网络学习映射函数，克服了样本外扩展和可扩展性问题，而全连接神经网络在训练前需要通过暹罗 (Siamese) 网络计算亲和力矩阵。暹罗网的预训练耗时且难以收敛。
堆叠去噪自编码器 (DAEs)将目标从简单的重建转换为更具挑战性的去噪任务，并通过深度信念网络弥合性能差距。解决了传统AE无法学习有用的数据集过完全表示的理论缺陷。作为一种有效的预训练策略，DAE在聚类任务中也显示了它的潜力。
HIT、HOE和HOT采用三种不同的距离度量，基于一种新颖的样本分配不变性先验，通过最小化数据点分配之间的差异，这是通过完全连接的网络实现的端到端方法。
所有这些DSC方法都集中在一个切入点上，要么加快训练过程，要么提高表示能力，要么解决样本外扩展问题，这些方法都不适合各种复杂的数据集，因为它们的弹性较差
与这些深度聚类方法不同的是，该方法在每次训练迭代之前通过自适应邻居有效地获得亲和矩阵。使用全连接网络来估计特征向量。

3. Methodology

提出了具有拉普拉斯秩约束的深度谱嵌入聚类，其架构包括如图1所示的两个分支。使用谱约束来训练网络，并分别通过网络分支和亲和矩阵分支计算嵌入表示 $\mathbf{y}_i$ 、 $\mathbf{y}_j$ 和相似度 $\mathbf{S}_{ij}$ 。

图1 DSCCLR架构。绿色的层代表正交层。首先，采样一个batch，输入到嵌入网络中，得到嵌入表示 $\mathbf{\hat{Y}}_m$ ，然后根据 $\mathbf{X}_m$ 和 $\mathbf{E}$ 计算亲和矩阵。注意，在计算亲和矩阵之前，使用 $\mathbf{Y}_m$ 更新 $\mathbf{E}$ 。最后，根据 $\mathbf{S}$ 和 $\mathbf{\hat{Y}}_m$ 同时计算损失。通过最小化每次迭代中的损失 $\mathcal{L}_{\theta}$ 来训练嵌入网络。虚线表示训练迭代。网络训练完成后，在测试中一次性输入原始数据集，就可以通过网络获得嵌入表示。

A. 基于约束拉普拉斯秩的自适应关联矩阵

数据： $\mathcal{X}=\left\{\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n\right\}$ , 维度为： $d$ ，数据矩阵： $\mathbf{X} \in \mathbb{R}^{n \times d}$
利用 $k\mathrm{NN}$ 算法为 $\mathbf{x}_i$ 分配近邻
使用欧氏距离 $\left\|\mathbf{x}_i-\mathbf{x}_j\right\|_2^2$ 来定义两个数据点之间 $\mathbf{x}_i$ 和 $\mathbf{x}_j$ 的相似度：距离越小， $\mathbf{S}_{i j}$ 越大
记 $\mathbf{s}_i$ 是 $\mathbf{S}$ 的第 $i$ 行的转置， $\mathbf{S}_{i j}$ 是它的第 $j$ 项。 $\leqslant \mathbf{s}_i \leqslant 1$ 表示 $\mathbf{s}_i$ 中的每个元素都大于等于 0 且小于等于 1 。相似性可以定义为

最低0.47元/天解锁文章