【论文笔记】Deep Spectral Clustering With Constrained Laplacian Rank(DSCCLR)

Deep Spectral Clustering With Constrained Laplacian Rank

具有拉普拉斯秩约束的深度谱聚类

论文来源:Deep Spectral Clustering With Constrained Laplacian Rank, TNNLS, 2022.

Abstract

  1. 谱聚类 (Spectral clustering, SC) 缺陷:
    • 大规模数据集上的效率问题
    • 可扩展性问题
  2. 提出一种新的基于SC的高效深度聚类架构(deep SC with constrained Laplacian rank, DSCCLR)
    • 过约束拉普拉斯秩建立了一个具有聚类友好结构的自适应亲和矩阵,极大地挖掘了内在关系。
    • 通过在最后一层引入具有正交性约束的简单全连接网络,在较短的训练时间内学习到判别表示。
  3. 该方法特点:
    • 克服了现有DSC方法泛化能力和可扩展性的局限性
    • 挖掘亲和矩阵中样本间的内在关系,尽可能保持数据的潜在流形
    • 通过一个简单而有效的全连通网络,降低了特征分解的复杂度。
  4. 实验验证性能良好

关键字:约束拉普拉斯秩,嵌入网络,特征提取,谱聚类(SC),无监督学习。

1. Introduction

  1. 聚类:重要的无监督任务处理方法。通过距离度量将相似数据分配到同一个簇,
  2. 一些聚类算法的不足:
    • 层次聚类:复杂度太高,且依赖聚类的分裂点和合并点的选择。
    • 密度距离:不能处理密度和不同簇之间距离变化太多的簇。
    • CAN[11]:通过为每个数据点分配自适应邻居来学习亲和矩阵,学习到的亲和包含清晰的聚类结构。无法承受大规模的数据集。
    • Zeta l-links:无法承担大规模数据集的复杂性。
  3. 谱聚类 (Spectral clustering, SC) 对数据分布不敏感,通过特征分解进行求解。难以处理大规模数据集上
  4. 深度谱聚类 (DSC):
    • 深度嵌入聚类 (Deep embedding clustering, DEC) 通过KL散度的迭代优化同时进行表示学习和聚类分配
      • 利用自编码器(Autoencoder, AE) 学习低秩表示 (low-rank representations, LRRs)
      • 利用局部保持约束以保持输入数据的局部结构特征。
    • InfoGAN[35] 以无监督的方式学习解纠缠表示,最小化观测值与GAN的固定噪声变量子集之间的互信息以进行聚类。
  5. 提出方法:
    • 引入了一个基于约束拉普拉斯秩的自适应距离度量,来计算每次迭代时批次样本的相似度矩阵。
    • FC最后一层施加正交性约束来近似特征向量,而非采用特征分解方法求解。
    • 测试时无需计算相似性
  6. 贡献:
    • 提出了一种新的DSC并行结构,具有良好的泛化能力和可扩展性,DSCCLR解决了样本外扩展的问题。
    • 使用自适应亲和矩阵,可有效地挖掘复杂流形数据集中数据对之间的相似性。
    • 使用FC网络学习映射函数,通过在最后一层施加正交性约束来近似特征向量。

2. Related Works

A. Spectral Clustring

数据集: X = { x i } i = 1 n \mathcal{X}=\left\{\mathbf{x}_i\right\}_{i=1}^n X={ xi}i=1n;样本数量: n n n

  1. 通过距离度量构造了一个无向加权图 G = { X , S } \mathcal{G}=\{\mathcal{X}, \mathbf{S}\} G={ X,S}
    • X \mathcal{X} X:顶点
    • S ∈ R n × n \mathbf{S} \in \mathbb{R}^{n \times n} SRn×n:邻接矩阵
      S i j = { exp ⁡ ( − ∥ x i − x j ∥ 2 σ 2 ) , x i  and  x j  are neighbors  0 ,  otherwise  \mathbf{S}_{i j}= \begin{cases}\exp \left(-\frac{\left\|\mathbf{x}_i-\mathbf{x}_j\right\|^2}{\sigma^2}\right), & \mathbf{x}_i \text { and } \mathbf{x}_j \text { are neighbors } \\ 0, & \text { otherwise }\end{cases} Sij={ exp(σ2xixj2),0,xi and xj are neighbors  otherwise 
      σ \sigma σ调整邻域的大小
  2. 定义 C = [ c 1 , c 2 , … , c n ] T \mathbf{C}=\left[c_1, c_2, \ldots, c_n\right]^{\mathrm{T}} C=[c1,c2,,cn]T:数据集的分配概率矩阵。
  3. 度矩阵: D \mathbf{D} D;拉普拉斯矩阵: L = D − S \mathbf{L}=\mathbf{D}-\mathbf{S} L=DS
  4. 引入
    • H = C ( C T D C ) − 1 / 2 \mathbf{H}=\mathbf{C}\left(\mathbf{C}^{\mathrm{T}} \mathbf{D C}\right)^{-1 / 2} H=C(CTDC)1/2
    • I k \mathbf{I}_k Ik 为单位矩阵.
  5. 任务为

min ⁡ H T D H = I k Tr ⁡ ( H T S H ) \begin{equation} \min _{\mathbf{H}^{\mathrm{T}} \mathbf{D H}=\mathbf{I}_k} \operatorname{Tr}\left(\mathbf{H}^{\mathrm{T}} \mathbf{S H}\right) \end{equation} HTDH=IkminTr(HTSH)

  1. 引入簇分配矩阵: A ‾ = D 1 / 2 H = D 1 / 2 C ( C T D C ) − 1 / 2 = f ( C ) \overline{\mathbf{A}}=\mathbf{D}^{1 / 2} \mathbf{H}=\mathbf{D}^{1 / 2} \mathbf{C}\left(\mathbf{C}^{\mathrm{T}} \mathbf{D C}\right)^{-1 / 2}=f(\mathbf{C}) A=D1/2H=D1/2C(CTDC)1/2=f(C)
  2. (1) 变换为

min ⁡ A ‾ T A ‾ = I k Tr ⁡ ( A ‾ T D − 1 2 S D − 1 2 A ‾ ) . \begin{equation} \min _{\overline{\mathbf{A}}^{\mathrm{T}} \overline{\mathbf{A}}=\mathbf{I}_k} \operatorname{Tr}\left(\overline{\mathbf{A}}^{\mathrm{T}} \mathbf{D}^{-\frac{1}{2}} \mathbf{S D}^{-\frac{1}{2}} \overline{\mathbf{A}}\right) . \end{equation} ATA=IkminTr(ATD21SD21A).

  1. A ‾ \overline{\mathbf{A}} A 离散,(2) 难以解决。将 A ‾ \overline{\mathbf{A}} A松弛为连续值,引入 A ∈ R n × k \mathbf{A} \in \mathbb{R}^{n \times k} ARn×k M = D − 1 / 2 S D − 1 / 2 \mathbf{M}=\mathbf{D}^{-1 / 2} \mathbf{S D}^{-1 / 2} M=D1/2SD1/2
  2. 问题重写为

min ⁡ A T A = I k Tr ⁡ ( A T M A ) \begin{equation} \min _{\mathbf{A}^{\mathrm{T}} \mathbf{A}=\mathbf{I}_k} \operatorname{Tr}\left(\mathbf{A}^{\mathrm{T}} \mathbf{M} \mathbf{A}\right) \end{equation} ATA=IkminTr(ATMA)

  1. 矩阵 A \mathbf{A} A 可以通过 M \mathbf{M} M 的特征分解得到
  2. 最后,通过经典的K-Means算法将 A \mathbf{A} A 分为 k k k 个簇[39].

数据集的谱嵌入 A \mathbf{A} A 可以通过对图拉普拉斯矩阵的简单特征值分解得到。

存在的问题:

  • 大规模数据集时,计算复杂度令人望而却步
  • 难以处理样本外扩展问题,这极大地影响了有效性和实用性。

B. Deep Clustering

  1. 传统的聚类方法通常不适用于高维数据,而深度度神经网络(DNN)具有强大的非线性表示能力,。
  2. 深度学习的成功大多依赖于监督学习,但聚类也十分重要
  3. DSC使用一个编码器和两个解码器对网络进行训练,以获得用于聚类的判别特征,并通过神经网络实现聚类分配,因此最终的损失函数包括三个项,两个重建损失项和一个聚类分配损失项。然而,最终的聚类结果需要花很长时间来调整,因为要反复测试几个超参数(λ、γ和δ)。
  4. DSCL提出了一种新的基于SC的度量学习框架,优化了梯度的计算步骤,将复杂度降低到线性复杂度。而传统的基于梯度的聚类方法虽然大大加快了训练过程,但对最终聚类结果并没有明显的改善。
  5. SpectralNet通过全连接神经网络学习映射函数,克服了样本外扩展和可扩展性问题,而全连接神经网络在训练前需要通过暹罗 (Siamese) 网络计算亲和力矩阵。暹罗网的预训练耗时且难以收敛。
  6. 堆叠去噪自编码器 (DAEs)将目标从简单的重建转换为更具挑战性的去噪任务,并通过深度信念网络弥合性能差距。解决了传统AE无法学习有用的数据集过完全表示的理论缺陷。作为一种有效的预训练策略,DAE在聚类任务中也显示了它的潜力。
  7. HIT、HOE和HOT采用三种不同的距离度量,基于一种新颖的样本分配不变性先验,通过最小化数据点分配之间的差异,这是通过完全连接的网络实现的端到端方法。
  8. 所有这些DSC方法都集中在一个切入点上,要么加快训练过程,要么提高表示能力,要么解决样本外扩展问题,这些方法都不适合各种复杂的数据集,因为它们的弹性较差
  9. 与这些深度聚类方法不同的是,该方法在每次训练迭代之前通过自适应邻居有效地获得亲和矩阵。使用全连接网络来估计特征向量。

3. Methodology

提出了具有拉普拉斯秩约束的深度谱嵌入聚类,其架构包括如图1所示的两个分支。使用谱约束来训练网络,并分别通过网络分支和亲和矩阵分支计算嵌入表示 y i \mathbf{y}_i yi y j \mathbf{y}_j yj和相似度 S i j \mathbf{S}_{ij} Sij

图1 DSCCLR架构。绿色的层代表正交层。首先,采样一个batch,输入到嵌入网络中,得到嵌入表示 Y ^ m \mathbf{\hat{Y}}_m Y^m,然后根据 X m \mathbf{X}_m Xm E \mathbf{E} E 计算亲和矩阵。注意,在计算亲和矩阵之前,使用 Y m \mathbf{Y}_m Ym更新 E \mathbf{E} E。最后,根据 S \mathbf{S} S Y ^ m \mathbf{\hat{Y}}_m Y^m 同时计算损失。通过最小化每次迭代中的损失 L θ \mathcal{L}_{\theta} Lθ 来训练嵌入网络。虚线表示训练迭代。网络训练完成后,在测试中一次性输入原始数据集,就可以通过网络获得嵌入表示。

A. 基于约束拉普拉斯秩的自适应关联矩阵

  • 数据: X = { x 1 , x 2 , … , x n } \mathcal{X}=\left\{\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n\right\} X={ x1,x2,,xn}, 维度为: d d d,数据矩阵: X ∈ R n × d \mathbf{X} \in \mathbb{R}^{n \times d} XRn×d
  • 利用 k N N k\mathrm{NN} kNN 算法为 x i \mathbf{x}_i xi 分配近邻
  • 使用欧氏距离 ∥ x i − x j ∥ 2 2 \left\|\mathbf{x}_i-\mathbf{x}_j\right\|_2^2 xixj22来定义两个数据点之间 x i \mathbf{x}_i xi x j \mathbf{x}_j xj 的相似度:距离越小, S i j \mathbf{S}_{i j} Sij 越大
  • s i \mathbf{s}_i si S \mathbf{S} S 的第 i i i 行的转置, S i j \mathbf{S}_{i j} Sij是它的第 j j j 项。 0 ⩽ s i ⩽ 1 0 \leqslant \mathbf{s}_i \leqslant 1 0si1 表示 s i \mathbf{s}_i si 中的每个元素都大于等于 0 且小于等于 1 。相似性可以定义为

min ⁡ s i T 1 = 1 , 0 ⩽ s i ⩽ 1 ∑ j = 1 n ∥ x i − x j ∥ 2 2 S i j

评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值