【论文笔记】Deep Spectral Clustering With Constrained Laplacian Rank(DSCCLR)

Deep Spectral Clustering With Constrained Laplacian Rank

具有拉普拉斯秩约束的深度谱聚类

论文来源:Deep Spectral Clustering With Constrained Laplacian Rank, TNNLS, 2022.

Abstract

  1. 谱聚类 (Spectral clustering, SC) 缺陷:
    • 大规模数据集上的效率问题
    • 可扩展性问题
  2. 提出一种新的基于SC的高效深度聚类架构(deep SC with constrained Laplacian rank, DSCCLR)
    • 过约束拉普拉斯秩建立了一个具有聚类友好结构的自适应亲和矩阵,极大地挖掘了内在关系。
    • 通过在最后一层引入具有正交性约束的简单全连接网络,在较短的训练时间内学习到判别表示。
  3. 该方法特点:
    • 克服了现有DSC方法泛化能力和可扩展性的局限性
    • 挖掘亲和矩阵中样本间的内在关系,尽可能保持数据的潜在流形
    • 通过一个简单而有效的全连通网络,降低了特征分解的复杂度。
  4. 实验验证性能良好

关键字:约束拉普拉斯秩,嵌入网络,特征提取,谱聚类(SC),无监督学习。

1. Introduction

  1. 聚类:重要的无监督任务处理方法。通过距离度量将相似数据分配到同一个簇,
  2. 一些聚类算法的不足:
    • 层次聚类:复杂度太高,且依赖聚类的分裂点和合并点的选择。
    • 密度距离:不能处理密度和不同簇之间距离变化太多的簇。
    • CAN[11]:通过为每个数据点分配自适应邻居来学习亲和矩阵,学习到的亲和包含清晰的聚类结构。无法承受大规模的数据集。
    • Zeta l-links:无法承担大规模数据集的复杂性。
  3. 谱聚类 (Spectral clustering, SC) 对数据分布不敏感,通过特征分解进行求解。难以处理大规模数据集上
  4. 深度谱聚类 (DSC):
    • 深度嵌入聚类 (Deep embedding clustering, DEC) 通过KL散度的迭代优化同时进行表示学习和聚类分配
      • 利用自编码器(Autoencoder, AE) 学习低秩表示 (low-rank representations, LRRs)
      • 利用局部保持约束以保持输入数据的局部结构特征。
    • InfoGAN[35] 以无监督的方式学习解纠缠表示,最小化观测值与GAN的固定噪声变量子集之间的互信息以进行聚类。
  5. 提出方法:
    • 引入了一个基于约束拉普拉斯秩的自适应距离度量,来计算每次迭代时批次样本的相似度矩阵。
    • FC最后一层施加正交性约束来近似特征向量,而非采用特征分解方法求解。
    • 测试时无需计算相似性
  6. 贡献:
    • 提出了一种新的DSC并行结构,具有良好的泛化能力和可扩展性,DSCCLR解决了样本外扩展的问题。
    • 使用自适应亲和矩阵,可有效地挖掘复杂流形数据集中数据对之间的相似性。
    • 使用FC网络学习映射函数,通过在最后一层施加正交性约束来近似特征向量。

2. Related Works

A. Spectral Clustring

数据集: X = { x i } i = 1 n \mathcal{X}=\left\{\mathbf{x}_i\right\}_{i=1}^n X={xi}i=1n;样本数量: n n n

  1. 通过距离度量构造了一个无向加权图 G = { X , S } \mathcal{G}=\{\mathcal{X}, \mathbf{S}\} G={X,S}
    • X \mathcal{X} X:顶点
    • S ∈ R n × n \mathbf{S} \in \mathbb{R}^{n \times n} SRn×n:邻接矩阵
      S i j = { exp ⁡ ( − ∥ x i − x j ∥ 2 σ 2 ) , x i  and  x j  are neighbors  0 ,  otherwise  \mathbf{S}_{i j}= \begin{cases}\exp \left(-\frac{\left\|\mathbf{x}_i-\mathbf{x}_j\right\|^2}{\sigma^2}\right), & \mathbf{x}_i \text { and } \mathbf{x}_j \text { are neighbors } \\ 0, & \text { otherwise }\end{cases} Sij={exp(σ2xixj2),0,xi and xj are neighbors  otherwise 
      σ \sigma σ调整邻域的大小
  2. 定义 C = [ c 1 , c 2 , … , c n ] T \mathbf{C}=\left[c_1, c_2, \ldots, c_n\right]^{\mathrm{T}} C=[c1,c2,,cn]T:数据集的分配概率矩阵。
  3. 度矩阵: D \mathbf{D} D;拉普拉斯矩阵: L = D − S \mathbf{L}=\mathbf{D}-\mathbf{S} L=DS
  4. 引入
    • H = C ( C T D C ) − 1 / 2 \mathbf{H}=\mathbf{C}\left(\mathbf{C}^{\mathrm{T}} \mathbf{D C}\right)^{-1 / 2} H=C(CTDC)1/2
    • I k \mathbf{I}_k Ik 为单位矩阵.
  5. 任务为

min ⁡ H T D H = I k Tr ⁡ ( H T S H ) \begin{equation} \min _{\mathbf{H}^{\mathrm{T}} \mathbf{D H}=\mathbf{I}_k} \operatorname{Tr}\left(\mathbf{H}^{\mathrm{T}} \mathbf{S H}\right) \end{equation} HTDH=IkminTr(HTSH)

  1. 引入簇分配矩阵: A ‾ = D 1 / 2 H = D 1 / 2 C ( C T D C ) − 1 / 2 = f ( C ) \overline{\mathbf{A}}=\mathbf{D}^{1 / 2} \mathbf{H}=\mathbf{D}^{1 / 2} \mathbf{C}\left(\mathbf{C}^{\mathrm{T}} \mathbf{D C}\right)^{-1 / 2}=f(\mathbf{C}) A=D1/2H=D1/2C(CTDC)1/2=f(C)
  2. (1) 变换为

min ⁡ A ‾ T A ‾ = I k Tr ⁡ ( A ‾ T D − 1 2 S D − 1 2 A ‾ ) . \begin{equation} \min _{\overline{\mathbf{A}}^{\mathrm{T}} \overline{\mathbf{A}}=\mathbf{I}_k} \operatorname{Tr}\left(\overline{\mathbf{A}}^{\mathrm{T}} \mathbf{D}^{-\frac{1}{2}} \mathbf{S D}^{-\frac{1}{2}} \overline{\mathbf{A}}\right) . \end{equation} ATA=IkminTr(ATD21SD21A).

  1. A ‾ \overline{\mathbf{A}} A 离散,(2) 难以解决。将 A ‾ \overline{\mathbf{A}} A松弛为连续值,引入 A ∈ R n × k \mathbf{A} \in \mathbb{R}^{n \times k} ARn×k M = D − 1 / 2 S D − 1 / 2 \mathbf{M}=\mathbf{D}^{-1 / 2} \mathbf{S D}^{-1 / 2} M=D1/2SD1/2
  2. 问题重写为

min ⁡ A T A = I k Tr ⁡ ( A T M A ) \begin{equation} \min _{\mathbf{A}^{\mathrm{T}} \mathbf{A}=\mathbf{I}_k} \operatorname{Tr}\left(\mathbf{A}^{\mathrm{T}} \mathbf{M} \mathbf{A}\right) \end{equation} ATA=IkminTr(ATMA)

  1. 矩阵 A \mathbf{A} A 可以通过 M \mathbf{M} M 的特征分解得到
  2. 最后,通过经典的K-Means算法将 A \mathbf{A} A 分为 k k k 个簇[39].

数据集的谱嵌入 A \mathbf{A} A 可以通过对图拉普拉斯矩阵的简单特征值分解得到。

存在的问题:

  • 大规模数据集时,计算复杂度令人望而却步
  • 难以处理样本外扩展问题,这极大地影响了有效性和实用性。

B. Deep Clustering

  1. 传统的聚类方法通常不适用于高维数据,而深度度神经网络(DNN)具有强大的非线性表示能力,。
  2. 深度学习的成功大多依赖于监督学习,但聚类也十分重要
  3. DSC使用一个编码器和两个解码器对网络进行训练,以获得用于聚类的判别特征,并通过神经网络实现聚类分配,因此最终的损失函数包括三个项,两个重建损失项和一个聚类分配损失项。然而,最终的聚类结果需要花很长时间来调整,因为要反复测试几个超参数(λ、γ和δ)。
  4. DSCL提出了一种新的基于SC的度量学习框架,优化了梯度的计算步骤,将复杂度降低到线性复杂度。而传统的基于梯度的聚类方法虽然大大加快了训练过程,但对最终聚类结果并没有明显的改善。
  5. SpectralNet通过全连接神经网络学习映射函数,克服了样本外扩展和可扩展性问题,而全连接神经网络在训练前需要通过暹罗 (Siamese) 网络计算亲和力矩阵。暹罗网的预训练耗时且难以收敛。
  6. 堆叠去噪自编码器 (DAEs)将目标从简单的重建转换为更具挑战性的去噪任务,并通过深度信念网络弥合性能差距。解决了传统AE无法学习有用的数据集过完全表示的理论缺陷。作为一种有效的预训练策略,DAE在聚类任务中也显示了它的潜力。
  7. HIT、HOE和HOT采用三种不同的距离度量,基于一种新颖的样本分配不变性先验,通过最小化数据点分配之间的差异,这是通过完全连接的网络实现的端到端方法。
  8. 所有这些DSC方法都集中在一个切入点上,要么加快训练过程,要么提高表示能力,要么解决样本外扩展问题,这些方法都不适合各种复杂的数据集,因为它们的弹性较差
  9. 与这些深度聚类方法不同的是,该方法在每次训练迭代之前通过自适应邻居有效地获得亲和矩阵。使用全连接网络来估计特征向量。

3. Methodology

提出了具有拉普拉斯秩约束的深度谱嵌入聚类,其架构包括如图1所示的两个分支。使用谱约束来训练网络,并分别通过网络分支和亲和矩阵分支计算嵌入表示 y i \mathbf{y}_i yi y j \mathbf{y}_j yj和相似度 S i j \mathbf{S}_{ij} Sij

图1 DSCCLR架构。绿色的层代表正交层。首先,采样一个batch,输入到嵌入网络中,得到嵌入表示 Y ^ m \mathbf{\hat{Y}}_m Y^m,然后根据 X m \mathbf{X}_m Xm E \mathbf{E} E 计算亲和矩阵。注意,在计算亲和矩阵之前,使用 Y m \mathbf{Y}_m Ym更新 E \mathbf{E} E。最后,根据 S \mathbf{S} S Y ^ m \mathbf{\hat{Y}}_m Y^m 同时计算损失。通过最小化每次迭代中的损失 L θ \mathcal{L}_{\theta} Lθ 来训练嵌入网络。虚线表示训练迭代。网络训练完成后,在测试中一次性输入原始数据集,就可以通过网络获得嵌入表示。

A. 基于约束拉普拉斯秩的自适应关联矩阵

  • 数据: X = { x 1 , x 2 , … , x n } \mathcal{X}=\left\{\mathbf{x}_1, \mathbf{x}_2, \ldots, \mathbf{x}_n\right\} X={x1,x2,,xn}, 维度为: d d d,数据矩阵: X ∈ R n × d \mathbf{X} \in \mathbb{R}^{n \times d} XRn×d
  • 利用 k N N k\mathrm{NN} kNN 算法为 x i \mathbf{x}_i xi 分配近邻
  • 使用欧氏距离 ∥ x i − x j ∥ 2 2 \left\|\mathbf{x}_i-\mathbf{x}_j\right\|_2^2 xixj22来定义两个数据点之间 x i \mathbf{x}_i xi x j \mathbf{x}_j xj 的相似度:距离越小, S i j \mathbf{S}_{i j} Sij 越大
  • s i \mathbf{s}_i si S \mathbf{S} S 的第 i i i 行的转置, S i j \mathbf{S}_{i j} Sij是它的第 j j j 项。 0 ⩽ s i ⩽ 1 0 \leqslant \mathbf{s}_i \leqslant 1 0si1 表示 s i \mathbf{s}_i si 中的每个元素都大于等于 0 且小于等于 1 。相似性可以定义为

min ⁡ s i T 1 = 1 , 0 ⩽ s i ⩽ 1 ∑ j = 1 n ∥ x i − x j ∥ 2 2 S i j \begin{equation} \min _{\mathbf{s}_i^{\mathrm{T}} \mathbf{1}=1,0 \leqslant \mathbf{s}_i \leqslant 1} \sum_{j=1}^n\left\|\mathbf{x}_i-\mathbf{x}_j\right\|_2^2 \mathbf{S}_{i j} \end{equation} siT1=1,0si1minj=1nxixj22Sij

  • 显然,该问题有一个无效的解,即 x i \mathbf{x}_i xi 只有一个最近的数据样本作为邻居。但是如果简单通过解 min ⁡ ∑ S i j 2 \min \sum \mathbf{S}_{i j}^2 minSij2 得到 S i j \mathbf{S}_{i j} Sij 那么 x i \mathbf{x}_i xi 的邻居可以是除了它本身以外的任何数据点。因此,引入正则化参数 γ \gamma γ,对于任意一对数据点, S i j \mathbf{S}_{i j} Sij 可由以下问题得出:

min ⁡ ∀ i , s i T 11 , 0 ⩽ s i ⩽ 1 ∑ j = 1 n ( ∥ x i − x j ∥ 2 2 S i j + γ S i j 2 ) . \begin{equation} \min _{\forall i, \mathbf{s}_i^{\mathrm{T}} \mathbf{1} \mathbf{1}, 0 \leqslant \mathbf{s}_i \leqslant 1} \sum_{j=1}^n\left(\left\|\mathbf{x}_i-\mathbf{x}_j\right\|_2^2 \mathbf{S}_{i j}+\gamma \mathbf{S}_{i j}^2\right) . \end{equation} i,siT11,0si1minj=1n(xixj22Sij+γSij2).

  • 但实验表明,在大多数情况下,所有的样本都是相邻的,复杂度会大大增加。设 e i ∈ R k × 1 \mathbf{e}_i \in \mathbb{R}^{k \times 1} eiRk×1 是每个样本 x i \mathbf{x}_i xi 的赋值函数,记 E ∈ R n × k \mathbf{E} \in \mathbb{R}^{n \times k} ERn×k 的第 i i i 行为 e i \mathbf{e}_i ei,数据集的谱嵌入为 E \mathbf{E} E,拉普拉斯矩阵为 L S \mathbf{L}_{\mathbf{S}} LS 得到SC的如下性质
    ∑ i , j = 1 n ∥ e i − e j ∥ 2 2 S i j = 2 Tr ⁡ ( E T L S E ) \begin{equation} \sum_{i, j=1}^n\left\|\mathbf{e}_i-\mathbf{e}_j\right\|_2^2 \mathbf{S}_{i j}=2 \operatorname{Tr}\left(\mathbf{E}^{\mathrm{T}} \mathbf{L}_{\mathbf{S}} \mathbf{E}\right) \end{equation} i,j=1neiej22Sij=2Tr(ETLSE)

  • Theorem 1 ( K K K-Connected Components [48], [49]):拉普拉斯矩阵 L S \mathbf{L}_{\mathbf{S}} LS 的 0 特征值的个数 k k k 等于由其相似矩阵 S ∈ R n × n \mathbf{S} \in \mathbb{R}^{n \times n} SRn×n构造的图中连通子图的个数。(设 α 1 ⩽ α 2 ⩽ ⋯ ⩽ α n \alpha_1 \leqslant \alpha_2 \leqslant \cdots \leqslant \alpha_n α1α2αn L S \mathbf{L}_{\mathbf{S}} LS 的特征值) 即

r ( L S ) = n − k ⟺ ∑ i = 1 k α i = 0 \begin{equation} r\left(\mathbf{L}_{\mathbf{S}}\right)=n-k \Longleftrightarrow \sum_{i=1}^k \alpha_i=0 \end{equation} r(LS)=nki=1kαi=0

  • Theorem 1,为了获得具有清晰聚类结构的理想相似矩阵,在问题 (5) 中对拉普拉斯矩阵 L S \mathbf{L}_{\mathbf{S}} LS 的秩施加额外约束,通过自校正过程实现最优邻居部署。综上,最终亲和矩阵可由以下问题得出:

J = min ⁡ S ∑ i , j = 1 n ( ∥ x i − x j ∥ 2 2 S i j + γ S i j 2 )  s.t.  ∀ i , s i T 1 = 1 , 0 ⩽ s i ⩽ 1 , r ( L S ) = n − k . \begin{equation} \begin{aligned} \mathcal{J}= & \min _{\mathbf{S}} \sum_{i, j=1}^n\left(\left\|\mathbf{x}_i-\mathbf{x}_j\right\|_2^2 \mathbf{S}_{i j}+\gamma \mathbf{S}_{i j}^2\right) \\ & \text { s.t. } \forall i, \quad \mathbf{s}_i^{\mathrm{T}} \mathbf{1}=1,0 \leqslant \mathbf{s}_i \leqslant 1, r\left(\mathbf{L}_{\mathbf{S}}\right)=n-k . \end{aligned} \end{equation} J=Smini,j=1n(xixj22Sij+γSij2) s.t. i,siT1=1,0si1,r(LS)=nk.

  • 根据 Theorem 1,记 ζ i ( L S ) \zeta_i\left(\mathbf{L}_{\mathbf{S}}\right) ζi(LS) L S \mathbf{L}_{\mathbf{S}} LS 的第 i i i 个最小特征值, L S \mathbf{L}_{\mathbf{S}} LS正半定,因此 ζ i ( L S ) ⩾ 0 \zeta_i\left(\mathbf{L}_{\mathbf{S}}\right) \geqslant 0 ζi(LS)0 。显然,式(8)等价于下式( λ \lambda λ 为超参数):

min ⁡ S ∑ i , j = 1 n ( ∥ x i − x j ∥ 2 2 S i j + γ S i j 2 ) + 2 λ ∑ i = 1 k ζ i ( L S )  s.t.  ∀ i , s i T 1 = 1 , 0 ⩽ s i ⩽ 1. \begin{equation} \begin{aligned} & \min _{\mathbf{S}} \sum_{i, j=1}^n\left(\left\|\mathbf{x}_i-\mathbf{x}_j\right\|_2^2 \mathbf{S}_{i j}+\gamma \mathbf{S}_{i j}^2\right)+2 \lambda \sum_{i=1}^k \zeta_i\left(\mathbf{L}_{\mathbf{S}}\right) \\ & \text { s.t. } \forall i, \mathbf{s}_i^{\mathrm{T}} \mathbf{1}=1,0 \leqslant \mathbf{s}_i \leqslant 1 . \end{aligned} \end{equation} Smini,j=1n(xixj22Sij+γSij2)+2λi=1kζi(LS) s.t. i,siT1=1,0si1.

  • 如果问题得到最优解 S \mathbf{S} S,第二项将为零
  • Theorem 2 (Ky Fan’s Theorem [50]): 对于矩阵 E ∈ R n × k \mathbf{E} \in \mathbb{R}^{n \times k} ERn×k,以下最小化问题等价于 ∑ i = 1 k α i → 0 \sum_{i=1}^k \alpha_i \rightarrow 0 i=1kαi0 ,其中 α 1 ⩽ α 2 ⩽ ⋯ ⩽ α n \alpha_1 \leqslant \alpha_2 \leqslant \cdots \leqslant \alpha_n α1α2αn L S \mathbf{L}_{\mathbf{S}} LS 的特征值。

min ⁡ E 1 2 ∑ i j S i j ∥ E i − E j ∥ 2 2 = Tr ⁡ ( E T L S E )  s.t.  E T E = I k \begin{equation} \begin{aligned} & \min _{\mathbf{E}} \frac{1}{2} \sum_{i j} \mathbf{S}_{i j}\left\|\mathbf{E}_i-\mathbf{E}_j\right\|_2^2=\operatorname{Tr}\left(\mathbf{E}^{\mathrm{T}} \mathbf{L}_{\mathbf{S}} \mathbf{E}\right) \\ & \text { s.t. } \mathbf{E}^{\mathrm{T}} \mathbf{E}=\mathbf{I}_k \end{aligned} \end{equation} Emin21ijSijEiEj22=Tr(ETLSE) s.t. ETE=Ik

  • Theorem 2,有

∑ i = 1 k ζ i ( L S ) = min ⁡ E T E = I Tr ⁡ ( E T L S E ) \begin{equation} \sum_{i=1}^k \zeta_i\left(\mathbf{L}_{\mathbf{S}}\right)=\min _{\mathbf{E}^{\mathrm{T}} \mathbf{E}=\mathbf{I}} \operatorname{Tr}\left(\mathbf{E}^{\mathrm{T}} \mathbf{L}_{\mathbf{S}} \mathbf{E}\right) \end{equation} i=1kζi(LS)=ETE=IminTr(ETLSE)

  • 根据SC (6) 和式 (11) 的性质,问题 (9) 等于以下问题( e i \mathbf{e}_i ei 表示数据点 x i \mathbf{x}_i xi 的聚类分配概率):

min ⁡ S ∑ i , j = 1 n ( ∥ x i − x j ∥ 2 2 S i j + γ S i j 2 + λ ∥ e i − e j ∥ 2 2 S i j )  s.t.  ∀ i , s i T 1 = 1 , 0 ⩽ s i ⩽ 1. \begin{equation} \begin{aligned} & \min _{\mathbf{S}} \sum_{i, j=1}^n\left(\left\|\mathbf{x}_i-\mathbf{x}_j\right\|_2^2 \mathbf{S}_{i j}+\gamma \mathbf{S}_{i j}^2+\lambda\left\|\mathbf{e}_i-\mathbf{e}_j\right\|_2^2 \mathbf{S}_{i j}\right) \\ & \text { s.t. } \forall i, \quad \mathbf{s}_i^{\mathrm{T}} \mathbf{1}=1, \quad 0 \leqslant \mathbf{s}_i \leqslant 1 . \end{aligned} \end{equation} Smini,j=1n(xixj22Sij+γSij2+λeiej22Sij) s.t. i,siT1=1,0si1.

  • 显然,该问题可以根据 i i i 分解成多个子问题,分别对每个 i i i 求解这个问题,

min ⁡ s i ∑ j = 1 n ( ∥ x i − x j ∥ 2 2 S i j + γ S i j 2 + λ ∥ e i − e j ∥ 2 2 S i j )  s.t.  ∀ i , s i T 1 = 1 , 0 ⩽ s i ⩽ 1. \begin{equation} \begin{aligned} & \min _{\mathbf{s}_i} \sum_{j=1}^n\left(\left\|\mathbf{x}_i-\mathbf{x}_j\right\|_2^2 \mathbf{S}_{i j}+\gamma \mathbf{S}_{i j}^2+\lambda\left\|\mathbf{e}_i-\mathbf{e}_j\right\|_2^2 \mathbf{S}_{i j}\right) \\ & \text { s.t. } \forall i, \quad \mathbf{s}_i^{\mathrm{T}} \mathbf{1}=1,0 \leqslant \mathbf{s}_i \leqslant 1 . \end{aligned} \end{equation} siminj=1n(xixj22Sij+γSij2+λeiej22Sij) s.t. i,siT1=1,0si1.

  • d i j = ∥ x i − x j ∥ 2 2 + λ ∥ e i − e j ∥ 2 2 d_{i j}=\left\|\mathbf{x}_i-\mathbf{x}_j\right\|_2^2+\lambda\left\|\mathbf{e}_i-\mathbf{e}_j\right\|_2^2 dij=xixj22+λeiej22 d i ∈ R n × 1 \mathbf{d}_i \in \mathbb{R}^{n \times 1} diRn×1 的第 j j j 项。在此情况下,问题 (13) 可以简化为:

min ⁡ ∀ i , s i T 1 = 1 , 0 ⩽ s i ⩽ 1 ∥ s i + 1 2 γ d i ∥ 2 2 . \begin{equation} \min _{\forall i, \mathbf{s}_i^{\mathrm{T}} \mathbf{1}=1,0 \leqslant \mathbf{s}_i \leqslant 1}\left\|\mathbf{s}_i+\frac{1}{2 \gamma} \mathbf{d}_i\right\|_2^2 . \end{equation} i,siT1=1,0si1min si+2γ1di 22.

  • 为求解 (14),我们为每个 i i i 构造相应的拉格朗日函数( s i \mathbf{s}_i si S \mathbf{S} S 的第 i i i 行变换, β \beta β η i ⩾ 0 \eta_i \geqslant \mathbf{0} ηi0 为拉格朗日乘子)

L ( s i , β , η i ) = 1 2 ∥ s i + d i 2 γ i ∥ 2 2 − β ( s i T 1 − 1 ) − η i T s i \begin{equation} L\left(\mathbf{s}_i, \beta, \eta_i\right)=\frac{1}{2}\left\|\mathbf{s}_i+\frac{\mathbf{d}_i}{2 \gamma_i}\right\|_2^2-\beta\left(\mathbf{s}_i^{\mathrm{T}} \mathbf{1}-1\right)-\eta_i^{\mathrm{T}} \mathbf{s}_i \end{equation} L(si,β,ηi)=21 si+2γidi 22β(siT11)ηiTsi

  • 对应的KKT条件[51]可以表示为

S i j = max ⁡ { − d i j 2 γ i + β , 0 } . \begin{equation} \mathbf{S}_{i j}=\max \left\{-\frac{d_{i j}}{2 \gamma_i}+\beta, 0\right\} . \end{equation} Sij=max{2γidij+β,0}.

  • 为了获得更好的性能,尽量得到一个稀疏的 s i \mathbf{s}_i si,即 x i \mathbf{x}_i xi 只有 q q q 个最近邻样本,已减轻计算负担。此时,由于约束条件 s i T 1 = 1 \mathbf{s}_i^{\mathrm{T}} \mathbf{1}=1 siT1=1,有

∑ j = 1 q ( − d i j 2 γ i + β ) = 1 \begin{equation} \sum_{j=1}^q\left(-\frac{d_{i j}}{2 \gamma_i}+\beta\right)=1 \end{equation} j=1q(2γidij+β)=1

  • 可得

β = 1 q + 1 2 q γ i ∑ j = 1 q d i j . \begin{equation} \beta=\frac{1}{q}+\frac{1}{2 q \gamma_i} \sum_{j=1}^q d_{i j} . \end{equation} β=q1+2qγi1j=1qdij.

此外,最优的 s i \mathbf{s}_i si 只有 q q q 个非零元素,因此有 (为了推导方便,设 d i 1 ⩽ d i 2 ⩽ ⋯ ⩽ d in  d_{i 1} \leqslant d_{i 2} \leqslant \cdots \leqslant d_{\text {in }} di1di2din )

{ S i q > 0 ⇒ − d i q 2 γ i + β > 0 S i ( q + 1 ) = 0 ⇒ − d i ( q + 1 ) 2 γ i + β ⩽ 0 \begin{equation} \left\{\begin{array}{l} \mathbf{S}_{i q}>0 \Rightarrow-\frac{d_{i q}}{2 \gamma_i}+\beta>0 \\ \mathbf{S}_{i(q+1)}=0 \Rightarrow-\frac{d_{i(q+1)}}{2 \gamma_i}+\beta \leqslant 0 \end{array}\right. \end{equation} {Siq>02γidiq+β>0Si(q+1)=02γidi(q+1)+β0

  • 得到不等式:

1 2 ( q d i q − ∑ j = 1 q d i j ) < γ i ⩽ 1 2 ( q d i ( q + 1 ) − ∑ j = 1 q d i j ) . \begin{equation} \frac{1}{2}\left(q d_{i q}-\sum_{j=1}^q d_{i j}\right)<\gamma_i \leqslant \frac{1}{2}\left(q d_{i(q+1)}-\sum_{j=1}^q d_{i j}\right) . \end{equation} 21(qdiqj=1qdij)<γi21(qdi(q+1)j=1qdij).

因此,我们可以设 γ i = ( 1 / 2 ) ( q d i ( q + 1 ) − ∑ j = 1 q d i j ) \gamma_i=(1 / 2)\left(q d_{i(q+1)}-\sum_{j=1}^q d_{i j}\right) γi=(1/2)(qdi(q+1)j=1qdij). 方便起见,我们设 γ \gamma γ 为实验中所有 γ i \gamma_i γi 的均值。进一步,由式(16)、式(18)、式(20),可得闭式解:

S i j = { d i ( q + 1 ) − d i j q d i ( q + 1 ) − ∑ h = 1 q d i h , j ⩽ q 0 , j > q . \begin{equation} \mathbf{S}_{i j}= \begin{cases}\frac{d_{i(q+1)}-d_{i j}}{q d_{i(q+1)}-\sum_{h=1}^q d_{i h}}, & j \leqslant q \\ 0, & j>q .\end{cases} \end{equation} Sij={qdi(q+1)h=1qdihdi(q+1)dij,0,jqj>q.

B. Scalable Spectral Embedded Representations via the Fully Connected Network With an Orthogonality Constraint

该节中,为了获得聚类友好的稀疏嵌入,引入了一个具有正交性约束的全连接网络来学习嵌入的空间映射函数 y = F θ ( x ) y=F_\theta(x) y=Fθ(x)(实验中为五层全连接神经网络)。特别地,作者对网络的最后一层施加了正交性约束。设 S i j \mathbf{S}_{i j} Sij 表示样本 x j \mathbf{x}_j xj x i \mathbf{x}_i xi 之间的相似性,嵌入空间中相似的样本应该尽可能接近,因此,采用谱约束作为网络损失函数:

L θ = E [ S i j ∥ y i − y j ∥ 2 ] . \begin{equation} \mathcal{L}_\theta=\mathbb{E}\left[\mathbf{S}_{i j}\left\|\mathbf{y}_i-\mathbf{y}_j\right\|^2\right] . \end{equation} Lθ=E[Sijyiyj2].

为避免所有的数据点划分到一个簇中而收敛 (平凡解),在输出 y \mathbf{y} y 上强制一个正交性约束

E [ y y T ] = I k . \begin{equation} \mathbb{E}\left[\mathbf{y} \mathbf{y}^{\mathrm{T}}\right]=\mathbf{I}_k. \end{equation} E[yyT]=Ik.

随机选择一个batch( m m m 个样本),在每次训练迭代时将其输入网络,则网络的损失函数为:

L θ = 1 m 2 ∑ i , j = 1 m S i j ∥ y i − y j ∥ 2 \begin{equation} \mathcal{L}_\theta=\frac{1}{m^2} \sum_{i, j=1}^m \mathbf{S}_{i j}\left\|\mathbf{y}_i-\mathbf{y}_j\right\|^2 \end{equation} Lθ=m21i,j=1mSijyiyj2

相应的,正交性约束变为(其中 Y ∈ R m × k \mathbf{Y} \in \mathbb{R}^{m \times k} YRm×k y i \mathbf{y}_i yi 依列组成)

1 m 2 Y T Y = I k \begin{equation} \frac{1}{m^2} \mathbf{Y}^{\mathrm{T}} \mathbf{Y}=\mathbf{I}_k \end{equation} m21YTY=Ik

测试时分别使用非归一化图 D − S \mathbf{D}-\mathbf{S} DS 和归一化图 I − D − 1 / 2 \mathbf{I}-\mathbf{D}^{-1 / 2} ID1/2,归一化后更有效,因此,在后续实验采用归一化图拉普拉斯(其中 c i = D i i = ∑ j = 1 m S i j c_i=\mathbf{D}_{i i}=\sum_{j=1}^m \mathbf{S}_{i j} ci=Dii=j=1mSij

L θ = 1 m 2 ∑ i , j = 1 m S i j ∥ y i c i − y j c j ∥ 2 \begin{equation} \mathcal{L}_\theta=\frac{1}{m^2} \sum_{i, j=1}^m \mathbf{S}_{i j}\left\|\frac{\mathbf{y}_i}{c_i}-\frac{\mathbf{y}_j}{c_j}\right\|^2 \end{equation} Lθ=m21i,j=1mSij ciyicjyj 2

为了使输出 Y \mathbf{Y} Y 正交化,对于每个输入 X \mathbf{X} X Y \mathbf{Y} Y 右乘 m L − 1 m \mathbf{L}^{-1} mL1,其中 L \mathbf{L} L 为下三角矩阵,由Cholesky分解 Y T Y = L L T \mathbf{Y}^{\mathrm{T}} \mathbf{Y}=\mathbf{L}\mathbf{L}^{\mathrm{T}} YTY=LLT 得到。

用坐标下降训练网络,交替进行正交和梯度步骤。在每次迭代中,通过 Q R \mathrm{QR} QR 分解调整最后一层的权值,并通过标准反向传播调整网络的其余权值。得到 Y ^ m \hat{\mathbf{Y}}_m Y^m 后,我们用它来更新(14)中的 E \mathbf{E} E,并继续后续步骤计算亲和矩阵 S \mathbf{S} S。训练完成后,所有网络权值被冻结。我们可以输入任意测试点 x i \mathbf{x}_i xi,通过网络Fθ得到嵌入 y i \mathbf{y}_i yi,即使 x i \mathbf{x}_i xi 是样本外的。最后,对 Y \mathbf{Y} Y 执行K-Means 以输出最终结果。算法1给出了详细的算法流程

C. Relation to SC

SC的基本原理可以概括为:

min ⁡ H T H = I , H ∈ R n × k Tr ⁡ ( H T L H ) . \begin{equation} \min _{\mathbf{H}^{\mathrm{T}} \mathbf{H}=\mathbf{I}, \mathbf{H} \in \mathbb{R}^{n \times k}} \operatorname{Tr}\left(\mathbf{H}^{\mathrm{T}} \mathbf{L H}\right) . \end{equation} HTH=I,HRn×kminTr(HTLH).

而全连接网络损失 L θ \mathcal{L}_\theta Lθ 可表示为

L θ Y T Y = I = 1 m 2 Tr ⁡ ( Y T L Y ) \begin{equation} \underset{\mathbf{Y}^{\mathrm{T}} \mathbf{Y = I}}{\mathcal{L}_\theta}=\frac{1}{m^2} \operatorname{Tr}\left(\mathbf{Y}^{\mathrm{T}} \mathbf{L} \mathbf{Y}\right) \end{equation} YTY=ILθ=m21Tr(YTLY)

可以看出式 (27) 和式 (28) 是相似的,但我们通过一个全连接网络在普通SC中执行特征分解步骤,用网络来拟合特征向量的分解。在某种程度上,网络权衡了准确性与泛化能力和可扩展性。一方面,得益于网络的批量训练,DSCCLR具有良好的可扩展性。另一方面,一次训练完成后,网络提供一个函数,即使在训练过程中网络从未看到过数据,也可以通过输入拉普拉斯矩阵直接获得特征向量。以上两个优点是普通SC所不具备的。实验表明,该网络得到的特征向量的近似是有效的,并获得了良好的性能,这说明特征向量的近似不会降低最终的聚类性能,反而会提高聚类性能。

4. Experiment

A. Experiment Settings

  • 数据集与对比算法:
数据集描述对比方法
Toy五个不同分布生成的数据:Circle in Circle (CC), Two Moons™, Three Gaussian Blob (TGB), Three Blobs with Anisotropy (TBA), Three Blob (TB).MiniBatchKMeans, MeanShift, SC, Ward, Agglomerative clustering, DBSCAN和Birth
REUTERS文档分类的基准数据,80万条英语新闻90个课程,7769个培训文档,3019个测试文档。丢弃了所有带有多个标签的文档,并选择了四个类别:经济、市场、企业/工业和社会/政府,最终使用的数据集包含685 071个文档。K-Means、SC、SMR、NMF、SSC、ACAL、ACWL、LRR、LRSC、Zell、LSC-R、LSC-K、DEC、HIT、HOE、HOT和DAE
MNIST70,000个手写数字图像组成(训练测试6:1)同上
CIFAR-106万张大小为32 × 32的彩色图像组成,10类同上
  • 评估指标:

    • accuracy, ACC
    • adjusted rand index, ARI
    • normalized mutual information, NMI
  • 参数设置:

    • 五层的全连接网络结构来近似特征分解:FC(512) - FC(256) - FC(k) - orthogonalization layer \text{orthogonalization layer} orthogonalization layer
    • 通过启发式方式调整 λ = 0.01 \lambda = 0.01 λ=0.01。先将 λ \lambda λ 设置为一个较小的值,然后在每次迭代中计算 L S \mathbf{L_{S}} LS 0 0 0 特征值的个数,如果小于 k k k ,则将 λ \lambda λ 乘以2,否则将 λ \lambda λ 除以 2 2 2,直到该数等于 k k k。将所有比较算法的参数设置为其最佳选择或默认值。具体来说,在NMF中, λ \lambda λ 是控制数据流形上低维特征表示平滑度的正则化参数, p p p 决定每个样本的邻居数。我们在本文中设置了达到最佳性能的参数 λ = 1000 \lambda = 1000 λ=1000 p = 5 p = 5 p=5。SC需要在高斯核函数中设置参数 λ \lambda λ;在本实验中,我们将 λ \lambda λ 设置为Keras中的默认值 1.0 1.0 1.0。在LRR中, λ \lambda λ 为衡量误差矩阵的加权参数,根据实验结果,我们让 λ = 1000 \lambda = 1000 λ=1000,以更好地实现时间消耗和性能之间的权衡。

B. Experiment Analysis

  • DSCCLR在合成数据集上优于其他方法
  • 就其他两个评估指标而言,DSCCLR在所有情况下也显示出最佳性能。例如,在NMI和ARI方面,它比路透社的最佳竞争对手分别高出13.95%和14.12%。这些结果验证了DSCCLR可以有效地获取数据集的内在流形结构并进行聚类。
  • 传统聚类算法的准确率普遍低于深度聚类方法,这表明在遇到大规模聚类任务时,深度聚类方法比传统聚类方法具有优势。

C.Effectiveness of CLR

为了验证CLR构建的亲和矩阵的有效性,使用kNN和CLR在MNIST上进行了实验,通过设置不同数量的邻居,两者都通过全连接网络进行聚类分配。CLR的性能大大超过kNN,这表明提出的亲和矩阵在聚类分配方面非常出色。此外,CLR在不同的邻居设置下都能保持稳定的高精度,而kNN不能,这说明CLR对邻居的数量不敏感。

D. Parameter Selection Analysis

通过启发式方法选择合适的参数。固定一个参数,并通过网格搜索策略探索其他两个参数不同组合的性能。

E. Influence of Different Batch Sizes

为了保留尽可能多的数据集的局部结构,在内存允许的情况下,批处理大小m应该足够大。在这种情况下,特征分解的近似可以更多地考虑数据集的全局信息

F. Convergence Analysis and Training Time Comparisons

DSCCLR的收敛速度远远超过DEC、DAE和HOE,得益于其高效而简单的网络架构和损失函数。

5. Conclusion

文章提出了一种新的聚类模型DSCCLR,该模型采用谱约束下自适应距离度量的批处理训练方式。首先,该方法通过自适应约束拉普拉斯秩充分利用数据间的聚类友好距离度量。然后,利用得到的亲和矩阵对网络进行训练,并利用具有正交性约束的全连通网络近似特征向量。重要的是,该方法具有一般SC所不具备的良好泛化能力和可扩展性。大量的实验表明,DSCCLR在不同尺度的数据集上取得了良好结果。

在未来的工作中,计划探索一种自适应方法来确定不同数据集上的最优参数 m m m λ \lambda λ

第二个有希望的研究方向是在获得亲和矩阵的阶段引入一些监督信息。在有监督信息的指导下,亲和矩阵可以体现样本之间更多的内在关系。

  • 21
    点赞
  • 23
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值