Deep Subspace Clustering with Sparsity Prior 翻译

Deep Subspace Clustering with Sparsity Prior 翻译

摘要: 

子空间聚类旨在通过隐式地寻找子空间以匹配每个类别,来将未标记的样本聚类成多个簇。大多数现有方法基于一个浅的线性模型,它可能在处理具有非线性结构的数据时失败。在本文中,我们提出了一种新的子空间聚类方法 - 基于新的深度学习架构的,有稀疏先验的深度子空间聚类(PARTY)。 PARTY明确学习逐步将输入数据转换为非线性潜在空间,并同时适应局部和全局子空间结构。特别是,考虑到局部结构,PARTY以最小的重建误差学习输入数据的表示。此外,PARTY将先验稀疏信息结合到隐藏表示学习中以保持整个数据集上的稀疏重建关系。据我们所知,PARTY是第一个基于深度学习的子空间聚类方法。大量实验验证了我们方法的有效性。

1 引言:

子空间聚类的目的是寻找一组隐藏低维子空间来匹配未标记的高维数据,并根据其子空间的成员资格对它们进行聚类。 在过去的几十年中,基于谱聚类的方法是最先进的,它在以下两个步骤中执行子空间聚类。 首先,构建亲和度矩阵(即相似图)C以描述数据的关系,其中C_{ij}表示数据点\mathbf{x}_{i}\mathbf{x}_{j}之间的相似性。 其次,通过聚类图拉普拉斯的特征向量来聚类数据, 其中D是对角矩阵,。 显然,基于谱聚类的方法的性能关键地依赖于构建的亲和度矩阵的质量。

近年来,许多工作致力于通过使用输入的自我表示来获得良好的亲和力矩阵。 更具体地,这些方法通过求解下面的等式来线性地表示输入\mathbf{X}\in \mathbb{R}^{d\times n}

其中d表示输入的维数,n表示数据大小,即样本数,\mathbf{C}\in \mathbb{R}^{n\times n}对应于X的自表达式,\left \| \cdot \right \|_{F}表示Frobenius范数,R(C)表示C上的先验结构正则化。 这些方法的主要区别在于R(C)的选择。 例如,稀疏子空间聚类(SSC)和低秩表示(LRR)分别通过采用1和核范数作为R(·)来促使C稀疏化和低秩化。 一旦获得C,那些方法构建亲和度矩阵为并在A上应用谱聚类来聚类数据。

虽然这些方法表现出令人鼓舞的表现,但我们发现它们受到以下限制。首先,大多数现有方法致力于构建高质量亲和度矩阵,同时忽略从亲和度矩阵导出的低维表示的重要性。实际上,它们中的大多数只是使用 的几个特征向量(w.r.t.领先特征值)作为数据 的低维表示。这实质上与拉普拉斯特征映射(LE)相同。换句话说,那些基于谱聚类的方法通过1​​)建立亲和度矩阵来执行子空间聚类; 2)在亲和度矩阵上执行LE以产生低维表示; 3)聚类表示。这仍然是开放的,是否有更好的方法将亲和矩阵嵌入低维空间并恢复其中的潜在子空间,我们相信深入调查数据嵌入方案将显着提高聚类性能。这些方法的第二个限制是由于它们固有的线性,并且它们不能很好地处理具有显著非线性的数据。为了解决该问题,已经提出了对于现有方法的一些内核扩展,例如,内核稀疏子空间聚类(KSSC)和内核低秩表示(KLRR)。它们计算内核空间中的表示而不是原始空间。然而,这些基于内核的方法的性能在很大程度上依赖于内核函数的选择,而实际上仍然没有选择内核函数的黄金法则。

由于表示学习对子空间聚类至关重要,深度学习是最强大的表示学习方法之一,我们提出了一种基于深度学习模型的新的子空间聚类框架,即具有稀疏先验的深度子空间聚类(PARTY) )。该方法通过计算输入空间的稀疏重构关系,学习具有局部性和数据集全局性的神经网络,并聚类由神经网络学习的紧凑表示来实现子空间聚类。 PARTY的基本思想如图1所示。可以观察到PARTY在以下方面与现有的子空间聚类方法有显着的不同:1)PARTY直接学习数据的低维表示而不是依赖于亲和矩阵; 2)PARTY具有多层结构,可以更好地模拟数据的非线性; 3)尽管PARTY与堆叠自动编码器(SAE)部分相似,但它不仅考虑了重建输入数据的局部性,还结合了表示学习中的结构化全局先验; 4)与基于内核的方法相比,PARTY提供了明确的转换和更好的可扩展性,因为它避免了加载所有数据来计算内核函数; 5)PARTY兼容k-means和大多数现有的子空间聚类方法。当在PARTY的输出上应用k-means时,我们在理论上证明了在温和条件下,PARTY以类似于谱聚类的方式执行。当与谱聚类相结合时,PARTY实际上通过经由分层堆叠的非线性变换来学习潜在空间来执行潜在的子空间聚类。

图1:PARTY和子空间聚类方法的体系结构比较:(a)现有子空间聚类方法的流行体系结构,其中L是图拉普拉斯算子,(b)PARTY的体系结构。 在(b)中,\mathbf{H}^{\left (m \right )}表示第m层的输出,其中m = 1,2,......,M和\mathbf{H}^{\left ( 0 \right )}表示输入。 PARTY是对现有子空间聚类方法的补充。 因此,可以在压缩表示\mathbf{H}^{\left ( \frac{M}{2} \right )}上直接执行k均值或其他现有聚类方法。 这两种架构之间的主要区别以有颜色区分的。 

2 相关工作:

在本节中,我们将分别简要讨论子空间聚类和深度学习中的一些现有工作。

子空间聚类:最近,已经提出了许多子空间聚类方法,其中主要区别在于获得亲和度矩阵的方式。 更具体地,这些方法通过对系数实施不同约束来使用线性重建系数来建立亲和度矩阵。 然而,这些方法是线性模型,在许多实际情况下不能模拟数据的非线性。 为了解决这个问题,[Patel和Vidal,2014]和[Xiao et al。,2015]分别提出了内核SSC(KSSC)和内核LRR(KLRR)。 但是,如何为这些基于内核的方法选择合适的内核通常在实践中并不清楚。

与这些子空间聚类方法不同,我们的方法学习多个分层非线性变换(在神经网络中)以将输入映射到另一个空间,从而可以将非线性结合到所获得的低维表示中,从而产生更好的聚类性能。 据我们所知,这是第一个深度子空间聚类框架。

深度学习:凭借学习表示的强大功能,深度学习在众多应用中取得了巨大成功,特别是在监督学习的情况下,例如,图像分类,度量学习,图像超分辨率等。相比之下,较少的工作研究了无监督学习方案的应用,如子空间聚类。据我们所知,最近只有两项工作[Ma et al。,2014; Tian et al。,2014]将现有的自动编码器(AE)应用于聚类。它们主要在神经网络的输入方面不同。具体而言,[Ma et al。,2014]直接编码来自原始数据的表示,而[Tian et al。,2014]将预定义的亲和度矩阵送到神经网络。由于没有与SSC [Elhamifar和Vidal,2013]和LRR [Liu et al。,2013]等最先进的子空间聚类进行比较,这两项工作对于子空间聚类是否相对有效仍然未知。由于无监督深度学习仍然是一个悬而未决的问题,因此如[Bengio et al。,2013]所建议的那样,将领域知识和先前工作的优点结合起来开发新的无监督深度模型可能会更好。

与这两种方法不同,我们的框架基于一个新的神经网络,它保留了局部性和全局性。 确切地说,通过最小化样本本身的重建误差来考虑局部性,同时通过最小化使用整个数据集重构每个样本的重建误差来保证全局性。 这样的框架是对现有子空间聚类方法和深度学习方法的补充,因为它将现有子空间聚类方法的优点(即结构先验)结合到框架深度学习中。 结果,很好地达成期望,所提出的神经网络在处理未标记数据时可以实现令人满意的性能。 据我们所知,这是首次将全局结构先验引入无监督学习的神经网络。

3 稀疏先验的深度子空间聚类

在本节中,我们详细阐述了用于子空间聚类的PARTY模型的细节。 PARTY通过以下三个步骤对数据进行聚类:从原始数据计算稀疏性,学习神经网络以将输入映射到潜在空间,以及将低维数据表示聚类到多个子空间中。 我们将首先解释PARTY是如何专门设计这些步骤设计的,然后介绍优化PARTY模型的算法。

3.1 PARTY的深度模型:

PARTY中的神经网络由M + 1层组成,用于执行M个非线性变换,其中M是偶数,前M / 2隐藏层是编码器,用于学习一组压缩表示(即,降维)和后M/ 2层是解码器,用于逐步重建输入。 为便于演示,我们首先提供以下定义。 设

表示第一层的一个输入样本,然后
 

 

表示第m层的输出, m = 1, 2, · · · , M表示神经网络的层号,g\left ( \cdot \right )是非线性激活函数,d_{m}表示第m层输出的维度,

 表示第m层的权重和偏置。因此,给\mathbf{x}_{i}作为第一层的输入,\mathbf{h}_{i}^{\left ( M \right )}(即最后层的输出)是\mathbf{x}_{i}的重建,而\mathbf{h}_{i}^{\left ( \frac{M}{2} \right )}\mathbf{x}_{i}的期望的低维表示。 此外,对于n个给定样本的集合,

,我们的神经网络的相应输出表示为

PARTY的目标是最小化数据重建错误并同时在表示学习中保留全局稀疏先验C。 根据上述定义,这些目标可以正式表述为:

其中\lambda _{1}\lambda _{2}是正权衡参数。

是为不同的目标而设计的。 直观地说,第一项旨在通过最小化重建误差来考虑局部性w.r.t 输入本身。 换句话说,输入充当监督者以学习紧凑表示\mathbf{H}^{\left ( \frac{M}{2} \right )}是基于所谓的流形假设设计的,其表明重建关系(例如,结构先验)对于不同的特征空间是不变的。 在本文中,我们主要考虑通过解决以下问题得到的中的稀疏先验:

 

\left \| \cdot \right \|_{1}表示\boldsymbol{l}_{1}范数,它经常用来实现稀疏,\mathbf{c}_{ii}是列向量\mathbf{c}_{i}的第 i 项,约束避免了退化解。

在(5)的最优解中,保证了全局性,因为整个数据集上的重建关系被保存到隐藏表示中。 最后,是一个避免过度拟合的正则化项。 注意到,具有非线性函数g(·)的目标函数(4)本质上可以避免诸如

之类的平凡解,其中I是单位矩阵,O是全零矩阵。

我们的神经网络模型使用输入作为自我监督来学习压缩表示并同时利用稀疏性来确保逐步学习的表示中的底层流形(非线性子空间)结构的不变性。 学习的表示完全适应这些局部和全局结构,有利于后续的聚类过程。

3.2 优化:

 我们现在演示如何通过随机子梯度下降有效地优化PARTY模型。 为了便于解释算法,我们以单个样本为例的形式重写(4):

回顾(2)中\mathbf{h}_{i}^{\left ( m \right )}的定义。应用链式法则,我们可以表示(6)中关于的次梯度:

\Delta ^{\left ( m \right )}定义为:

\Lambda ^{\left ( m \right )}定义为:

\odot表示元素级别的乘法,g'\left ( \cdot \right )表示激活函数g\left ( \cdot \right )的导数,

使用随机次梯度下降算法,我们按以下方式更新,直到收敛:

\mu > 0是学习率,在我们们的实验中设置为如2^{-10}这样的小值。

优化PARTY的详细过程如下:

3.3 实施细节:

我们的实验中,我们使用g = tanh 作为激活函数,定义如下:

对应的导数计算如下:

关于的初始化,我们采用[Hinton andSalakhutdinov, 2006]预训练和微调策略 

3.4 与先前工作的连接

我们在这里提供了两种方法来理解我们提出的PARTY方法。 首先,PARTY可以被视为经典自动编码器的一般形式。 此外,通过几种简化,PARTY可以被视为谱聚类(SC)算法的变体。

Connection between AE and PARTY:

AE已被广泛用于各种应用,包括聚类,使用输入作为监督者来学习压缩表示,然后对表示执行kmeans以获得数据分割。 如果将(4)中的\lambda _{1}设置为0,即没有稀疏先验,则提出的PARTY减少到标准AE。 从这个意义上说,PARTY通过考虑不同样本之间的有价值的关系(即结构先验)来增强AE,并且可以在我们的实验中所示的无监督学习的场景中提供优越的性能。

Connection between SC and PARTY:

大多数基于谱聚类的方法通过对与前述拉普拉斯算子L的最大特征值相对应的特征向量执行kmeans来获得数据的分割。

Remark 1:如果我们采用,并为避免平凡解,加上一个温和的约束,那么我们学习的压缩表示\mathbf{H}^{\star } 将是下面解决方案

这正是谱聚类的问题,但是L的选择不同。具体来说,对于我们的方法,而对于谱聚类方法 

4 实验 

  • 0
    点赞
  • 4
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值