多视图聚类的共享生成潜在表示学习(2020)

Shared Generative Latent Representation Learning for Multi-View Clustering

摘要

多视图数据聚类一直是计算机视觉领域的一个基础性研究课题。结果表明,综合所有视图的信息比单独使用一个视图可以获得更好的精度。然而,现有的方法往往存在处理大规模数据集和重构样本性能差的问题。本文提出了一种新的多视图聚类方法,该方法通过学习服从混合高斯分布的共享生成潜在表示来实现。动机是基于这样一个事实,即尽管不同视图之间存在差异,但多视图数据共享一个共同的潜在嵌入。具体而言,得益于深度生成学习的成功,该模型不仅可以从视图中提取非线性特征,而且具有捕获所有视图之间相关性的强大能力。在多个不同尺度的数据集上进行的大量实验结果表明,该方法在一系列性能标准下优于最先进的方法。

针对分类和信息检索,Srivastava等人(Srivastava and Salakhutdinov 2014)提出了一种用于学习多视图数据生成模型的深度Boltzmann机器。直到最近,还没有成功的多视图集群扩展。主要的障碍是如何以无监督的方式有效地利用视图间的共享生成潜在表示。为了解决这个问题,在本文中,我们提出了一种新的多视图聚类方法,即通过变分自编码器(DMVCVAE)学习服从混合高斯分布的共享生成潜在表示。特别是,我们的动机是基于这样一个事实,即尽管视图之间存在差异,但多视图数据共享一个共同的潜在嵌入。同时,该模型得益于深度生成学习的成功,可以通过神经网络捕获数据分布。贡献如下。

•我们提出了一种用于多视图聚类的共享生成潜在表示。具体来说,生成方法假设不同视图的数据共享给定观测数据的隐藏变量的共同条件分布,并且隐藏数据从高斯分布的混合中独立采样。

•为了更好地从多个角度挖掘信息,我们引入了一组非负组合权值,这些权值将在统一的框架中与深度自编码器网络共同学习。

•我们进行了大量的数值实验,表明所提出的方法在几个著名的数据集(包括大规模多视图数据)上优于最先进的聚类模型。

方法

1.体系结构:

给定一个多视图数据集{X^{(v)}\mathbb{R}^{d(v)*n}} (v = 1,2,...,m) ,共m个视图,则可以合理地假设第v个视图的第i个样本x^{(v)}_{_{i}}\in \mathbb{R}^{d_{v}}是由某个未知过程生成的,例如,由一个未观测到的连续变量z\in \mathbb{R}^{d}生成。变量z是所有视图共享的共同隐藏表示。此外,在一个典型设置中,假设一个视图的每个样本x^{(v)}是通过两个阶段的过程生成的:首先根据一些先验分布生成潜在变量z,然后由一些条件分布p_{\theta ^{(v)}}\left ( X^{(v)}|z \right )产生观察到的样本x^{(v)}。通常,由于z和参数θ的未知,先验p_{\theta }(z)和似然p_{\theta ^{(v)}}\left ( X^{(v)}|z \right )被隐藏。

对于聚类任务,我们希望观察到的样本是根据潜在变量z和假设的聚类变量c共同生成的。然而,大多数现有的变分自编码器从设计上就不适合聚类任务,更不用说多视图聚类了。因此,我们有动机在VAE框架下提出一种新颖的多视图聚类方法,直观地结合聚类促进目标。理想情况下,我们应该假设样本生成过程由新的似然p_{\theta ^{(v)}}\left ( X^{(v)}|z,c \right )给出,条件是潜在变量z和聚类标签c。然而,为了简单起见,我们打破了x(v)对c的直接依赖,条件是假设的高斯混合变量z。框架如图1所示。

在该架构中,使用DNN f(·)解码公共潜在变量z生成多视图样本{x(v)},并按照我们的假设由GMM进行采样。为了从多个视图的信息中有效地推断出z和c的后验,引入了一种新的加权目标分布,该分布基于每个视图中z的个体变分分布。为了优化证据下界(ELBO),与VAE类似,我们使用DNN g(·)对观测数据进行编码,并结合多个嵌入的分布来推断共享潜在表示z。

2.结果目标:

为了简单起见,我们将通用的多视图变量表示为{x(v)}:= {x(1),…, x(v),……, x(m)},其中x(v)是第v视图的一般变量。考虑潜在变量z和离散的潜在变量c (c = 1,2,···,K),在不失一般性的前提下,针对VAE框架下的聚类任务,我们的目标是计算跨视图共享的{x(v)}的公共概率聚类分配,记为p(z, c|{x^{(v)}})。根据贝叶斯定理,在给定{x(v)}的情况下,z和c对应的后验值计算如下:

 由于深度神经网络在近似非线性函数方面的强大功能,我们在这里引入一个神经网络g(·)来推断q\left ( z|\left \{ x^{(v)} \right \} \right ),参数\left \{ \phi ^{(v)} \right \}_{v=1}^{m}。即利用深度神经网络将观察到的视图数据编码为潜在表示。同时,为了融合多视图信息,我们提出了一个组合变分逼近q\left ( z|\left \{ x^{(v)} \right \} \right )。考虑到不同视图的重要性,我们引入一个权向量\omega =\left [ \omega _{1} ,\omega _{2},...,\omega _{m}\right ]^{T}\omega _{v}\geq 0,\sum \omega = 1来融合隐变量的分布,从而更好地利用多视图数据的一致性和互补性。特别地,我们假设潜变量z的后验的变分是近似通过积分来自多个视图的信息的高斯分布,如下所示。

 

注:请注意,虽然我们的模型也配备了VAE和GMM,但它与现有的工作(Du, Du, and He 2017;Jiang et al . 2017)。我们的模型通过同时学习生成网络、推理网络和每个视图的权重来关注多视图聚类任务。通过直接应用链式法则和估计量,类似于工作(Du, Du, and He 2017;Jiang et al . 2017), Eq.(15)的损失梯度很容易计算。

为了训练模型,将估计的梯度与标准的随机梯度优化方法结合起来,如SGD或Adam。总的来说,该模型可以通过混合高斯隐变量进行反向传播的重参数化训练。训练后,对每个样本xi(i =1,2,…,n)实现共享潜在表示z。最后,最终的聚类分配由Eq.(10)计算。

 结果

1.数据集

为了评估所提出的DMVCVAE的性能,我们选择了四个真实世界的数据集,包括数字、物体和面部图像。表1还提供了数据集统计信息的摘要。

常用的聚类性能评价指标有聚类精度(ACC)、归一化互信息(NMI)和调整兰德指数(ARI)。NMI表示预测标签和基础真值标签之间的相关性。ARI的取值范围为- 1到1,表示两个数据聚类之间的相似度,数值越高通常表示聚类性能越好。由于每个度量在聚类中惩罚或支持不同的属性,我们报告所有度量的结果以进行综合评估。 

 2.基线算法

我们将所提出的DMVCVAE与以下两种聚类方法进行了比较,包括浅层模型和深层模型。

•单一视图:选择最佳聚类性能的单一视图,使用图拉普拉斯衍生并在其上执行谱聚类。

•Feature concatation(缩写为Feature Concat):将所有视图的特征连接起来,并对其进行光谱聚类。

•核加法:从每个特征构建亲和矩阵并取其平均值,然后输入到谱聚类算法。

多视图NMF(Liu et al . 2013):多视图NMF应用NMF将每个视图数据投影到公共潜子空间。这种方法可以被粗略地认为是我们提出的方法的单层版本。

•LT-MSC(Zhang et al . 2015):低秩张量约束多视图子空间聚类通过将不同视图的子空间表示矩阵作为一个张量来考虑多视图聚类。

•SCMV-3DT(Yin et al . 2019):利用基于循环卷积的t积,通过t-线性组合在三阶张量空间中进行低秩多视图聚类,利用稀疏和低秩惩罚自行重建多视图张量数据。

•DCCA (Andrew et al . 2013):针对在未见数据上测量的相关目标提供灵活的非线性表示。

•DCCAE (Wang et al . 2015):结合两种观点的DCCA目标和重建误差。

•VCCAP (Wang et al . 2016):使用深度生成方法实现从一小组共享潜在变量生成多个视图的自然想法。

3.性能评价

我们首先在选定的测试数据集上将我们的方法与六个浅层模型进行比较。比较方法的参数设置是根据其作者对其最佳聚类分数的建议完成的。不同方法的聚类性能通过运行10次试验并报告性能指标的平均分来实现,如表2所示。粗体数字突出了最好的结果。

可以看到,除了Single View之外,其他方法都利用了所有视图数据,性能比使用单个视图更好。就所有这些评估标准而言,我们提出的方法始终优于UCI数字和Caltech-7数据集的浅层模型。

特别是,对于Caltech-7,我们的方法在ACC和NMI方面分别比第二好的算法高出17.7%和25.0%。而对于ORL数据集,LT-MSC和SCMV-3DT分别在NMI和ARI方面取得了最好的结果。这可能是由于ORL数据集的规模较小,因为大规模的数据集通常会为深度模型带来更好的性能。结果还验证了我们的模型DMVCVAE从深度学习中显著获益。

为了进一步验证我们的方法在深度模型中的性能,我们报告了深度模型之间的比较,如表3所示。由于这三种模型只能处理两种视图数据,我们测试了所有两种视图组合,并最终报告了最佳聚类分数。比较模型的超参数由他们的论文提出。具体来说,UCI数字选择FAC和KAR特征,Caltech-7选择GIST和LBP特征,ORL选择LBP和Gabor特征。为了公平比较,我们在相同的视图上执行所提出的模型。在表3中,可以观察到我们提出的方法在所有标准上都明显优于其他方法。

4.研究相关

我们的工作受到变分深度嵌入(VaDE) (Jiang et al . 2017)的启发,VaDE主要关注单视图数据的聚类。然而,由于VaDE的自然结构,它不能直接用于多视图数据。

因此,在本小节中,我们将通过分别将VaDE应用于单个视图和连接特征,全面比较我们的与数据集上的VaDE。特别地,将VaDE应用于单个视图是使用每个视图作为输入,而通过将所有视图堆叠为一个长向量来获得连接特征,从而通过单视图聚类执行任务。结果见表4- 6。可以看出,我们的方法在所有度量方面都达到了最好的性能。对于uci数字数据集,单视图中带有PIX的VaDE得分第二好。注意,PIX视图表示原始图像的像素值。类似的例子分别是针对Caltech-7的HOG和针对ORL的Intensity feature。同时,特征拼接的性能甚至比使用单一视图的性能更差。这表明直接将VaDE应用于多视图聚类并不是一种可行的方法。一种优越的方法被证实能够充分意识到所有观点的一致性和互补性信息。

5.可视化

在图2中,我们通过各种深度模型将Caltech-7数据集上的潜在空间可视化。t-SNE (Maaten and Hinton 2008)用于降维到二维空间。可以看出,DMVCVAE学习到的嵌入效果优于DCCAE和VCCAP。图3显示了DMVCVAE在UCI数字数据集上的学习表示。具体来说,我们看到,66.随着训练的进行,潜在特征聚类变得越来越分离,这表明整体结构激励了寻找具有更好聚类性能的信息表示。

 6.大规模多视图数据实验

随着视觉数据量的空前爆炸式增长,如何有效地分割大规模多视图数据成为一个有趣但具有挑战性的问题(Li et al . 2015;Zhang et al . 2019)。因此,我们在大规模数据集(即NUS-WIDEObject)上进一步测试我们的模型。由于上述比较方法无法处理大规模数据,我们将其与近期的研究成果进行比较,如大规模多视点光谱聚类(LSMVSC) (Li et al 2015)和二元多视点聚类(BMVC) (Zhang et al 2019)。在这个实验中,我们用PURITY代替ARI测量,这样比较将是公平的3。通过类似的设置,聚类结果如表7所示。可以看出,我们提出的方法相对于比较的方法取得了更好的聚类性能,并且验证了处理大规模多视图聚类的强大能力。

总结

本文在VAE框架下,通过学习共享潜在表示,提出了一种新的多视图聚类算法。共享潜在嵌入,多视图在统一的框架中同时学习权重和深度自编码器网络,从而直观地实现最终的聚类分配。实验结果表明,该方法可以提供比现有方法更好的聚类解决方案,包括浅层模型和深层模型。

  • 0
    点赞
  • 2
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值