摘要
很多真实世界中的数据集由不同表达和视角组成,这些不同的表达和视角的信息往往互为补充。为了整合非监督集合中多个视角的信息,多视觉聚类算法同时聚类不同视角以得到一个聚类结果,这个结果揭示了多个视觉共享一个潜在结构。本文我们提出了一个NMF(基于非负矩阵分解)的多视角聚类算法,该算法寻找一个因式分解,使得多个视角给出一致的聚类结果。本文提出算法的关键在对有约束的联合非负矩阵因式分解过程进行公式化,该分解过程的约束使得每个视角在分解过程趋向一致的结果。主要的问题是如何保持聚类结果在不同视角的是有意义和可比较的。为了解决这个问题,我们基于NMF和PLSA的关系设计了一个新型的高效归一化策略。几个数据集上的实验结果表明了我们方法的可靠性。
1 简介
现实中的很多数据集由不同的表达和视角组成。例如,同一个故事可以被不同的文章讲述;一个文件可以被翻译为多种不同的语言;研究团队可以由不同的研究课题组成,也可以看做由不同的作者组成;网页可以基于内容分类,也可以基于超链接文本等等。在这些数据中,每个数据集被不同的属性表达,这些属性可以自然地分成不同的子主题,每个子主题都提供了足够挖掘的信息。由于这些不同的表达往往含有兼容互补的信息,我们很自然地想到将这些信息整合在一起以得到更好的性能。从多视角中学习的关键在于如何利用每个视角自己的信息以得到更好的表现而不仅仅串联这些信息。
现实生活中无标签数据非常多,而且越来越多以来自不同来源的多个不同视角出现。因此,无标签数据不同视角的非监督学习,即多视角聚类,得到了很多的关注。多视角聚类的目标是依据基于物体的多个视角的表达将物体分到某一类。现有的多视角聚类算法可以大致分为三类:第一类方法将多视角整合到聚类过程是直接在在优化特定损失函数时进行;相反地,第二类,比如基于典型相关性分析的一类,先将多个视角投影到一个共同的低维子空间,然后再应用其他的聚类算法进行聚类;第三类称为晚整合或者晚融合,聚类结果先由每个独立的视角得到,最后根据一致性把结果融合。
在本文中,我们提出一个新的多视角聚类算法,该算法基于一个非常高效的单视角聚类算法——非负矩阵分解(NMF)。NMF一开始是作为一种降维技术出现,在信息检索和模式识别领域应用广泛。NMF在应用中有着直观的解释,例如,我们可以将每一个观测到的视角看做是非负基向量的线性组合。近年来,NMF成为数据聚类中一种很受欢迎的技术,且得到目前最好的一些结果。
由目前所见的工作,NMF可以产生较高级的聚类结果(易于解释的结果),因此如有基于NMF的多视角聚类方法将会非常有用。现有的应用NMF到多视角聚类的主要问题在于如何在多个视角上同时得到有意义,可比较的聚类结果。其次,传统的用于NMF中的归一化策略在多视角情境下变得困难,或者得不到有意义的聚类结果。在该文章中,我们通过提出一个新型的归一化策略,并遵循代表聚类结构的因子必须规范到一致的原则解决这些问题。
我们提出的算法的优点有:
1、第一个提出基于联合NMF的多视角聚类算法。不像传统方法一样只是简单固定多个视角共享的单一因子。
2、如上所述,现有的标注NMF的归一化无法保证来自不同视角的因子的可比较性和有意义,使得融合变得困难。为了解决这个问题,我们受NMF和PLSA间关系的启发,提出了一个新型的归一化过程。
3、提出一个可扩展的收敛的迭代优化的框架。整体算法效果比目前最好的算法提高了6个百分点。
文章接下来的结构如下:
第二部分先简单回顾NMF和PLSA的关系。
第三部分提出多视角NMF算法。
第四部分是实验。
第五部分是对相关工作的一个讨论。
第六部分是总结。
2 NMF和PLSA的回顾
NMF的目的是找到两个非负矩阵 U 和
接着介绍NMF和PLSA的关系, 这两者的关系使NMF做聚类变得有意义。
PLSA是用于文本分析的一个主题模型。PLSA认为,词语-文本共生矩阵 X (矩阵中的元素
假设 ||X||1=1 ,若矩阵 Q 是一个对角矩阵且