摘要:多视图聚类是一个长期存在的重要的研究问题,专注于从不同视图中挖掘互补信息。然而,现有的工作经常融合多个视图的表示或处理公共特征空间中的聚类,这可能会导致它们的纠缠,特别是对于视觉表示。为了解决这个问题,我们提出了一种新的基于 VAE 的多视图聚类框架(Multi-VAE),通过学习解开的视觉表示。具体来说,我们在生成模型中定义了一个视图公共变量和多个视图独特变量。视图公共变量的先验服从近似离散的Gumbel Softmax分布,引入该分布来提取多个视图的公共聚类因子。同时,视图独特变量的先验服从连续高斯分布,用于表示每个视图的特殊视觉因子。通过控制互信息能力来解纠缠视图公共和视图独特表示,可以分离多个视图的连续视觉信息,从而有效地挖掘它们的公共离散聚类信息。实验结果表明,与最先进的方法相比,Multi-VAE 具有解开和可解释的视觉表示,同时获得了卓越的聚类性能。
1.什么是先验
先验概率(Prior probability)分布,即关于某个变量 X 的概率分布,是在获得某些信息或者依据前,对 X 之不确定性所进行的猜测)。 这是对不确定性(而不是随机性)赋予一个量化的数值的表征,这个量化数值可以是一个参数,或者是一个潜在的变量
2.Gumbel Softmax分布是什么
3,互信息能力(mutual information capacity )是什么
1.引言
聚类分析是计算机视觉领域的一个基本研究课题,如计算机视觉、机器学习和数据挖掘等。其目标是将具有相似模式或特征的数据项划分为同一组。随着深度学习快速发展,深度聚类方法[9,37,44,47]克服了浅层模型的缺点,在聚类性能方面取得了长足的进步。然而,在实际应用中,视觉数据通常是从多个视图或不同的来源收集的,例如:1)不同人编写的一个数字的各种写作风格,2)从多个方向从摄像机捕获的对象的多个视图。与单视图聚类相比,多视图聚类 (MVC) 可以访问多视图数据中包含的更全面的特征,从而越来越受到关注。
现有的MVC方法大致可以分为三类:1)第一类是多视点谱聚类[18,23,32,33],其中构建了多个图结构进行聚类。2)第二类[25,52]采用非负矩阵分解对特征矩阵进行分解,得到聚类分配。3)第