Multi-VAE:学习解纠缠公共视图和独特视图的视觉表示以用于多视图聚类

Multi-VAE: Learning Disentangled View-common and View-peculiar Visual Representations for Multi-view Clustering | IEEE Conference Publication | IEEE Xplore

摘要:多视图聚类是一个长期存在的重要的研究问题,专注于从不同视图中挖掘互补信息。然而,现有的工作经常融合多个视图的表示或处理公共特征空间中的聚类,这可能会导致它们的纠缠,特别是对于视觉表示。为了解决这个问题,我们提出了一种新的基于 VAE 的多视图聚类框架(Multi-VAE),通过学习解开的视觉表示。具体来说,我们在生成模型中定义了一个视图公共变量和多个视图独特变量。视图公共变量的先验服从近似离散的Gumbel Softmax分布引入该分布来提取多个视图的公共聚类因子同时,视图独特变量的先验服从连续高斯分布,用于表示每个视图的特殊视觉因子。通过控制互信息能力来解纠缠视图公共和视图独特表示,可以分离多个视图的连续视觉信息,从而有效地挖掘它们的公共离散聚类信息。实验结果表明,与最先进的方法相比,Multi-VAE 具有解开和可解释的视觉表示,同时获得了卓越的聚类性能。 

1.什么是先验

先验概率(Prior probability)分布,即关于某个变量 X 的概率分布,是在获得某些信息或者依据前,对 X 之不确定性所进行的猜测)。 这是对不确定性(而不是随机性)赋予一个量化的数值的表征,这个量化数值可以是一个参数,或者是一个潜在的变量

2.Gumbel Softmax分布是什么

3,互信息能力(mutual information capacity )是什么

1.引言

聚类分析是计算机视觉领域的一个基本研究课题,如计算机视觉、机器学习和数据挖掘等。其目标是将具有相似模式或特征的数据项划分为同一组。随着深度学习快速发展,深度聚类方法[9,37,44,47]克服了浅层模型的缺点,在聚类性能方面取得了长足的进步。然而,在实际应用中,视觉数据通常是从多个视图或不同的来源收集的,例如:1)不同人编写的一个数字的各种写作风格,2)从多个方向从摄像机捕获的对象的多个视图。与单视图聚类相比,多视图聚类 (MVC) 可以访问多视图数据中包含的更全面的特征,从而越来越受到关注。

现有的MVC方法大致可以分为三类:1)第一类是多视点谱聚类[18,23,32,33],其中构建了多个图结构进行聚类。2)第二类[25,52]采用非负矩阵分解对特征矩阵进行分解,得到聚类分配。3)第三类基于子空间聚类[21,53],它对多个视图共享的子空间进行自我表示。在[49]中可以找到更多关于MVC的研究。

对于许多MVC方法,中心瓶颈是它们的高复杂性,这使得处理大规模数据聚类任务是不现实的。最近的方法通过应用深度模型 [3, 7, 34, 45, 50, 55] 取得了令人鼓舞的进展。然而,它们中的大多数通过探索所有视图的公共表示或融合特征来学习集群结构。虽然可以通过这种方式获取互补信息,但也忽略了多个视图之间纠缠引起的干扰

我们受到两个观察的启发:1)聚类信息是离散的,它是所有视图的最大公共视觉信息的抽象。2)每个视图的特殊视觉信息通常是连续的,这对聚类有不同的影响。例如,来自物体多侧的观测有利于描述它本身,然而,数字的两种写作风格对聚类没有互补的影响,甚至可能造成干扰。如何解开它们并学习可解释的多视图视觉表示。这是一个有趣但具有挑战性的问题。幸运的是,已经做了一些关于解纠缠表示学习[1]的进展。一些生成模型,例如变分自动编码器 (VAE) [2] 和生成对抗网络 (GAN) [4],用于学习可解释的表示,每个单元对应于数据的单个变化因子。然而,学习解纠缠的视觉表示很少被研究用于多视图聚类。

在本文中,我们提出了一种新的基于 VAE 的多视图聚类框架(称为 Multi-VAE),它可以学习解开和可解释的视觉表示并解决大规模数据聚类问题。与现有的多视图聚类方法不同,如图1所示,我们引入了一个视图公共变量c和多视图独特变量{z1, z2,…, zV } 在多个 VAE 架构中。为了学习跨视图(即聚类信息)的公共视觉表示,从所有视图的嵌入中推断出视图公共变量 c。同时,每个视图独特变量 zv 仅从相应视图的嵌入中推断出来,以学习特殊的视觉表示(如角度、样式和大小等)。对于每个视图,其潜在变量由 c 和 zv 组成,用于生成示例。由于聚类信息是离散的,独特的视觉信息是连续的,我们选择的c和zv的先验分布是Gumbel Softmax分布和高斯分布

通过控制训练过程中潜在变量的后验与其先验之间的 KL 散度的互信息能力,可以解开多个视图的公共和特殊视觉表示,进一步用于聚类。具体来说,这项工作的贡献包括:

• 我们提出了一种新的多视图 VAE 框架,即 Multi-VAE,其中引入了视图常见和视图熟悉变量来挖掘离散簇和连续视觉因子。

• 我们的模型可以解开所有视图的公共集群表示和每个视图的特殊视觉表示。这样,在挖掘多个视图的互补信息进行聚类时,减少了多个视图多余信息的干扰。

• 与其他方法相比,Multi-VAE 显示出明显优越的聚类性能。此外,它的复杂性与数据大小成线性关系。据我们所知,这是第一次尝试通过学习解纠缠和可解释的表示来实现 MVC。

2 related work

基于自动编码器的聚类。近年来,自动编码器 (AE) 在高维数据的表示方面表现出令人印象深刻的性能。DEC [44] 是一种众所周知的方法,它利用 AE 来执行聚类。它的改进版本 (IDEC) [11] 引入了重建项来解决嵌入空间的失真。在[9]中应用卷积自编码器来处理图像聚类,更多基于 AE 的聚类工作可以在 [12, 35] 中找到。变分推理和自动编码器的结合导致变分自动编码器 (VAE) [17] 的诞生。基于 VAE 的深度聚类框架首先在 [16] 中提出,其中数据的生成过程使用高斯混合模型 [29] 建模。高斯先验也用于后续的基于 VAE 的聚类模型 [5, 22]。Yang等人[48]提出了高斯混合变分自编码器中的图嵌入。尽管已经有一些基于 VAE 的多视图或多模态学习方法,例如 [8, 20, 42, 50],但我们的工作是首次尝试在视图公共和视图独特表示学习的角度给出一个解纠缠的多视图 VAE 框架。

多视图聚类。光谱聚类[31]是一种流行的传统方法。在[18]中,将谱聚类扩展到进行多视图聚类。[33]中提出了一种无参数方法,它是一种自动加权的多图学习框架。非负矩阵分解,相当于松弛的 Kmeans,也应用于一些多视图聚类方法。例如,刘等人。 [25] 通过矩阵分解探索了多视图公共潜在因素。Zhao等人[52]提出了一种用于多视图聚类的深度矩阵分解结构。多视图子空间聚类受到了广泛关注,它假设多个视图的数据共享一个公共子空间。在[21]中,作者采用自表示层分层获取子空间,利用编码层实现多视图一致性。这项工作[3]同时学习聚类分配和多视图嵌入。最近,多视图聚类讨论了更多技术,例如二进制编码 [51] 和自节奏学习 [36]。近年来,基于深度模型的多视图聚类[24,40,45,46,54]

解纠缠表示学习。与普通表示学习相比,解纠缠表示学习旨在获得隐藏在数据[1]中的可解释因子。InfoGAN[4]和β-VAE[13]是无监督解纠缠的两种最突出的方法。InfoGAN 可以学习离散和连续表示,但它存在训练样本不稳定和生成样本多样性降低的问题。在 β-VAE 中,ELBO 包含似然项和 KL 散度 (DKL) 项:LELBO (x) = Eq(z|x) [log p(x|z)]-βDKL(q(z|x)||p(z)),(1) 其中观察到的样本 x 是从潜在变量 z 生成的。人们对 KL 散度项(即 β > 1)给予更高的权重,以增加后验 q(z|x) 的压力以匹配先验 p(z),这有利于学习解开的表示。[6, 39] 给出了基于 VAE 的框架来分离离散和连续表示,实现重建质量和解纠缠之间的平衡,这些工作[2,6]提出在训练过程中逐渐增加KL散度项的上界。

3. The Proposed Method

 Multi-VAE 的框架。推理过程:zv 提取由相应编码器转换的嵌入中包含的第 v 个视图的特殊视觉信息。c 表示所有视图嵌入之间的集群信息。生成过程:第 v 个视图的潜在变量由 zv 和 c 组成,它们被馈送到相应的解码器中以生成样本。

问题陈述。给定一个多视图图像数据集{x1i, x2i,…,, xV i }N i=1,每个样本有 V 个视图,包含不同的视觉信息,N 是数据大小。多视图聚类旨在将它们分组到K个聚类

3.1。由于我们的动机是通过VAE学习多个视图的解纠缠表示,我们引入了独立的视图公共变量c∈RK和视图独特变量{zv∈RZv}V v=1来建模多视图数据。我们考虑以下生成模型(即联合概率):p(xv , zv , c) = p(xv |zv , c)p(zv , c) = p(xv |zv , c)p(zv )p(c), (2) 其中视图公共变量 c 由所有视图共享并表示它们的集群信息。对于第v个视图,视锥变量zv表示其特殊的视觉信息,如角度、大小、风格等。在不丧失一般性的前提下,应从所有视图中获得聚类信息,只从第v个视图中提取特殊信息。令 {xv } 表示所有视图的数据,即 {x1, x2,., xV }。因此,c 和 zv 的后验分别写为 p(c|{xv }) 和 p(zv |xv )。考虑到计算 VAE 中后验积分是难以处理的,我们使用由 φ 和 φv 参数化的 qφ(c|{xv }) 和 qφv (zv |xv ) 来近似真正的后验

推理过程。如图 1 所示,所有视图的嵌入被连接起来,以便在推理过程中学习它们的公共信息。然后,K个神经元(表示为 s = {s1, s2,., sK }) 设置为获得视图公共变量 c。具体来说,为了轻松表示数据的聚类分配,我们期望 c 是一个 one-hot 表示。然而,离散随机变量对于神经网络的参数是不可微的。它在[15,28]中讨论了它的可微松弛。在此基础上,我们选择的视图公共变量的先验是独立均匀Gumbel Softmax分布的乘积,即p(c) = p(c1)p(c2)。p(ck ),其中 p(ck) ∼ Gumbel(0, 1)。因此,近似后验 qφ(c|{xv }) 写为

生成过程。每个视图的潜在变量都包含视图公共变量 c 和视图调用变量 zv。在生成过程中,它们被连接以生成示例。此外,第 v 个视图的可能性或解码器可以表示为 ^xv = pθv (xv |zv , c)。(7) 在架构中,参数 φ, {φ1, φ2,., φV } 和 {θ1, θ2,., θV } 部分共享,为方便起见,在随后的推导中省略。

3.2.变分下限

变分推理的目标是最大化观察到的多视图数据的似然函数。通过使用 Jensen 不等式,我们提出的模型的对数似然表示为(8)

其中 LELBO (xv ) 是第 v 个视图的证据下界 (ELBO)。在变分推理中,最大化似然等于最大化 ELBO。给定p(xv, zv, c) = p(xv |zv, c)p(zv, c),每个视图的ELBO可以写成(9)

通过这种方式,将 c 和 zv 的 KL 散度项分开,旨在解开视图通用和视图显式表示。对于第 v 个视图,要最大化的目标变为上图中公式(11)

3.3.学习解纠缠表示,

KL散度项是潜在变量和数据之间的互信息的上界。为了解开我们模型的视图常见和视图熟悉表示,每个潜在变量都应该编码更多的变化信息。因此,式(11)中KL散度项的信道容量应该逐渐增加。我们分别定义了视图公共变量和视图关联变量的 KL 散度项的受控容量 Cc 和 Cz。第 v 个视图的 ELBO 表示为(12)

 其中 H 是熵。在此基础上,我们让 Cc = log K,它控制 c 中编码的变分信息的最大容量。考虑到不同视图具有不同的数据重建损失尺度,

其中第一项和第二项被优化以学习解开的视图公共和视图熟悉表示。第三个术语是似然项,它经过优化以保持 VAE 的重建质量。

Multi-VAE-C:回顾图 1 中的框架,所有视图的特征都被分成 {c, z1, z2,。, zV }。然后组合每对 {c, zv } 来重建特征。通过这种方式,每个视图的特殊视觉信息由其视图熟悉表示(或变量)zv 提取。相反,所有视图的公共集群信息都由视图公共表示 c 提取。由于 c 是 one-hot 表示的近似值,因此第 i 个样本的聚类预测可以通过 yi = arg maxj (cj ) = arg maxj (qφ(cj |{xv i })) 计算。(16)Multi-VAE-CZ:给定多个视图的视觉信息可能是聚类的补充,我们将分离的表示缩放到 [0, 1] 并将它们连接起来形成一个全局潜在表示(表示为 [c; {zv }]),它被输入 K-means 以获得另一个聚类预测。复杂性分析。我们将 K、V、N 定义为集群、视图和数据点的数量。令 M 表示自动编码器中的最大神经元数量,Z 表示视图熟悉变量的最大维度。一般来说,V、K、Z ≪ M 成立。Multi-VAE的优化只是最小化Eq.(15),如算法1所示。在每次迭代中,为视图公共变量生成先验分布的复杂度为O(NK),对于视图关联变量isO(VN Z)。所有视图的自动编码器复杂度为 O(VN M 2)。因此,我们方法的总复杂度与数据大小 N 成线性关系。

  • 29
    点赞
  • 16
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值