【最优传输论文十八】2022 T-PAMI - Differentiable Hierarchical Optimal Transport for Robust Multi-View Learning

motivation

传统的多视图学习方法通常依赖于两个假设:(i)不同视图中的样本是对齐良好的,(ii)它们的表示在潜在空间中服从相同的分布。然而这两个假设在实践中限制了多视图学习的应用。在这项工作中,本文提出了一种可微分层最优传输(DHOT)方法来减轻多视图学习对这两个假设的依赖。给定任意两个视图的未对齐多视图数据,DHOT方法计算其潜在分布之间的切片Wasserstein距离。基于这些切片的Wasserstein距离,DHOT方法进一步计算不同视图之间的熵最优传输,并明确表示视图的聚类结构。因此,熵最优传输与底层的切片Wasserstein距离一起,产生了一个针对未对齐的多视图数据定义的分层最优传输距离,该传输距离作为多视图学习的目标函数,并导致了一个双层优化任务。此外,DHOT方法将熵最优输运作为模型参数的可微算子。该方法在反向传播阶段考虑了熵最优传输的梯度,从而改善了模型在训练阶段的下降方向。通过与传统交替优化策略的比较,证明了双层优化策略的优越性。DHOT方法既适用于无监督学习也适用于半监督学习。实验结果表明,DHOT方法在合成任务和现实任务上至少可以与最先进的多视图学习方法相媲美,特别是对于具有未对齐多视图数据的挑战性场景。

1 introduce

在本研究中,提出了一种新的多视图学习方法,称为可微层次最优传输(DHOT),减轻了多视图学习对上述两个假设的依赖。如图1(b)所示,多视图模型由多个编码器组成,每个编码器对应一个视图的数据。由编码器导出的潜在表征被连接在一起,作为判别任务的分类器的输入。编码器是在典型相关分析(CCA)的框架下共同学习的,这使得不同视图的潜在表征之间的差异最小化。本文利用切片Wasserstein距离来衡量不同视图的潜在分布之间的差异,而不需要它们的样本之间的对应关系。此外,对不同视图之间的切片Wasserstein距离施加可学习的权重,并将权重实现为熵最优传输,从而产生分层最优传输(HOT)模型(即图1(b)中的蓝色矩阵)。HOT模型使用不同的强度来惩罚不同视图之间的距离,从而隐式地指示视图的簇。此外,为了明确聚类结构,可以引入一些可学习的引用,并定义视图和引用之间的HOT(即图1(b)中的橙色矩阵)。当只提供未对齐的未标记数据时,我们以无监督的方式学习编码器,最小化视图之间的HOT距离或视图与引用之间的HOT距离。当有一些对齐良好的标记数据可用时,我们以半监督的方式共同学习编码器和分类器。

与传统的交替优化方法不同,DHOT方法使HOT距离对模型参数可微,通过双层优化策略学习提出的多视图学习模型。将熵最优输运视为模型参数的可微算子,并考虑其在反向传播步骤中的梯度。借助[18]中的定理2,以封闭形式计算梯度,这使DHOT方法计算效率很高。实验表明,DHOT方法可以帮助在学习阶段找到更好的梯度下降方向,以更少的假设实现鲁棒的多视图学习,并且在多数据集上优于基线。

图1:(a)在实际操作中,多视图数据可以不对齐,并且每个多视图样本可能是不完整的。不同视图的信息往往是互补的,因此不同视图的潜在分布可能不同。(b)在DHOT方法中,fs表示编码器将第s个视图的样本映射到它们的潜在表示(不同颜色的点云)。分类器连接不同视图的潜在表示并预测目标标签。当只有未对齐的未标记数据可用时,编码器以无监督的方式与分类器独立训练。当提供一些对齐良好的标记数据时,编码器和分类器可以在半监督框架下进行联合训练。基于两种策略实现DHOT方法:根据潜在分布之间的切片Wasserstein距离(蓝色箭头)学习视图的最佳传输,或者学习视图和一些可学习参考之间的最佳传输(橙色箭头)。 

2 related work

2.1 Multi-view learning

多视图学习可以大致分为三种策略:协同训练,多核融合和协同正则化。协同训练方法使用标记的样本迭代学习每个视图的分类器,并根据每个分类器的预测对未标记的数据进行注释。基于核的方法合并不同视图的核矩阵,并基于合并核学习全局表示。协同正则化方法添加正则化项以鼓励来自不同视图的数据保持一致。传统的协同正则化方法包括(i)基于cca的方法,(ii)需要标记数据的基于线性判别分析的方法。最近,大规模的多模态预训练模型采用自监督或弱监督的方法来学习“文本-图像”生成模型。从多视图学习的角度来看,这些模型的学习策略将协同训练与协同正则化相结合,从一种模态(视图)预测另一种模态(视图)的数据,使它们共享相同的潜在空间。、

协同训练方法通常是为那些双视图情况设计的。将它们扩展到多视图情况需要复杂的策略。此外,基于核的方法可以处理多视图情况,但其换能性要求它们为每个视图计算一个核矩阵,其计算复杂度为N个样本的O(n2)。与这两种策略相比,协同正则化策略(如CCA及其变体)在视图数量和数据大小方面都具有更好的可伸缩性。因此,在本研究中重点研究了共正则化策略及其改进。

上述所有方法都需要对齐良好的多视图数据。在实践中,我们需要放宽这种严格的约束,实现基于未对齐多视图数据的多视图学习。实现这一目标需要估计样本在不同视图之间的对应关系,这就导致了多视图对齐问题。

2.2 Learning from unaligned data

[17]中的工作旨在从标签洗牌的样本中学习线性回归模型。为了实现这一目标,开发了一种交替最小化方法,并将该方法进一步扩展为随机EM算法。文献[18]从最优运输的角度重新表述了这一问题,并采用双层优化策略进行求解,获得了更好的性能。除了回归任务之外,无对应学习在点云对齐和图匹配等应用中也很常见。在[34]中,开发了一种相干点漂移算法,该算法通过在EM框架中学习非刚性配准来对齐点云。文献[35]提出了一种称为Gromov-Wasserstein学习的图匹配算法。对于给定的两个图,该方法通过一个最优传输矩阵来学习它们的节点嵌入,该矩阵表示它们节点的对应关系。在更具挑战性的任务中,例如高维生成模型的迁移学习,CycleGAN[36]等方法通过匹配未配对数据的分布来学习基于神经网络的模型。[37]中的Gromov-Wasserstein GAN学习跨异构样本空间的耦合生成模型。

[28]、[38]、[39]中的方法实现了基于不完整视图或噪声视图的监督式多视图学习。此外,对于不完全多视图数据的聚类,文献[38]、[40]、[41]、[42]、[43]、[44]提出了一些半监督方法。从本质上讲,这些方法将视图的不完整性作为多视图数据未对齐的一种特殊情况,共同实现不同视图的表示和对齐。然而,这些方法仍然需要一部分对齐良好的多视图数据作为它们的地标,当视图数大于2时,它们的对齐结果通常不一致,并且对数据噪声敏感。此外,这些方法在对齐不同视图时仍然要求视图具有相同的潜在分布,这与前面提到的一样值得怀疑。

2.3 Optimal transport-based learning

最优传输理论已被证明在分布匹配、数据聚类和学习生成模型方面是有用的。最优输运理论为概率度量提供了一个有用的度量,称为Wasserstein距离。即使概率度量的支持不重叠,Wasserstein距离也是有效的,因此该距离被广泛用作目标函数,以最小化数据分布与模型分布之间的差异,产生Wasserstein生成对抗网络(WGAN)和Wasserstein自动编码器(WAE)。

基于传输的最优学习方法的一个优点是,它们在匹配分布时不需要样本的对应关系。通过计算最优输运距离得到的最优传输表明了两者的对应关系。事实上,一些方法已经利用这一优势来完成一些具有挑战性的匹配任务,如带洗牌的线性回归、图匹配和点云配准。因此,在这项工作中,希望开发一种基于传输的最佳模型,以实现基于未对齐数据的鲁棒多视图学习。

3 Preliminaries

数学上,概率测度的Wasserstein距离定义如下。

定义1 (Wasserstein距离)。设(\chi ,d_{\chi })是紧度量空间,其中X是空间,dX是其中定义的度量。对于定义在X上的任意两个概率测度µ和ν,它们之间的Wasserstein距离定义为

<
  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值