【最优传输论文十七】2018 Large- scale optimal transport and mapping estimation

1.motivation

本文提出了一种新的两步方法来解决从一个分布到另一个分布学习最优映射的基本问题。首先,学习一个最优运输(OT)计划,它可以被认为是两个分布之间的一对多映射。为此,本文提出了一种正则化OT的随机对偶方法,并从经验上表明,当样本量很大时,效果比相关其它方法更好。其次,将Monge映射估计为通过近似先前获得的OT计划的重心投影而学习的深度神经网络。此参数化允许在输入度量的支持之外对映射进行泛化。本文证明了正则化OT的两个理论稳定性结果,表明本文的估计收敛于基础连续测度之间的OT规划和Monge映射。在两个应用中展示了本文提出的方法:领域自适应和生成建模。

2.introduce

将一个分布映射到另一个分布。给定两个随机变量X和Y分别取X和Y中的值,找到映射f使得f(X)和Y具有相同分布的问题(此后表示为f(X)~Y)在许多领域都有应用。例如,在领域自适应中,给定具有不同分布的源数据集和目标数据集,使用映射来对齐源和目标分布是一种自然的公式,因为理论已经表明泛化取决于两个分布之间的相似性。在这种设置中,潜在变量X通常被选择为连续随机变量,例如高斯分布,而Y是真实数据的离散分布,例如ImageNet数据集。通过学习映射f,从生成模型中采样可以归结为简单地从X中绘制一个样本,然后将f应用于该样本。

具有最优性的映射。在验证f(X)~Y的潜在许多映射中,找到一个满足某些最优性准则的映射可能是有意义的。考虑到将质量从一个点移动到另一个点的成本,人们自然会寻找一个将质量从X运输到Y的总成本最小化的映射。这是Monge的原始提法,开创了最优运输理论的发展。这种最优映射在许多应用中都是有用的,例如颜色转移、形状匹配、数据同化或贝叶斯推断。在小维和某些特定成本下,多尺度方法或动态公式可用于计算最优映射,但这些方法在高维中变得难以处理,因为它们基于离散空间。此外,f(X)~Y的映射可能不存在,例如,当X是常数而不是Y时。尽管如此,人们还是希望至少近似地找到分布之间的最优映射。OT的现代方法通过优化规划来放松Monge问题,即在乘积空间X×Y上的分布,而不是映射,将OT问题转化为一个总是可行且更容易求解的线性规划。然而,即使使用诸如网络单纯形之类的专用算法,求解该线性程序也需要O(n3-logn)时间,其中n是离散分布(测度)支持的大小。

大规模OT。在OT问题中引入熵正则化将其对偶问题变成了一个更容易的优化问题,可以使用Sinkhorn算法来解决。然而,Sinkhorn算法不能很好地扩展到在大量样本上支持的度量,因为它的每个迭代都具有O(n2)的复杂性。此外,Sinkhorn算法不能处理连续的概率测量。为了解决这些问题,最近的两项工作提出了通过随机梯度方法优化对偶OT问题的变化。Genevay et al. (2016) 提出的优化“半对偶”目标函数每次迭代仍然需要O(n)次运算,因此只能适度地缩放输入度量的大小。Arjovsky等人(2017)提出了一种特定于所谓的1-Wasserstein距离(使用欧几里得距离作为成本函数的非正则OT)的公式。该公式具有一个更简单的对偶形式,带有一个可以参数化为神经网络的单个变量。这种方法可以更好地扩展到非常大的数据集,并处理连续的测量,从而使OT的使用成为学习生成模型的损失。然而,该公式的缺点是对偶变量必须满足作为Lipschitz函数的非平凡约束。作为一种变通方法,Arjovsky等人(2017)提出在神经网络参数的更新之间使用权重剪裁。然而,这使得人们不清楚所学习的生成模型是否真的在OT意义上得到了优化。除了这些限制之外,这些工作只关注OT目标的计算,而没有解决在两个分布之间找到最优映射的问题。

贡献。本文提出了一种新的两步方法来学习满足f(X)~Y的最优映射f。首先,计算了一个最优运输计划,该计划可以被认为是两个分布之间的一对多映射。为此,本文提出了一种新的简单对偶随机梯度算法来求解正则化OT,该算法与输入测度的大小成正比。

本文提供的数值证据表明,我们的方法比(Genevay等人,2016)中考虑的半对偶方法收敛得更快。其次,我们通过近似在第一步中获得的OT计划的重心投影来学习作为神经网络的最优映射(也称为Monge映射)。使用神经网络对该映射进行参数化允许有效学习,并在输入度量的支持之外提供泛化。图1提供了一个2D示例,显示了高斯测度和离散测度之间的计算映射以及由此产生的密度估计。在理论方面,我们证明了正则化最优规划(分别为正则化最优计划的重心投影)与采样数据的基础连续测度之间的最优规划(相应为Monge映射)的收敛性。展示了我们在领域自适应和生成建模方面的方法。

图1:连续高斯分布(彩色水平集)和多模态离散测度(红色+)之间的估计最优映射示例。(左)连续源和离散目标分布。估计最优映射的(左中)位移场:每个箭头与f(xi)−xi成比例,其中(xi)是一个均匀离散网格。(右中)通过从源分布中采样并应用我们估计的Monge图f获得的生成样本。(右)所得密度的水平集(近似为106个样本的2D直方图)。

3.OT background

Monge问题

考虑一个代价函数c:(x,y)∈X×Y→ c(x,y)∈R+,两个随机变量x~µ和y~v分别取x和y中的值。Monge问题在于找到一个映射f:X→ Y,其将质量从µ运输到v,同时使质量运输成本最小化,

Monge最初考虑成本c(x,y)=||x−y||2,但在本文中将Monge问题称为任何成本c的问题(1)。当µ是离散测度时,满足约束的映射f可能不存在:如果µ在单点上受支持,那么只要在单点不受支持,就不存在这样的映射。在这种情况下,Monge问题是不可行的。然而,当X=Y=Rd,µ允许密度,并且c是欧几里得距离的平方时,Brenier(1991&#

  • 0
    点赞
  • 0
    收藏
    觉得还不错? 一键收藏
  • 0
    评论
光滑稀疏最优运输是一种用于计算两个概率分布之间的最佳匹配的数学方法。在传统最优运输问题中,我们试图找到通过最小化运输成本将一个概率分布变为另一个概率分布的最佳方法。然而,在实际应用中,我们经常希望找到的匹配不仅是最佳的,还具有光滑性和稀疏性。 光滑稀疏最优运输算法最早由Gabay和Mercier在1987年提出。它结合了传统最优运输和线性规划的思想,并引入了正则项来促进光滑和稀疏性。这使得我们不仅可以获得最佳匹配,还可以获得具有更好结构的匹配。 在光滑稀疏最优运输中,光滑性意味着匹配的变化应该是连续的,并且应该尽量减少不连续的跃迁。稀疏性意味着匹配应该尽量集中在较少的区域上,并且尽量避免浪费。 为了实现这一目标,光滑稀疏最优运输算法引入了一个额外的正则项,称为凸松弛。这个凸松弛通过将传统最优运输问题转化为一个线性规划问题,并引入额外的约束条件来实现光滑稀疏性。通过调整这个凸松弛参数,我们可以平衡光滑性和稀疏性,并获得最佳的匹配结果。 光滑稀疏最优运输在许多领域有着广泛的应用,例如计算机视觉、图像处理、统计学等。它可以应用于图像对齐、图像分类、图像检索等问题中,以获得更好的匹配结果。此外,光滑稀疏最优运输还可以用于模式识别、信号处理、自然语言处理等领域,以提高数据匹配和分析的性能。 总而言之,光滑稀疏最优运输是一种计算两个概率分布之间最佳匹配的方法,它结合了光滑性和稀疏性的思想,并通过引入正则项来实现这些属性。它在许多领域有着广泛的应用,并可以提供更好的数据匹配和分析性能。

“相关推荐”对你有帮助么?

  • 非常没帮助
  • 没帮助
  • 一般
  • 有帮助
  • 非常有帮助
提交
评论
添加红包

请填写红包祝福语或标题

红包个数最小为10个

红包金额最低5元

当前余额3.43前往充值 >
需支付:10.00
成就一亿技术人!
领取后你会自动成为博主和红包主的粉丝 规则
hope_wisdom
发出的红包
实付
使用余额支付
点击重新获取
扫码支付
钱包余额 0

抵扣说明:

1.余额是钱包充值的虚拟货币,按照1:1的比例进行支付金额的抵扣。
2.余额无法直接购买下载,可以购买VIP、付费专栏及课程。

余额充值