1.motivation
本文提出了一种新的两步方法来解决从一个分布到另一个分布学习最优映射的基本问题。首先,学习一个最优运输(OT)计划,它可以被认为是两个分布之间的一对多映射。为此,本文提出了一种正则化OT的随机对偶方法,并从经验上表明,当样本量很大时,效果比相关其它方法更好。其次,将Monge映射估计为通过近似先前获得的OT计划的重心投影而学习的深度神经网络。此参数化允许在输入度量的支持之外对映射进行泛化。本文证明了正则化OT的两个理论稳定性结果,表明本文的估计收敛于基础连续测度之间的OT规划和Monge映射。在两个应用中展示了本文提出的方法:领域自适应和生成建模。
2.introduce
将一个分布映射到另一个分布。给定两个随机变量X和Y分别取X和Y中的值,找到映射f使得f(X)和Y具有相同分布的问题(此后表示为f(X)~Y)在许多领域都有应用。例如,在领域自适应中,给定具有不同分布的源数据集和目标数据集,使用映射来对齐源和目标分布是一种自然的公式,因为理论已经表明泛化取决于两个分布之间的相似性。在这种设置中,潜在变量X通常被选择为连续随机变量,例如高斯分布,而Y是真实数据的离散分布,例如ImageNet数据集。通过学习映射f,从生成模型中采样可以归结为简单地从X中绘制一个样本,然后将f应用于该样本。
具有最优性的映射。在验证f(X)~Y的潜在许多映射中,找到一个满足某些最优性准则的映射可能是有意义的。考虑到将质量从一个点移动到另一个点的成本,人们自然会寻找一个将质量从X运输到Y的总成本最小化的映射。这是Monge的原始提法,开创了最优运输理论的发展。这种最优映射在许多应用中都是有用的,例如颜色转移、形状匹配、数据同化或贝叶斯推断。在小维和某些特定成本下,多尺度方法或动态公式可用于计算最优映射,但这些方法在高维中变得难以处理,因为它们基于离散空间。此外,f(X)~Y的映射可能不存在,例如,当X是常数而不是Y时。尽管如此,人们还是希望至少近似地找到分布之间的最优映射。OT的现代方法通过优化规划来放松Monge问题,即在乘积空间X×Y上的分布,而不是映射,将OT问题转化为一个总是可行且更容易求解的线性规划。然而,即使使用诸如网络单纯形之类的专用算法,求解该线性程序也需要O(n3-logn)时间,其中n是离散分布(测度)支持的大小。
大规模OT。在OT问题中引入熵正则化将其对偶问题变成了一个更容易的优化问题,可以使用Sinkhorn算法来解决。然而,Sinkhorn算法不能很好地扩展到在大量样本上支持的度量,因为它的每个迭代都具有O(n2)的复杂性。此外,Sinkhorn算法不能处理连续的概率测量。为了解决这些问题,最近的两项工作提出了通过随机梯度方法优化对偶OT问题的变化。Genevay et al. (2016) 提出的优化“半对偶”目标函数每次迭代仍然需要O(n)次运算,因此只能适度地缩放输入度量的大小。Arjovsky等人(2017)提出了一种特定于所谓的1-Wasserstein距离(使用欧几里得距离作为成本函数的非正则OT)的公式。该公式具有一个更简单的对偶形式,带有一个可以参数化为神经网络的单个变量。这种方法可以更好地扩展到非常大的数据集,并处理连续的测量,从而使OT的使用成为学习生成模型的损失。然而,该公式的缺点是对偶变量必须满足作为Lipschitz函数的非平凡约束。作为一种变通方法,Arjovsky等人(2017)提出在神经网络参数的更新之间使用权重剪裁。然而,这使得人们不清楚所学习的生成模型是否真的在OT意义上得到了优化。除了这些限制之外,这些工作只关注OT目标的计算,而没有解决在两个分布之间找到最优映射的问题。
贡献。本文提出了一种新的两步方法来学习满足f(X)~Y的最优映射f。首先,计算了一个最优运输计划,该计划可以被认为是两个分布之间的一对多映射。为此,本文提出了一种新的简单对偶随机梯度算法来求解正则化OT,该算法与输入测度的大小成正比。
本文提供的数值证据表明,我们的方法比(Genevay等人,2016)中考虑的半对偶方法收敛得更快。其次,我们通过近似在第一步中获得的OT计划的重心投影来学习作为神经网络的最优映射(也称为Monge映射)。使用神经网络对该映射进行参数化允许有效学习,并在输入度量的支持之外提供泛化。图1提供了一个2D示例,显示了高斯测度和离散测度之间的计算映射以及由此产生的密度估计。在理论方面,我们证明了正则化最优规划(分别为正则化最优计划的重心投影)与采样数据的基础连续测度之间的最优规划(相应为Monge映射)的收敛性。展示了我们在领域自适应和生成建模方面的方法。
图1:连续高斯分布(彩色水平集)和多模态离散测度(红色+)之间的估计最优映射示例。(左)连续源和离散目标分布。估计最优映射的(左中)位移场:每个箭头与f(xi)−xi成比例,其中(xi)是一个均匀离散网格。(右中)通过从源分布中采样并应用我们估计的Monge图f获得的生成样本。(右)所得密度的水平集(近似为106个样本的2D直方图)。
3.OT background
Monge问题
考虑一个代价函数c:(x,y)∈X×Y→ c(x,y)∈R+,两个随机变量x~µ和y~v分别取x和y中的值。Monge问题在于找到一个映射f:X→ Y,其将质量从µ运输到v,同时使质量运输成本最小化,
Monge最初考虑成本c(x,y)=||x−y||2,但在本文中将Monge问题称为任何成本c的问题(1)。当µ是离散测度时,满足约束的映射f可能不存在:如果µ在单点上受支持,那么只要在单点不受支持,就不存在这样的映射。在这种情况下,Monge问题是不可行的。然而,当X=Y=Rd,µ允许密度,并且c是欧几里得距离的平方时,Brenier(1991)的一个重要