摘要
首个使用最优传输来解决领域自适应问题,通过在源域和目标域的概率分布函数之间搜索最佳运输计划,可以估计学习样本的非线性和可逆变换。任何标准的机器学习方法都可以应用于转换集,这使得本文的方法非常通用。本文提出了一种新的优化传输算法,该算法在优化中引入了标签信息:这是通过将有效的矩阵缩放技术与非凸正则化项的优化相结合来实现的。
本文为源域中的每个样本定义了一个本地运输计划,从这个意义上说,域自适应问题可以被视为要传输的所有样本的图匹配问题,其中通过将源样本映射到与目标域的边缘分布匹配的坐标来找到它们的最终坐标。
一、Optimal Transportation
1.1The Monge-Kantorovitch Problem and Wasserstein Space
T#u在上的概率测度:
设和是两个域的两个概率测度。如果T#=,则称T为传输。与此相关的成本 :
密度函数:dμ(x)=f(x)dx
其中成本函数c:Ω1×Ω2→ R+可以理解为正则距离函数,但也可以理解为将质量μ(x)从x移动到y所需的能量。现在可以将最佳传输T0定义为以下最小化问题的解:
将 Ω1中的x运输到Ω2的的最小成本的解,即Monge传输问题。
最优输运的等价Kantorovitch公式寻求Ω1和Ω2之间的概率耦合γ∈P(Ω1×Ω2):
其中是上的投影。在这个公式中,γ可以被理解为具有边缘μs和μt的联合概率测度。γ0是最优运输问题的唯一解。它允许将μs和μt之间的Wasserstein距离(EMD距离)定义为:
sup上确界:一个集合最小的上界;inf下确界:一个集合最大的下界
1.2 Optimal Transport of Discrete Distributions
最优传输的离散分布