Computational Optimal Transport 笔记——第二章（2）

最新推荐文章于 2023-06-26 01:47:59 发布

晒太阳的喵喵

最新推荐文章于 2023-06-26 01:47:59 发布

阅读量891

点赞数 1

文章标签：算法大数据

本文链接：https://blog.csdn.net/weixin_40239306/article/details/104216790

版权

Computational Optimal Transport 笔记——第二章（2）

符号说明
2. 理论基础

符号说明

耦合矩阵 coupling matrix： $\in R^{n \times m}_{+}$ ，其中 $P_{i,j}$ 代表从 bin $i$ 移动到 bin $j$ （或者在离散情况下从 $x_i$ 移动到 $y_j$ ）的质量。
Admissible coupling：

(行和为 $a$ 向量，列和为 $b$ 向量的矩阵)
$\mathcal{L_c}(\alpha, \beta)$ ：在离散测度下的 Kantorovich problem。

在任意测度下的 Kantorovich problem

p-Wasserstein distance：

在任意测度中的 p-Wasserstein distance：

2. 理论基础

2.3 Kantorovich Relaxation

Kantorovich
Kantorovich 的核心思想是放松交通的确定性，即一个源点 $x_i$ 只能被分配到另一个点或位置 $y_{\sigma_i}$ 或者 $T(x_i)$ 。Kantorovich 建议在任何地点的质量有可能被分配到几个地点。即Kantorovich 不再认为质量运输应该是确定性的，而是考虑一种概率运输，这种概率运输允许质量从一个源头分裂到几个目标。
不是使用排列 $\sigma$ 或者 map $T$ ，而是使用 coupling matix $\in R^{n \times m}_{+}$ ，其中 $P_{i,j}$ 代表从 bin $i$ 移动到 bin $j$ （或者在离散情况下从 $x_i$ 移动到 $y_j$ ）的质量。
Admissible coupling的特征有：

【行和为 $a$ 向量，列和为 $b$ 向量】
可以看出，矩阵集合 $U (a, b)$ 被 $n + m$ 个等式约束，是一个凸多面体。

Kantorovich 的对称性
Kantorovich’s relaxed formulation是对称的，即耦合矩阵 $P$ 在 $U (a, b)$ 中当且仅当 $P^{T}$ 在 $U (b, a)$ 中。

Kantorovich’s optimal transport problem
Kantorovich’s optimal transport problem是

这是一个线性规划问题，与此类程序的通常情况一样，它的最佳解决方案不一定是惟一的。

Remark 2.10 （矿山和工厂）略

Permutation matrices as couplings 对于排列 $\sigma \in Perm(n)$ ，我们将对应的排列矩阵 $P_{\sigma}$ 写为

此时有

这表明assigment problem可以写为Kantorovich problem，当 $P$ 的约束为排列矩阵：

可以计算得， $P_{\sigma} \in U(\frac{1_n}{n}, \frac{1_n}{n})$ ，但是不是在 $U(\frac{1_n}{n}, \frac{1_n}{n})$ 中所有的矩阵都是排列矩阵，例如 $1_n 1_n^{T}/n^2$ 。因此 $< C, P >$ 更小

接下来的定理说明两个问题有相同的最小值，也就是说可以找到一个permutation matrix最小化当 $a=b=1_n/n$ 下 Kantorovich problem。

证明： Brikhoff 理论说明集合 $U(1_n/n, 1_n/n)$ 的极点与 Permutation matrices 是相等的。

Remark 2.11（在离散测度下的 Kantorovich problem）对于离散测度 $\alpha,\beta$ ，将于 $\alpha, \beta$ 的支撑集中的点两两之间的cost记入矩阵 $C$ ， $C_{i,j}\xlongequal{def.} c(x_i,y_j)$ ，定义

$a, b$ 是支撑集中的概率权重向量。

Remark 2.12（使用 optimal assigments and couplings）OT问题的应用。
可作为阅读文献

Remark 2.13（任意测度下的 Kantorovich problem）在乘积空间上的联合分布中考虑 couplings

在离散测度下

在一般情况下，mass conservation constraint可以被写为联合概率分布下的 marginal constraint

定义投影

$P_{\mathcal{X\#}}$ 和 $P_{\mathcal{Y\#}}$ 是投影的 push-forward。
这些 marginal constraints等价于

Kantorovich问题（2.11）可以一般化为

这是一个在测度空间上的无限维的线性规划问题。如果 $(\mathcal{X,Y})$ 是紧空间， $c$ 是连续函数，这个问题总是有解。

Remark 2.14（概率解释）Kantorovich’s problem可以通过随机变量解释，问题（2.15）可以等价为

其中 $(X, Y)$ 是在 $\mathcal{X \times Y}$ 上的随机变量，并且 $\mathcal{X}\sim \alpha$ , $\mathcal{Y}\sim \beta$

SUM

2.4 Optimal Transport 的度量性质

OT问题的一个特点就是定义了 histograms （和 probability measures）之间的距离，要求 cost matrix 满足某些条件。OT问题可以理解为将两点之间的 ground distance 提升到计算 histogram 或 measure 之间的距离。
设 “ground metric” matrix $C$ 代表 bin 之间的 cost。我们考虑这种情况 matrix $C$ 是固定的，并且在 $n$ 个 histogram 之间共享。接下来的 Proposition 说明 p-Wasserstein 距离是 histogram 间有效的距离。

Proposition 2.2 我们假设 $n = m$ ，对于一些 $\geq 1$ ， $C=D^p=(D_{i,j}^p)_{i,j} \in R^{n \times n}$ ，其中 $\in R^{n \times n}_{+}$ 是 $[n]$ 上的距离，即

令

定义了在 $\Sigma_n$ 上的 p-Wasserstein distance。可证明 $W_p$ 是对称、正定、满足三角不等式

Remark 2.15（在 $\leq 1$ 的情况）注意到如果 $\leq 1$ ， $D^{p}$ 是 itself distance。这说明当 $\geq 1$ 时， $W_{p}(a,b)$ 是单纯形 $a, b$ 之间的距离。当 $\leq 1$ 时， $W_p(a,b)^p$ 是纯形 $a, b$ 之间的距离。

Remark 2.16（Wasserstein distance 的应用）

Remark 2.17（在测度间的 Wasserstein distance）Proposition 2.2 可以被一般化为处理任意测度。
Proposition 2.3 假设 $\mathcal{X=Y}, p\geq 1, c(x,y)=d(x,y)^{p}$ ，其中 $d$ 是 $\mathcal{X}$ 上的距离，即

则在 $\mathcal{X}$ 上的 p- Wasserstein distance 可以表示为

可证明 $W_p$ 具有对称、非负和三角不等式

Remark 2.18（几何直觉和弱收敛）Wasserstein距离最重要的一个性质就是它是一个弱距离，即它允许比较支撑集不重叠的奇异分布(例如，离散分布)并量化两个分布之间的空间位移。
在经典的距离（或收敛）不会在离散分布中定义。
鲜明对比的是，对于任何 $p > 0$ ， $\mathcal{W_{p}^{p}}(\delta_{x},\delta_{y})=d(x,y)$ 。
注意到 $\mathcal{U}(\delta_x,\delta_y)=\{\delta_{x,y}\}$ ，因此Kantorovich问题有唯一可行解， $\mathcal{W_{p}^{p}}(\delta_{x},\delta_{y})$ ,
$(d(x,y)^{p})^{\frac{1}{p}}=d(x,y)$ 。这说明如果 $x\to y$ , $\mathcal{W_{p}}(\delta_{x},\delta_{y}) \to 0$ 。这说明 $\mathcal{W_p}$ 是一种弱收敛的方式。
定义 2.2（弱收敛） $\mathcal{X}$ 为紧区域，在 $\mathcal{M_{+}^{1}(X)}$ 中 $(\alpha_k)_{k}$ 弱收敛于 $\alpha$ 当且仅当对于任何连续函数 $\in \mathcal{C(X)}$ ， $\int_{\mathcal{X}} g d\alpha_k \to \int _{\mathcal{X}} g d\alpha$
记为 $\alpha_k \rightharpoonup \alpha$ 。
如果对于非紧区域，需要对 $g$ 加上另外的衰减条件。这个弱收敛的概念对应于随机向量法则中的收敛。
可以证明弱收敛和 $\mathcal{W_p}(\alpha_k, \alpha) \to 0$ 是等价的。（对于无界度量空间，将矩收敛到p阶。）

Remark 2.19（平移）在欧几里得空间 $\mathcal{X}=R^d$ ，ground cost $c(x,y)=\Vert x-y \Vert^2$ 的 Wasserstein distance的特征是可以提出平移因子，令 $T_{\tau}: x \mapsto x-\tau$ 为平移算子，有
$\mathcal{W}_2(T_{\tau \#}\alpha,T_{\tau' \#}\beta)^2=\mathcal{W_2}(\alpha, \beta)^2-2<\tau-\tau', m_{\alpha}- m_{\beta}>+\Vert \tau-\tau' \Vert^2$
其中 $m_{\alpha} \xlongequal{def.} \int_{\mathcal{X}} x d\alpha(x) \in R^d$ 是 $\alpha$ 的均值。特别，好的距离的分解为
$\mathcal{W_2}(\alpha, \beta)^2= \mathcal{W_2}(\bar{\alpha}, \bar{\beta})^2+\Vert m_{\alpha}-m_{\beta} \Vert^2$
其中 $(\bar{\alpha},\bar{\beta})$ 是“居中的”零平均度量 $\bar{\alpha}=T_{m_{\alpha}\#}\alpha$

Remark 2.20（当 $p=+\infty$ 的情况）当 $\to +\infty$ 时 $\mathcal{W}_p^p$ 为
其中 sup 应该理解为在 $\mathcal{X^2}$ 上测度的上确界。
相比于 $p<+\infty$ 的情况，这是一个非凸优化问题，难于数值求解和理论研究。 $\mathcal{W}_{\infty}$ 距离与在 $(\alpha, \beta)$ 支撑下的Hausdorff距离有关。