最优传输Optimal Transport-Wasserstien距离以及Gromov-Wasserstien距离以及fused Grosserstien距离

是土豆大叔啊！

已于 2024-02-22 05:42:32 修改

阅读量4.5k

点赞数 34

分类专栏： AI4Science 文章标签：算法最优传输 Optimal Transpo wasserstien gromov wasserst

于 2024-02-22 02:10:43 首次发布

本文链接：https://blog.csdn.net/potato_uncle/article/details/136181036

版权

AI4Science 专栏收录该内容

3 篇文章

订阅专栏

本文介绍了最优传输理论中的Wasserstein距离、Gromov-Wasserstein距离以及它们的融合版本FusedGromov-Wasserstein距离，探讨了这些距离在处理无直接关系的数据集时的应用，涉及代价矩阵的定义和传输矩阵的求解过程。通过实例展示了三种距离在图匹配中的表现差异。

摘要生成于 C知道，由 DeepSeek-R1 满血版支持，前往体验 >

最优传输及其变种算法

一、最优传输 Optimal Transport & Wasserstien Distance
二、Gromov-Wasserstien Distance
三、Fused Gromov-Wasserstien Distance
四、三个距离的比较例子

说实话我对此理解的也不是太深刻，因为总感觉这个OT算法实在是有些抽象，所以欢迎各位看官多向我提问，我们互相交流以加深理解。

部分参考来源：
Subgraph Matching via Fused Gromov-Wasserstein Distance
Optimal Transport入门简述

一、最优传输 Optimal Transport & Wasserstien Distance

下面讲讲我理解的内容：

有这么一个情景：我们有很多 n 堆沙子(即我们有一个一维向量 [n, ]), 每一堆沙子重 $P^{(i)} \in \mathbb{R}^{n}$ ，有 m 个坑(即我们有一个一维向量 [m, ])，每个坑能装 $Q^{(i)}\in \mathbb{R}^{m}$ 沙子，我们想将这些沙子移到这些坑里，每堆沙子怎么移动才能让代价最小(即解最优)?

我们先来定义一下我们移动沙子要付出的代价，这是一个代价矩阵 $\in \mathbb{R}^{n \times m}_{>=0}$ ，shape为 $\times m$ ，描绘了 n 中任一沙堆向 m 个坑中任一坑搬运所要付出的代价，并且里面的数值必须是大于等于0的。

然后我们定义下我们的解矩阵，解矩阵长这样： $\in \mathbb{R}^{n \times m}_{>=0}$ ，描述了从每个沙堆向每个沙坑搬运多少质量(mass)沙子(所以你可以看出这有很多最优解(话说是局部解吗？))

然后定义将 T 和 M 逐元素相乘（注意不是矩阵点乘）表示总的运输成本，再将所有积求和计算总代价，公式如下:

$\text{argmin} \quad \sum_{i, j} T_{i, j} M_{i, j} = min_{T\in\tau(p, q)}\langle T, M \rangle _{F}$

并且满足以下约束：

$\tau(p, q) = \{T\in \mathbb{R}^{n\times m}_{+}|T1_{m}=P, \quad T^{T}1_{n}=Q\}; \quad T \geq 0$

这里的 $1$ 是一个全 1 的向量(矩阵)，P和Q我们又称为分布，在实际计算中因为不易获得，我们一般直接设定为统一分布(uniform)

总的代价我们称为 Wasserstien-distance，这个距离越小表示这两个数据越接近。 T 矩阵就是我们想求解的运输矩阵，它描述了任一沙堆向任一坑搬运多重的沙子是代价最小的（最优的）。

二、Gromov-Wasserstien Distance

上部分说的wasserstien距离有一个缺陷，那就是如果两个分布之间并没有直接关系（专业说法叫不在同一个空间），我们是很难获得两个分布之间的代价矩阵 M 的。上边这个例子是讲的搬运沙子，那么无论沙堆还是沙坑，直接的关系就是都使用沙子的重量来衡量，而如果两个分布间没有直接的关系，或者代价矩阵及其难求解，由此引出Gromov-Wasserstien Distance。

这个算法的思想是这样的：有这么两个不同空间 $\in \mathbb{R^{n}}$ 和 $\in \mathbb{R^{m}}$ ，我们计算从 $A_{i}$ 到 $A_{j}$ 之间的距离，即对于整个A空间的各个点，计算它到其他点的距离，我们就可以获得一个内部的代价矩阵 $C^{A} \in \mathbb{R^{n \times n}}$ ，对 B 同理可得 $C^{B} \in \mathbb{R^{m \times m}}$ , 既然我们不能直接在两个不同空间之间建立联系(无法轻易获得代价矩阵)，那我们就比较两个空间中成对距离的差异（由此也可以看出GW算法只关注空间的图形结构而不关注空间内各点的属性）。

用 $C^{A}_{i, i'}$ 表示A空间从点 i 到 i‘ 的距离，那么我们就可以使用一个损失函数(Loss Function)来评估 $C^{A}_{i, i'}$ 与 $C^{B}_{j, j'}$ 的不同，我们因此可以定义一个张量：

$L_{i, i', j, j'}=\mathcal{L}(C^{A}_{i, i'}, C^{B}_{j, j'}) \in \mathbb{R}^{n\times n \times m \times m}$

然后我们定义传输矩阵 $T_{i, j}$ 和 $T_{i', j'}$ 表示从点 i 到 j 和从 i’ 到 j’ 所要移动的质量(mass), 其中 (i, j) 是A空间的，(i‘, j’) 是B空间的。然后 $\mu_{A}$ 和 $\mu_{B}$ 表示A、B空间的离散概率观测， p q表示其概率向量，通常也是用 uniform distribution.