Radon 变换与边缘概率分布

SATAN 先生

已于 2023-10-23 23:36:43 修改

阅读量124

点赞数

分类专栏： Optimal Transport 文章标签：机器学习人工智能

于 2023-10-23 23:26:14 首次发布

本文链接：https://blog.csdn.net/qq_32527569/article/details/133998300

版权

Optimal Transport 专栏收录该内容

9 篇文章 0 订阅

订阅专栏

问题来源

在学习最优传输(Optimal Transport)时，接触到了 Sliced-Wasserstein Distance (SWD)，顿时懵逼了，它是啥？是 Wasserstein Distance 的简化计算吗？先看看 Wikipedia 怎么说：

它是 WD 的一个替代距离，与 WD 有很多相似的性质。

SWD 出现的动机是什么呢？在 1-D 情况下，Wasserstein Distance 计算非常简单，不必进行复杂的求解，直接就有闭式解。关于这个，请参考我的博客 One-dimensional Wasserstein Distance。当然，这里已经给出了经验分布下 1-D WD 的计算，只不过有点难以理解。

大概意思是说，选取每一个方向 $\bm{\theta}$ ，先把测度 $\mu, \nu$ 投影至该方向形成 1-D 概率分布 $P_{\bm{\theta}\#}\mu$ 和 $P_{\bm{\theta}\#}\nu$ ，然后再计算 $W_2(P_{\bm{\theta}\#}\mu, P_{\bm{\theta}\#}\nu)^2$ ，对所有方向积分，便得到 $SW_2(\mu, \nu)^2$ 。

啊！说起来简单，可我还是不懂 $P_{\theta\#}\mu$ 是啥意思，怎么个投影法？给个 $P_{\bm{\theta}}(\bm{x}) = \bm{x} \cdot \bm{\theta}$ 就把我打发了？完全不懂怎么回事！

先不管，继续往下看看：

SWD 满足所有度量公理，三角不等式继承自 WD，正定性和对称性也是产自 WD，这些都比较直观，不多说了。注意这里提到了 Radon Transforms。

这里再次说明了：SWD 是个新玩意儿，不是对 WD 的简化计算。我们这里记住 $W_2(P_{\bm{\theta}\#}\mu, P_{\bm{\theta}\#}\nu) \le SW_2(\mu, \nu)$ 就行了，感觉上也是这样。那么自然就有 $SW_2(\mu, \nu) \le W_2(\mu, \nu)$ 。只是这里的 $P_{\bm{\theta}\#}$ is 1-Lipschitz 是啥意思？只记得在求 WD 的 Kantorovich-Rubinstein Duality 时见到过，但暂时跟这扯不到一块。

懂了 1-D WD 的计算原理后，自然就会懂得 This is especially so in the case of empirical measures of equally sized support.

以上就是 Wikipedia 对 Sliced-Wasserstein Distance 的所有介绍。主要不懂的地方就是 1-D 投影 $P_{\theta\#}\mu$ 。即使你去看了引用 [2] Computational Optimal Transport 中介绍的 10.4 Sliced Wasserstein Distance and Barycenters：

也不会得到关于 $P_{\theta\#}\mu$ 的更多信息，甚至更少。那就好好查阅资料，搞明白到底是如何投影为 1-D 分布的。

拉东变换

想要弄清楚 SWD，需要先搞懂啥是 Radon Transform，不过我觉得 Wikipedia 中讲的不好，符号都有点乱，这里推荐博文 The Radon Transform: First Steps，这里简单地说一下。

拉东变换是一种线积分变换，假设二维坐标系上定义着函数 $f(\bm{x}) = f(x_1, x_2)$ ，如下图所示：

$L_s(\theta)$ 是二维平面上的一条直线，由参数 $\theta$ 和 $s$ 确定，用 $\bm{\omega} = (cos\theta, sin\theta)$ 表示直线法向量，那么其方程可表示为 $\bm{\omega}^\intercal\bm{x} = s$ ，则沿 $L_s(\theta)$ 的线积分可表示为： $\theta) = Rf(s, \omega) = \int f(\bm{x})\delta(s - \bm{\omega}^\intercal\bm{x})d\bm{x}$ 其中 $\delta(\cdot)$ 是狄拉克函数。反正知道是沿直线的积分就行了，知道这么多就够了。

$P_{\theta\#}\mu$ 是对测度 $\mu$ 的 Radon 变换（本质是边缘概率分布）

$P_{\bm{\theta}}(\bm{x}) = \bm{x} \cdot \bm{\theta}$ 是投影操作，把 $\bm{x}$ 投到了方向为 $\bm{\theta}$ 的直线上，就如同上图中 $L_s(\theta)$ 上的点都被投影到了 $B$ 处。

现在，我们先考虑 $f(\bm{x}) = f(x_1, x_2)$ 是一个概率密度函数的情况，当 $\theta = 0$ ，则 Radon 变换为 $\begin{aligned} Rf(s, 0) &= \int f(x_1, x_2)\delta(s - [1, 0] \cdot [x_1, x_2])d\bm{x} \\ &= \int f(x_1, x_2)\delta(s - x_1)d\bm{x} \\ &=\int_{-\infin}^\infin f(s, x_2)dx_2 \end{aligned}$ 哎！这不是边缘概率分布嘛！由此我们联想到，一个方向的拉东变换其实是在求边缘概率分布。

还有个问题：明明是对概率密度函数求 Radon 变换，为什么投影操作 $P_{\bm{\theta}}(\bm{x}) = \bm{x} \cdot \bm{\theta}$ 就完成了概率测度的投影？

假设上图中的点的密度代表概率密度，红线是投影方向，虚线对应不同的 $s$ ，即一个个要积分的线，此时线积分结果就是虚线所穿过的点数，即 $s$ 处的概率密度。投影操作把点都投到红线上，则红线上各处得到的点密度不一样（概率密度不一样）。

这个过程可以完成概率测度的投影了吧！故 $P_{\bm{\theta}\#}\mu$ 表示沿 $\bm{\theta}$ 方向的 1-D 分布。

【结尾】：要知道，Radon 变换本来就是要在某种密度分布下，进行线积分！

SATAN 先生

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
0
评论
Radon 变换与边缘概率分布

在学习最优传输(Optimal Transport)时，接触到了 Sliced-Wasserstein Distance (SWD)，顿时懵逼了，它是啥？在 1-D 情况下，Wasserstein Distance 计算非常简单，不必进行复杂的求解，直接就有闭式解。SWD 满足所有度量公理，三角不等式继承自 WD，正定性和对称性也是产自 WD，这些都比较直观，不多说了。假设上图中的点的密度代表概率密度，红线是投影方向，虚线对应不同的。，即一个个要积分的线，此时线积分结果就是虚线所穿过的点数，即。
复制链接

扫一扫