概率论中密度函数变换

SATAN 先生

已于 2023-10-07 09:38:50 修改

阅读量1.6k

点赞数

分类专栏： Optimal Transport 机器学习数学文章标签：概率论人工智能机器学习

于 2023-10-06 22:25:06 首次发布

机器学习同时被 3 个专栏收录

23 篇文章

订阅专栏

数学

13 篇文章

订阅专栏

Optimal Transport

9 篇文章

订阅专栏

问题来源

在阅读论文 N-dimensional Probability Density Function Transfer and its Application to Color Transfer 时，第三节 3. N-Dimensional pdf Transfer：

给出了从求取 mapping function $t$ 的公式，但这个公式是怎么回事呢？the cumulative pdfs of $X$ and $Y$ 又是指什么？discrete lookup tables?

密度函数变换

从这两段可以看出，论文的主旨是把一个概率分布转换为另一个概率分布，但这个公式 $(1)$ 似乎不是概率密度函数变换，它更像是变量 $x$ 转化为 $y$ 的公式，因为： $C_Y(t(x)) = C_X(x)$ 如果我们猜测 $C_Y(y) = C_X(x)$ 的话。但还是先看看概率密度函数变换的知识吧，以下来源于《概率论中密度函数变换》。

其中 $x = h (y)$ 是 $y = g (x)$ 的反函数。

这是比较正统的密度函数转换公式，当然这个前提条件是 $g(\cdot)$ 必须是严格单调函数。所以说适用范围是有限的。定理证明如下：

证明就是直接利用分布函数与密度函数的关系来计算。证明并不是很难。

例题如下：

但是这个定理的前提条件要求很明确，必须是严格单调函数。所以说如果不严格，就不能用这个方法，比如说 $y = x^2$ 和 $=\left\{\begin{matrix} -x & x < 0 \\ x & x > 0 \end{matrix}\right.$ ，对于这样的函数，这个公式就无能为力了。

对于 $g(\cdot)$ 不满足严格单调的条件下，应该直接利用分布函数与密度函数的关系进行变换。

分析

回过头来看一看这几个问题，我们要先确定 the cumulative pdfs of $X$ and $Y$ ： $C_X$ 和 $C_Y$ 的意义，对比上面一波公式，几乎可以确定它们就是随机变量 $X$ 和 $Y$ 的分布函数，对应上面的 $F_X$ 和 $F_Y$ ，由 $\begin{aligned} F_Y(y) &= P(Y \le y) = P(g(X) \le y) \\ &= P(X \le h(y)) = F_X(h(y)) \\ &= F_X(x) \\ &= F_Y(g(x)) \\ \Rightarrow F_Y(g(x)) &= F_X(x) \end{aligned}$ 可知， $t$ 对应 $g$ ，是一个变量变换函数。至于离散查表，就不太懂了，可能类似于查分布函数值和变量值之间的数值关系表吧。