将非高斯分布数据转换为高斯分布数据

最新推荐文章于 2024-09-03 10:56:06 发布

Coix

最新推荐文章于 2024-09-03 10:56:06 发布

阅读量8k

点赞数 2

分类专栏：统计学文章标签：采样高斯统计学

本文链接：https://blog.csdn.net/WeiDelight/article/details/88387204

版权

统计学专栏收录该内容

7 篇文章 10 订阅

订阅专栏

高斯分布是一个很神奇的分布，很多人在考虑问题的时候，总是很喜欢假设数据是满足高斯分布的。其原因可能就是，正态分布的各项统计学特征都可以很好地表示出来，我们只需要知道两个参数——均值和方差，即可，就可以得到概率密度分布、累计密度分布等等，同时可以利用多种现有的方法解决不同的问题。

但是现实场景中，很多数据并不是如我们想象地那样：满足高斯性。那么我们可以采用逆变换采样（inverse transform sampling）的方法将这些非高斯数据先转换成服从高斯分布的数据，然后利用现有的方法解决问题。

什么是逆变换采样

逆变换采样，又称为逆采样（inversion sampling）、逆概率积分变换（inverse probability integral transform），是伪随机数采样的一种基本方法。也就是说，在已知任意概率分布的累计分布函数下，可用于从该分布中生成随机样本。
逆变换采样采用一个在0到1之间的 $u$ 的均匀样本，然后从分布 $P (X)$ 的领域中返回最大的数字 $x$ ，使得 $P(-\infty <X<x)\leq u$ 。

定义

根据概率积分变换，假设 $X$ 是一个连续的随机变量，那么它的累积分布函数为 $F_{X}$ 。此时，对于不同的 $X$ ，随机变量 $Y=F_{X}(X)$ 服从区间在 $[0, 1]$ 上的均匀分布。那么逆变换采样就是将这个过程反过来，如果 $Y$ 服从0到1之间的均匀分布，且 $X$ 有一个累积分布 $F_{X}$ ，那么随机变量 $F_{X}^{-1}(Y)$ 跟 $X$ 有相同的分布。所以，我们可以通过分布 $F_{X}$ 的逆变换来生成随机样本。

思想来源

现在我们要从区间为[0,1]的均匀分布中用累积分布函数 $F_{X}(X)$ 中生成随机变量 $X$ 的样本。假设 $F_{X}(X)$ 是严格递增的函数，那么我们要尝试找到一些严格单调的变换 $\mapsto \mathcal{R}$ ，使得 $\overset{d}{=} X$ 。（但是，这里的严格单调的条件可能在一般情况下是不正确的。）
对于 $\in \mathcal{R}$ ，我们将得到
$F_{X}(x) = P(X \leq x) = P(T(U)\leq x) = P(U \leq T^{-1}(x)) = T^{-1}(x)。$
因此，我们可以知道 $F_{X}(x)$ 为 $T$ 的逆函数，也就是说，
$F^{-1}_{X}(u), u\in [0,1]。$
所以，我们就可以从 $F^{-1}_{X}(u)$ 中生成变量 $X$ 的样本了。

方法

那么，我们怎么从不同的分布中产生服从高斯分布的样本呢？
假设 $F_{X}(x)$ 是随机变量 $X$ 的累积分布函数，·存在一个变换 $T (U)$ 使得 $Y=T(U)\sim N(\mu, \sigma^2)$ ，其中， $\mu$ 表示均值， $\sigma^2$ 表示方差。那么，这个变换为 $\mu + \sigma^2 \cdot \Phi^{-1}(F_{X}(u))$ 。
（简单说明：
因为从上面的思想我们知道， $F_{X}(x)= P(X \leq x) = P(T(U)\leq x) = \Phi(\frac{T(U)-\mu}{\sigma})$ 。）

matlab实现

将服从均匀分布的变量 $X$ 转换成服从均值为0，方差为1的正态分布的变量 $Y$ ：

    >> X = rand(2000,1);
    >> mu = 0;
    >> sigma = 1;
    >> Y = mu + sqrt(2)*sigma*erfinv(2*X-1);

参考资料：

Coix

关注

2
点赞
踩
21

收藏

觉得还不错? 一键收藏
2
评论
复制链接

分享到 QQ

分享到新浪微博

扫一扫

专栏目录