高斯分布

最新推荐文章于 2024-04-22 16:19:35 发布

Hecttttttttt

最新推荐文章于 2024-04-22 16:19:35 发布

阅读量4w

点赞数 44

分类专栏： Math

本文链接：https://blog.csdn.net/Hanghang_/article/details/104602487

版权

Math 专栏收录该内容

4 篇文章 1 订阅

订阅专栏

高斯分布

高斯分布概念
协方差矩阵的传播（covariance propagation）
多元高斯概率密度函数的拆分与组合
高斯分布边缘化(Marginalization)
高斯分布的独立性与不相关性

高斯分布概念

高斯分布（正态分布）是一个常见的连续概率分布。正态分布的数学期望值或期望值 $\mu$ 等于位置参数，决定了分布的位置；其方差 $\sigma ^{2}$ 的开平方或标准差 $\sigma$ 等于尺度参数，决定了分布的幅度。正态分布的概率密度函数曲线呈钟形，因此人们又经常称之为钟形曲线（类似于寺庙里的大钟，因此得名）。我们通常所说的标准正态分布是位置参数 $\mu = 0$ ，方差 $\sigma^{2}=1$ 的正态分布。（源自wiki百科）
在这里插入图片描述
若随机变量 $X$ 服从一个位置参数为 $\mu$ 、方差为 $\sigma^2$ 的正态分布，可以记为 $X$ ~ $N(\mu,\sigma^2)$ ，则其概率密度函数为 $\frac{1} {{\sigma\sqrt{2\pi}}}exp(-\frac{(x-\mu)^2}{2\sigma^2})$

从上面可以看到，一维高斯分布可以用变量均值和方差进行描述，那么二维高斯分布的呢？一维正态分布只有一个变量，则二维高斯分布则包含有两个变量，二维高斯分布的均值 $\mu$ 由两个变量的均值描述，其方差由变量的协方差矩阵进行描述，协方差矩阵 $\Sigma$ 表示的是两个变量之间的关系。

$\mu = {\mu_a \choose \mu_b } \quad \Sigma = \begin{pmatrix} \sigma^2_x & \rho\sigma_x\sigma_y \\ \rho\sigma_x\sigma_y & \sigma^2_y \end{pmatrix}$

其中， $\rho\sigma_x\sigma_y$ 和 $\rho\sigma_y\sigma_x$ 分别为两个变量的协方差值。协方差的计算公式如下：
$\begin{aligned} Cov(X,Y) &= E[(X-E(X)(Y-E(Y)] \\ &= E[XY] - E[X]E[Y] \end{aligned}$

协方差为正，则说明这两个变量呈正相关，为零则不相关，为负则为负相关。

对于一个二维高斯随机变量 $x$ ~ $N(\mu,\Sigma)$ ，其概率密度可以表示为：
$\frac{1}{|2\pi\Sigma|}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))$

其图形可表示为：
在这里插入图片描述

协方差矩阵的传播（covariance propagation）

一个高斯随机变量的线性变换仍是高斯随机变量。
假设一个高斯随机变量 $x$ ~ $N(\mu,\Sigma)$ ，如果有 $x^{\prime} = Ax + b$ ，则 $x^{\prime}$ ~ $N(\mu^{\prime},\Sigma^{\prime})$ 。其中， $\mu^{\prime}$ 和 $\Sigma^{\prime}$ 为：
$\mu^\prime = E[x^{\prime}] = E[Ax+b] = AE[x] + b = A\mu + b$

$\begin{aligned} \Sigma^\prime &= cov[x^{\prime}] = E[(x^\prime - E[x^\prime])(x^\prime-E[x^\prime])] \\ &= AE[(x-\mu)(x-\mu)^T]A^T \\ &= A{\Sigma}A^T \end{aligned}$

多个独立的高斯随机变量的线性组合仍是高斯随机变量。
假设 $x_1 \sim N(\mu_1,\Sigma_1)$ ; $x_2 \sim N(\mu_2,\Sigma_2)$
且 $x^\prime = Ax1 + Bx2$ ，有：
$\begin{aligned}\mu^\prime &= E[x^\prime]= A\mu_1 + B\mu_2 \\ \Sigma^\prime &= cov[x^\prime] = A\Sigma_1A^T + B\Sigma_2B^T\end{aligned}$

多元高斯概率密度函数的拆分与组合

多元高斯联合分布可拆分为一个先验分布与条件分布的乘积。（拆分公式）
有 $P(x)=P(x_1|x_2)P(x_2)$ ，假设该分布为： $[{x_1 \choose x_2}]$ ~ $N([{\mu_1 \choose \mu_2}],\begin{bmatrix} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{bmatrix})$ ，那么条件概率密度函数与先验（边缘）概率密度函数分别为：
$P(x_1|x_2) \sim N(\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2),\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}) \\ P(x_2) \sim N(\mu_2,\Sigma_{22})$
我们把上式称之为多元高斯联合分布的拆分公式，这个公式是如何来的呢，可以先使用舒尔补求逆，然后化简得到，有时间的话我会出一篇讲边缘化的博客，里面会证明这个式子。总之，我们可以把上式称之为拆分公式。
反之，一个多元高斯联合分布也可以由先验概率和条件概率组合而成。（组合公式）
如果有 $P(x_2) \sim N(\mu_2,\Sigma_{22})$ , $P(x_1|x_2) \sim N(Hx_2,R)$ ，将两者组成有：
$x=[{x_1\choose x_2}] \sim N([{H\mu_2 \choose \mu_2}],\begin{bmatrix} H\Sigma_{22}H^T & H\Sigma_{22} \\ \Sigma_{22}H^T & \Sigma_{22}\end{bmatrix})$
同上，证明可以先不管，但如果你想证也是简单的，我们把上式称之为组合公式。

高斯分布边缘化(Marginalization)

定义：联合概率中，把最终结果中不需要的那些事件合并成其事件的全概率而消失（对离散随机变量用求和得全概率，对连续随机变量用积分得全概率），这称为边缘化（marginalization）。

假设有一个离散的联合分布律如下图表示：
在这里插入图片描述
x的边缘概率可表示为： $p_X(x_i)=\sum\limits_{j} p(x_i,y_j)$ ；y的边缘概率可以表示为： $p_Y(y_j)=\sum\limits_{i} p(x_i,y_j)$ 。
可以看到要求某一变量的边缘概率，要对另一变量进行求和。
那么在连续概率分布（如高斯分布中）呢？可以假设有两个变量 $x_1,x_2$ ，我们要求 $x 1$ 的边缘分布，实际上就是把 $x_2$ 边缘化。
$\begin{aligned} \int_{x_2}P(x_1,x_2)dx_2 &=\int_{x_2}P(x_2|x_1)P(x_1)dx_2 \\ &=\int_{x_2}P(x_2|x_1)dx_2P(x_1)\\ &= P(x_1) \sim N(\mu_1,\Sigma_{11})\end{aligned}$
可以看到，对于高斯分布的边缘化，我们只需要在协方差矩阵将无关的变量（对应变量的行和列）去除掉即可。

$N(\mu_1,\Sigma_{11}) = N([{\mu_1 \choose \sout{\mu_2}}], \begin{bmatrix} \Sigma_{11} & \sout{\Sigma_{12}} \\ \sout{\Sigma_{21}} & \sout{\Sigma_{22}}\end{bmatrix})$

高斯分布的独立性与不相关性

由上述高斯分布的拆分公式中，有 $P(x)=P(x_1|x_2)P(x_2)$ 。
右式分别满足以下分布：
$P(x_1|x_2) \sim N(\mu_1+\Sigma_{12}\Sigma_{22}^{-1}(x_2-\mu_2),\Sigma_{11}-\Sigma_{12}\Sigma_{22}^{-1}\Sigma_{21}) \\ P(x_2) \sim N(\mu_2,\Sigma_{22})$