多元高斯分布全解析

noobiee

已于 2023-11-11 05:09:41 修改

阅读量1.3k

点赞数 3

分类专栏：统计学+数学文章标签：线性代数机器学习

于 2023-10-23 06:11:03 首次发布

本文链接：https://blog.csdn.net/m0_64768308/article/details/133801939

版权

统计学+数学专栏收录该内容

8 篇文章 1 订阅

订阅专栏

大纲

公式推导
参数估计
高斯分布运算
高斯分布性质
高斯过程（Gaussian process）
高斯混合模型

概念区分

边缘分布(marginal distribution)和联合分布
概率密度函数和概率分布函数

1. 多元高斯分布公式推导

首先我们知道一元高斯分布是： $N(x|u,\sigma^2)=\frac{1}{\sqrt{2\pi \sigma^2}}exp[-\frac{1}{2\sigma^2}(x-u)^2]$ , 拓展到高维时：
$N(\overline x | \overline u, \Sigma)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}exp[-\frac{1}{2}(\overline x-\overline u)^T\Sigma^{-1}(\overline x-\overline u)]$ 其中， $\overline x$ 表示维度为 D 的向量， $\overline u$ 则是这些向量的平均值， $\Sigma$ 表示所有向量 $\overline x$ 的协方差矩阵。

现在进行推导。为了简单起见，假设所有变量都是相互独立的，即对于概率分布函数 $f(x_0,x_1,…,x_n)=f(x_0)f(x_1)...f(x_n)$ 成立。

假设有很多变量 $\overline x=\begin{bmatrix} x_1 \\ x_2 \end{bmatrix}$ ，它们的均值为 $\overline u=\begin{bmatrix} u_1 \\ u_2 \end{bmatrix}$ ，方差为 $\overline \sigma=\begin{bmatrix} \sigma_1 \\ \sigma_2 \end{bmatrix}$ 。

由于 $x_1$ ， $x_2$ 是相互独立的，所以， $\overline x$ 的高斯分布函数可以表示为：
$\begin{aligned} f(\overline x) &= f(x_1,x_2) \\ &= f(x_1)f(x_2) \\ &= \frac{1}{\sqrt{2\pi \sigma_1^2}}exp(-\frac{1}{2}(\frac{x_1-u_1}{\sigma_1})^2) \times \frac{1}{\sqrt{2\pi \sigma_2^2}}exp(-\frac{1}{2}(\frac{x_2-u_2}{\sigma_2})^2) \\ &=\frac{1}{(2\pi)^{2/2}(\sigma_1^2 \sigma_2^2)^{1/2}}exp(-\frac{1}{2}[(\frac{x_1-u_1}{\sigma_1})^2+(\frac{x_2-u_2}{\sigma_2})^2]) \end{aligned}$ 接下来，为了推出文章开篇的高维公式，我们要想办法得到协方差矩阵 $\Sigma$ 。
对于二维的向量 $\overline x$ 而言，其协方差矩阵为：
$\begin{aligned} \Sigma&=&\begin{bmatrix} \sigma_{11} & \sigma_{12} \\ \sigma_{12} & \sigma_{22} \end{bmatrix} \\ &=&\begin{bmatrix} \sigma_1^2 & \sigma_{12} \\ \sigma_{21} & \sigma_{2}^2 \end{bmatrix} \\ \end{aligned}$

协方差（Covariance）在概率论和统计学中用于衡量两个变量的总体误差。而方差是协方差的一种特殊情况，即当两个变量是相同的情况。简单来讲，协方差就是衡量两个变量相关性的变量。当协方差为正时，两个变量呈正相关关系（同增同减）；当协方差为负时，两个变量呈负相关关系（一增一减）。而协方差矩阵，只是将所有变量的协方差关系用矩阵的形式表现出来而已。通过矩阵这一工具，可以更方便地进行数学运算。协方差公式为：
$Cov(X,Y)=E(X,Y)-E(X)E(Y)=\frac{\sum_{i=1}^n{(x_i-\overline x)(y_i-\overline y)}}{n-1}$ 这里的 $X$ ， $Y$ 表示两个变量空间。用机器学习的话讲，就是样本有 $x$ 和 $y$ 两种特征，而 $X$ 就是包含所有样本的 $x$ 特征的集合， $Y$ 就是包含所有样本的 $y$ 特征的集合。 $\overline x$ 和 $\overline y$ 是 $X$ ， $Y$ 两个特征空间的平均值。
那么假如 $Z$ 是包含 $X$ 和 $Y$ 的矩阵，那么计算协方差矩阵时， $Cov(Z)=\mathrm{E}\left[ (X - \mathrm{E}[X]) (Y - \mathrm{E}[Y])^\top\right]=\begin{bmatrix} Cov(X,X) & Cov(X,Y) \\ Cov(Y,X) & Cov(Y,Y) \end{bmatrix}$
这样矩阵中之中每个元素 $\Sigma_{ij}=\frac{(样本矩阵第i列-第i列均值)^T(样本矩阵第j列-第j列均值)}{样本数-1}$
当 $X$ , $Y$ 两个变量独立时， $C o v (X, Y)$ 为0：
$\begin{aligned} E(XY) & = \sum_x \sum_y {x \times y \times p(x,y)} \notag \\ & = \sum_x \sum_y x \times y \times p_x(x) \times p_y(y) \notag \\ & = \sum_x{x \times p_x(x)}\sum_y{y \times p_y(y)} \notag \\ & = E(X)E(Y) \notag \end{aligned}$

由于 $x_1$ ， $x_2$ 是相互独立的，所以 $\sigma_{12}=\sigma_{21}=0$ 。这样， $\Sigma$ 退化成 $\begin{bmatrix} \sigma_1^2 & 0 \\ 0 & \sigma_{2}^2 \end{bmatrix}$ 。
则 $\Sigma$ 的行列式 $|\Sigma|=\sigma_1^2 \sigma_2^2$ ，代入公式 (4) 就可以得到：
$f(\overline x)=\frac{1}{(2\pi)^{2/2}|\Sigma|^{1/2}}exp(-\frac{1}{2}[(\frac{x_1-u_1}{\sigma_1})^2+(\frac{x_2-u_2}{\sigma_2})^2])$
这样一来，我们已经推出了公式的左半部分，下面，开始处理右面的 exp 函数。
原始的高维高斯函数的 exp 函数为： $exp[-\frac{1}{2}(\overline x-\overline u)^T\Sigma^{-1}(\overline x-\overline u)]$ ，根据前面算出来的 $\Sigma$ ，我们可以求出它的逆： $\Sigma^{-1}=\frac{1}{\sigma_1^2 \sigma_2^2} \begin{bmatrix} \sigma_2^2 & 0 \\ 0 & \sigma_1^2 \end{bmatrix}$ 。
接下来根据这个二维的例子，将原始的 exp() 展开：
$\begin{aligned} exp[-\frac{1}{2}(\overline x-\overline u)^T\Sigma^{-1}(\overline x-\overline u)] &= exp[-\frac{1}{2} \begin{bmatrix} x_1-u_1 \ \ \ x_2-u_2 \end{bmatrix} \frac{1}{\sigma_1^2 \sigma_2^2} \begin{bmatrix} \sigma_2^2(x_1-u_1) \\ \sigma_1^2(x_2-u_2) \end{bmatrix}] \\ &= exp[-\frac{1}{2\sigma_1^2 \sigma_2^2}[\sigma_2^2(x_1-u_1)^2+\sigma_1^2(x_2-u_2)^2]] \\ &= exp[-\frac{1}{2}[\frac{(x_1-u_1)^2}{\sigma_1^2}+\frac{(x_2-u_2)^2}{\sigma_2^2}]] \end{aligned}$
展开到最后，发现推出了原公式。说明原公式 $N(\overline x | \overline u, \Sigma)=\frac{1}{(2\pi)^{D/2}}\frac{1}{|\Sigma|^{1/2}}exp[-\frac{1}{2}(\overline x-\overline u)^T\Sigma^{-1}(\overline x-\overline u)]$ 是成立的。

2. 参数估计

如果给定了很多数据点，并且知道它们服从某个高斯分布，我们要求高斯分布的参数（ $μ$ 和 $Σ$ ），估计模型参数的方法有很多，最常用的就是极大似然估计（MLE）。对于一维的高斯模型假如有m个数据点，则似然函数:
$f(x_1, x_2, \dots, x_m)=\prod_{i=1}^{m}\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x_i-\tilde \mu)^2}{2\sigma^2})$ 取对数后求导，令导数为 0 得到似然方程。 $\frac{\partial \ln f}{\partial \overline \mu}=\frac{1}{\sigma^2}\sum_{i=1}^{m}{(x_i-\tilde \mu)}=0$ $\frac{\partial \ln{f}}{\partial \sigma}=-\frac{m}{\sigma}+\frac{1}{\sigma^3}\sum_{i=1}^m{(x_i-\tilde \mu)}=0$ 得到 $\tilde \mu=\frac{1}{m}\sum_{i=1}^m{x_i}$ ， $\sigma=\sqrt{\frac{1}{m}\sum_{i=1}^m{(x_i-\tilde \mu)^2}}$

多维高斯分布时，假如有m个p维向量 $x$ ，参数估计为：
在计算样本协方差矩阵时，我们要使用无偏估计，即将分母由 $m$ 改为 $(m - 1)$ 。

3. 高斯分布运算

3.1 一元高斯分布相乘

假设 $p(x_1)=\mathcal{N}(x\vert \mu_1,\sigma_1), \, p(x_2)=\mathcal{N}(x\vert \mu_2,\sigma_2)$ 均是关于变量
$x$ 的分布，得两个高斯分布相乘仍为缩放的高斯分布：
$\begin{align*} p(x_1)p(x_2) & = e^{-\frac{1}{2\sigma_1^2}\, (x-\mu_1)^2}e^{-\frac{1}{2\sigma_2^2}\, (x-\mu_2)^2} \\ & =e^{-\frac{1}{2}\frac{（\sigma_1^2\, +\sigma_2^2\, ）\, x^2-2(\mu_1\, \sigma_2^2+\mu_2\, \sigma_1^2)x+\text{constant}}{\sigma_1^2\sigma_2^2}}\end{align*}$ 则高斯分布的参数: $\begin{align*} \mu & = \frac{\mu_1\sigma_2^2+\mu_2\sigma_1^2}{\sigma_1^2+\sigma_2^2} \ ,\ \ \sigma = \sqrt{\frac{\sigma_1^2\sigma_2^2}{\sigma_1^2+\sigma_2^2}} \end{align*}$ 上式可写为如下形式，从而推广至 $n$ 个一维高斯分布相乘： $\begin{align*} \mu &= (\frac{\mu_1}{\sigma_1^2}+\frac{\mu_2}{\sigma_2^2})\sigma^2 \ ,\ \ \frac{1}{\sigma^2} = \frac{1}{\sigma_1^2} + \frac{1}{\sigma_2^2} \end{align*}$
新函数等价于正态分布 $N(\mu,\sigma^2)$ 的概率密度函数乘以缩放因子 $A$ 。其中，缩放因子 $A=\frac{e^{-\frac{\left(\mu_1-\mu_2\right)^2}{2(\sigma_1^2+\sigma_2^2)}}}{\sqrt{2\pi\left( \sigma_1^2+\sigma_2^2\right)}}$

3.2 多元高斯分布相乘

$\begin{aligned} \boldsymbol \mu & = \boldsymbol{\varSigma }\left( \boldsymbol{\varSigma }_{1}^{-1}\boldsymbol{\mu }_1+\boldsymbol{\varSigma }_{2}^{-1}\boldsymbol{\mu }_2 \right) \\ \boldsymbol \Sigma &= { \left (\boldsymbol \Sigma^{-1}_1 + \boldsymbol \Sigma^{-1}_2 \right )}^{-1} \end{aligned}$

3.3 高斯分布相加

两个高斯分布函数直接相加，很明显不是一个高斯函数。如果两个满足高斯分布的随机变量相加，那么他们的和还是一个高斯分布。具体的，如果 $X\sim N(\mu _{X},\sigma _{X}^{2})$ , $Y\sim N(\mu _{Y},\sigma _{Y}^{2})$ ， $Z = X + Y$ 那么 $Z\sim N(\mu _{X}+\mu _{Y},\sigma _{X}^{2}+\sigma _{Y}^{2})$

需要用到卷积运算： $\displaystyle (f*g)(n)=\int_{-\infty}^{\infty}f(\tau)g(n-\tau)d\tau$

$\begin{aligned} F_{Z}(z) &=P(Z\leq z)=P(X+Y\leq z)\\ &=\iint_{x+y\leq z}f(x,y)dxdy\\ &=\int_{-\infty}^{\infty}dx\int_{-\infty}^{z-x}f(x,y)dy\\ &\overset{\text{令u=y+x}}{=}\int_{-\infty}^{\infty}dx\int_{-\infty}^{z}f(x,u-x)du\\ &=\int_{-\infty}^{z}du\int_{-\infty}^{\infty}f(x,u-x)dx\\ \end{aligned}$ 所以，Z的概率密度函数为：
$f_Z(z) = \int_{-\infty}^{\infty}f(x,z-x)dx$ 当 $X ， Y$ 为独立随机变量时， $Z$ 的概率密度为 $f_{Z}(z)=\int _{-\infty }^{\infty }f_{Y}(z-x)f_{X}(x)\,dx$

法二：使用特征函数证明
高斯分布的特征函数为： $\varphi (t)=\exp \left(it\mu -{\sigma ^{2}t^{2} \over 2}\right)$ 所以，
${\begin{aligned}\varphi _{X+Y}(t)=\operatorname {E} \left(e^{it(X+Y)}\right)= \varphi _{X}(t)\varphi _{Y}(t)&=\exp \left(it\mu _{X}-{\sigma _{X}^{2}t^{2} \over 2}\right)\exp \left(it\mu _{Y}-{\sigma _{Y}^{2}t^{2} \over 2}\right)\\[6pt]&=\exp \left(it(\mu _{X}+\mu _{Y})-{(\sigma _{X}^{2}+\sigma _{Y}^{2})t^{2} \over 2}\right).\end{aligned}}$

3.4 高斯线性模型

$\begin{cases} P(x)=N(x|\mu,\Lambda^{-1})\\ P(y|x)=N(y|Ax+b,L^{-1}) \end{cases} \longrightarrow P(y)=N(y|A\mu+b,L^{-1}+A\Lambda^{-1}A^T) \\ \downarrow\\ P(x|y)=N(x|\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)(y-A\mu-b),\Lambda^{-1}-\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}A\Lambda^{-1})$

高斯线性系统推导如下：
$\begin{align*} p(x)=\mathcal{N}(\mathbf{\mu_0,\Sigma_0})\\ y= Ax+ b + \epsilon, \ \epsilon\sim\mathcal{N}(\mathbf{0},\Sigma_y) \\ p(y\vert x)=\mathcal{N}(A\mathcal{x}+b,\Sigma_y) \end{align*}$

$y$ 由 $\mathbf{x}$ 产生，在观测到 $y$ 后可以对 $\mathbf{x}$ 进行更新（update）： $p(x\vert y) = \mathcal{N}(\mu_{x\vert y},\Sigma_{x\vert y})$ ，没观测到 $y$ 可以对其预测（predict） $P (y)$
下面对 $\mu_{x\vert y},\Sigma_{x\vert y}$ 进行计算:
$\begin{align*} \Sigma_{x\vert y}^{-1} & = \Sigma_{0}^{-1}+A^T\Sigma_{y}^{-1}A\\ \mu_{x \vert y}& = \Sigma_{x\vert y}(\Sigma_0^{-1}\mu_0+A^T\Sigma_{y}^{-1}(y-b)) \end{align*}$

$p (y)$ 的分布参数如下：
$\begin{align*} \mu &= A\mu_0 +b \\ \Sigma &= \Sigma_y+A\Sigma_0A^T \end{align*}$

4. 高斯分布性质

多元正态分布有4种等价的定义。

定义1–由标准正态随机向量线性组合得到

设 $U=\left(U_{1}, U_{2}, \cdots, U_{q}\right)^{\prime}$ 为随机向量， $U_{1}, \cdots, U_{q}$ 独立服从标准正态。设 $\mu$ 为 $p$ 维常数向量， $A$ 为 $\times q$ 维常数矩阵，则称 $U+\mu$ 的分布为 $p$ 元正态分布，或称 $X$ 为 $p$ 维正态随机向量，记作 $\sim N_{p}\left(\mu, A A^{\prime}\right)$

性质1–特征函数

在概率论中，任何随机变量的特征函数（ch.f）完全定义了它的概率分布。在实直线上，它由以下公式给出，其中X是任何具有该分布的随机变量： $\varphi _ X(t) = E[e^{itX}]$
$\begin{aligned} \varphi_X(t) &= E[e^{itX}]\\ &\overbrace{=}^{\text{泰勒展开}} E(1 + \frac{it X}{1} - \frac{t^2 X^2}{2!} + \cdots + \frac{(it)^n X^n}{n!})\\ &= E(1) + E(\frac{it X}{1}) - E(\frac{t^2 X^2}{2!}) + \cdots + E(\frac{(it)^n X^n}{n!})\\ &= 1 + \frac{it \overbrace{E[X]}^{\text{一阶矩}}}{1} - \frac{t^2 \overbrace{E[X^2]}^{\text{二阶矩}}}{2!} + \cdots + \frac{(it)^n \overbrace{E[X^n]}^{\text{n阶矩}}}{n!}) \end{aligned}$

$k$ 阶原点矩: $E[X^k] \ 或 \ A_k=\frac{1}{n}\sum_{i=1}^{n}X_i^k,\quad k=1,2,\cdots$
$k$ 阶中心矩: $E[(X-E(X))^k] \ 或 \ A_k=\frac{1}{n}\sum_{i=1}^{n}(X_i-\bar{X})^k,\quad k=2,3,\cdots$

可见特征函数包含了分布函数的所有矩（moment），也就是包含了分布函数的所有特征。
所以，特征函数其实是随机变量 $X$ 的分布的另外一种描述方式。
假设某连续随机变量 $X$ 的概率密度函数为 $f (x)$ ，那么可知： $E(X)=\int _{-\infty }^{+\infty }xf(x)dx$ ，特征函数为:
$\begin{aligned} \varphi _ X(t) = E[e^{itX}] = \int _{-\infty }^{+\infty }e^{itx}f(x)dx \end{aligned}$ 特征函数把分布函数换到另外一个坐标系，也可以获得一些计算的好处：

假如我们不知道分布函数，但是通过实验算出了期望、方差、偏度、峰度等，那么可以用特征函数去代替分布函数
两个分布函数的卷积 $f * g$ 通过特征函数更换坐标系后，可以变为更容易计算的乘法： $\varphi (f*g)=\varphi (f)\varphi (g)$
通过对 $t$ 求导，可以简单求出各阶矩： $\varphi _{X}^{(k)}(0)=i^{k}E[X^{k}]$

由定义1得到的随机向量 $X$ 的特征函数为
$\Phi_{X}(t)=\exp \left[i t^{\prime} \mu-\frac{1}{2} t^{\prime} A A^{\prime} t\right]$ 其中 $t=\left(t_{1}, \cdots, t_{p}\right)^{\prime} \in \mathbb{R}^{p}$
证明：首先考虑一维标准正态分布的特征函数为 $\Phi_{U_{i}}\left(t_{i}\right)=\exp \left[-\frac{1}{2} t_{i}^{2}\right]$
根据独立性有
$\Phi_{U}(t)=\exp \left[-\frac{1}{2} \sum_{i=1}^{q} t_{i}^{2}\right]=\exp \left[-\frac{1}{2} t^{\prime} t\right]$ 进而根据 X 的定义得到
$\begin{aligned} \Phi_{X}(t) &=E[\exp\left\{i t^{\prime} X\right\}]=E[\exp \left\{i t^{\prime}(A U+\mu)\right\}] \\ &=E[\exp \left\{i t^{\prime} \mu\right\}] E[\exp \left\{i t^{\prime} A U\right\}]=E[\exp \left\{i t^{\prime} \mu\right\}]E [\exp \left\{i\left(A^{\prime} t\right)^{\prime} U\right\}] \end{aligned}$ 其中 $E[\exp \left\{i\left(A^{\prime} t\right)^{\prime} U\right\}]$ 即 $\Phi_{U}(A^{\prime}t)$ ，代入即得结论.

定义2–由特征函数定义

如果随机向量 X 的特征函数具有如下形式 $\Phi_{X}(t)=\exp \left[i t^{\prime} \mu-\frac{1}{2} t^{\prime} \Sigma t\right]$ , 则称 $X$ 服从 $p$ 维正态分布，记作 $\sim N_{p}(\mu, \Sigma)$

性质2–正态随机向量任意线性变换仍服从正态分布

设 $\sim N_{p}(\mu, \Sigma)$ ，令 $Z = BX + d$ ，则 $\sim N_{s}\left(B \mu+d, B \Sigma B^{\prime}\right)$ ，其中 $B$ 为 $\times q$ 维矩阵， $d$ 为 $s$ 维向量.

推论–子向量的均值与协方差：

设 $X=\left[\begin{array}{c} X^{(1)} \\ X^{(2)} \end{array}\right] \quad \begin{array}{c} r \\ p-r \end{array} \sim N_{p}(\mu, \Sigma)$ ，将 $\mu$ , $\Sigma$ 分为
$\mu=\left[\begin{array}{c} \mu^{(1)} \\ \mu^{(2)} \end{array}\right] \begin{array}{c} r \\ p-r \end{array}, \Sigma=\left[\begin{array}{cc} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{array}\right] \begin{array}{c} r \\ p-r \end{array}$ 则有 $X^{(1)} \sim N_{r}\left(\mu^{(1)}, \Sigma_{11}\right), X^{(2)} \sim N_{p-r}\left(\mu^{(2)}, \Sigma_{22}\right)$
注意： $\Sigma_{12} \neq \Sigma_{21}$ ，两者互为转置

性质3–多元正态 $\Leftrightarrow$ 任意线性组合为一元正态

设 $X=\left(X_{1}, X_{2}, \cdots, X_{p}\right)^{\prime}$ 为 $p$ 维随机向量，则 $X$ 服从 $p$ 元正态分布等价于对任意 $p$ 维实向量， $\xi=a^{\prime} X$ 是一维正态随机变量.
证明：
当 X 为 p 元正态分布，由性质2知 $\xi$ 为一维正态随机变量。
反之，如果对任意 $a$ 有 $\xi=a^{\prime} X$ 为一维正态随机变量，则 $\xi$ 各阶矩存在，进而 $X$ 的均值和协方差存在，分别设为 $\mu,\Sigma$ ，则
$\xi=a^{\prime} X \sim N\left(a^{\prime} \mu, a^{\prime} \Sigma a\right)$ 进而考察 X 的特征函数得到
$\Phi_{X}(a)=\exp \left[i a^{\prime} X\right]=\exp [i \xi]=\Phi_{\xi}(1)=\exp \left[\mathrm{i} a^{\prime} \mu-\frac{1}{2} a^{\prime} \Sigma a\right]$ 刚好等于多元正态的特征函数，由特征函数与分布的一一对应得到结论.

定义3–任意线性组合为正态

如果 $p$ 维随机向量 $X$ 的任意线性组合均服从一元正态分布，则称 $X$ 为 $p$ 维正态随机向量.

性质4–联合密度函数

如果 $\sim N_{p}(\mu, \Sigma)$ 且 $\Sigma>0$ ，则 $X$ 的联合密度函数为
$f(x)=\frac{1}{(2 \pi)^{p / 2}|\Sigma|^{1 / 2}} \exp \left[-\frac{1}{2}(x-\mu)^{\prime} \Sigma^{-1}(x-\mu)\right]$

定义4–密度函数

如果 $p$ 维随机向量 $X$ 的联合密度函数为
$f(x)=\frac{1}{(2 \pi)^{p / 2}|\Sigma|^{1 / 2}} \exp \left[-\frac{1}{2}(x-\mu)^{\prime} \Sigma^{-1}(x-\mu)\right]$ 则称 $X$ 为 $p$ 维正态随机向量.
注意：定义4要求 $\Sigma>0$ ，其他三个只要求 $\Sigma \geq0$ ，一般也不考虑 $X$ 为退化随机向量的情况.

5. 高斯条件分布和独立性

仅讨论 $\Sigma \geq0$ (即半正定) 的情形

定理1–正态随机向量的独立性等价于协方差为0矩阵

定理2–条件分布

设 $X=\left[\begin{array}{c}X^{(1)} \\ X^{(2)}\end{array}\right] \begin{array}{c}r \\ p-r\end{array} \sim N_{p}(\mu, \Sigma)(\Sigma>0)$ ，则当 $X^{(2)}=x^{(2)}$ 给定时， $X^{(1)}$ 的条件分布为
$\left(X^{(1)} \mid X^{(2)}=x^{(2)}\right) \sim N_{r}\left(\mu_{1 \cdot 2}, \Sigma_{11 \cdot 2}\right)$ 其中
$\begin{aligned} \mu_{1 \cdot 2} &=\mu^{(1)}+\Sigma_{12} \Sigma_{22}^{-1}\left(x^{(2)}-\mu^{(2)}\right) \\ \Sigma_{1 \cdot 2} &=\Sigma_{11}-\Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} \end{aligned}$
证明：从回归的角度会比较容易理解，理论依据是，在均方意义下，线性回归的结果就是条件期望。将 X 中心化后做回归
$X^{(1)}-\mu^{(1)}=\beta^{\prime}\left(X^{(2)}-\mu^{(2)}\right)+\varepsilon$

那么 $\beta^{\prime}\left(x^{(2)}-\mu^{(2)}\right)$ 就是 $X^{(1)}-\mu^{(1)}$ 的条件期望。现在假设对于每个变量，都有 $n$ 个观测数据，并将回归形式改写为 $Z_t=\beta^{\prime}R_t+\varepsilon$ ，那么利用最小二乘估计可以得到参数的估计量为 $\beta=\left(R^{\prime} R\right)^{-1} R^{\prime} Z$ 。考虑当 $n$ 充分大的情况下， $\left(R^{\prime} R\right)^{-1}$ 对应了 $\Sigma_{22}^{-1} ， R^{\prime} Z$ 对应了 $\Sigma_{21}$ 进而对 $\beta$ 求转置后得到
$X^{(1)}=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1}\left(X^{(2)}-\mu^{(2)}\right)+\varepsilon$

因此条件期望就是 $\mu_{1 \cdot 2}=\mu^{(1)}+\Sigma_{12}\Sigma_{22}^{-1} \left(x^{(2)}-\mu^{(2)}\right)$

下面考虑条件方差的计算。做回归后得到的误差项 $\varepsilon$ 是从 $X^{(1)}$ 中剔除了 $X^{(2)}$ 对其的影响，那么条件方差就应该等于误差项的方差，即
$\begin{aligned} \Sigma_{1 \cdot 2} &=\operatorname{Var} \varepsilon=\operatorname{Var}\left(X^{(1)}-\mu^{(1)}\right)-\operatorname{Var}\left[\Sigma_{12} \Sigma_{22}^{-1}\left(X^{(2)}-\mu^{(2)}\right)\right] \\ &=\Sigma_{11}-\Sigma_{12} \Sigma_{22}^{-1} \Sigma_{22}\left(\Sigma_{12}\Sigma_{22}^{-1}\right)^{\prime}=\Sigma_{11}-\Sigma_{12} \Sigma_{22}^{-1} \Sigma_{21} \end{aligned}$

由此可以自然地得到下面的推论：

$X^{(2)} 与 X^{(1)}-\Sigma_{12} \Sigma_{22}^{-1} X^{(2)}$ 相互独立
$X^{(1)} 与 X^{(2)}-\Sigma_{21} \Sigma_{11}^{-1} X^{(1)}$ 相互独立
$X^{(2)} \mid X^{(1)} \sim N_{p-r}\left(\mu_{2 \cdot 1}, \Sigma_{2 \cdot 1}\right)$ , 其中
$\begin{array}{c} \mu_{2 \cdot 1}=\mu^{(2)}+\Sigma_{21} \Sigma_{11}^{-1}\left(x^{(1)}-\mu^{(1)}\right) \\ \Sigma_{2 \cdot 1}=\Sigma_{22}-\Sigma_{21} \Sigma_{11}^{-1} \Sigma_{12} \end{array}$

问：如果是三个子向量，给定其中两个，求另一个的条件分布呢？
答：把给定的两个看做一个子向量就可以。

条件数字特征

就是刚刚推导的东西的定义

条件期望(Conditional Expectation)，回归系数(regression coefficient)，偏相关系数(Partial correlation coefficient)
设 $X=\left[\begin{array}{c} X^{(1)} \\ X^{(2)} \end{array}\right] \sim N_{p}\left(\left[\begin{array}{c} \mu^{(1)} \\ \mu^{(2)} \end{array}\right],\left[\begin{array}{cc} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{array}\right]\right)$

根据定理2有 $\left(X^{(1)} \mid X^{(2)}=x^{(2)}\right) \sim N_{r}\left(\mu_{1 \cdot 2}, \Sigma_{1 \cdot 2}\right)$ ，我们把
$\mu_{1 \cdot 2}=\mu^{(1)}+\Sigma_{12} \Sigma_{22}^{-1}\left(x^{(2)}-\mu^{(2)}\right)$

称为条件期望(Conditional Expectation)，记作 $\mathrm{E}\left(X^{(1)} \mid X^{(2)}=x^{(2)}\right)$ ；把 $\Sigma_{12} \Sigma_{22}^{-1} \stackrel{\text {def}}{=} B$ 称为回归系数.

区分 $\mathrm{E}(X) 、 \mathrm{E}(X \mid Y) 、 \mathrm{E}(X \mid Y=y)$ ：
$\mathrm{E}(X)$ ：一个数
$\mathrm{E}(X \mid Y)$ ：随机变量，关于 Y 的函数，没有固定的 y 值
$\mathrm{E}(X \mid Y=y)$ ： y 的函数 f(y) ，对于给定的 y ，有唯一确定值与之对应

全期望公式（Law of total expectation）
设 $X, Y$ 为离散型随机变量，下列期望和条件期望均存在，则
$\mathrm{E}(X) = \mathrm{E}(\mathrm{E}(X \mid Y))=\sum_y \mathrm{E}(X \mid Y=y) \cdot \mathrm{P}(Y=y)$

为了定义偏回归系数，将条件方差矩阵的元素具体表示为
$\Sigma_{1 \cdot 2}=\left(\sigma_{i j }\right)_{r \times r}(i, j=1, \cdots, r)$

称 $\rho_{i j \cdot r+1, \cdots, p}=\frac{\sigma_{i j }}{\sqrt{\sigma_{i i }} \sqrt{\sigma_{j j }}}$ 为偏相关系数，即为 $X^{(2)}=\left(X_{r+1}, \cdots, X_{p}\right)^{\prime}$ 给定的条件下， $X_{i},X_{j}$ 的相关系数.

5.2 高斯边缘分布

如果联合分布 $p(x_a,x_b)$ 是高斯分布，那么条件概率分布 $p(x_a|x_b)$ 也是高斯分布，那么边缘概率分布 $p(x_a)=\int_{}^{}p(x_a,x_b)\ dx_b$ 显然也是一个高斯分布。
我们主要研究联合分布的指数项二次型，这次考虑涉及到 $x_b$ 的项，结合条件高斯分布中对 $z^2=z^Tz=(x-\mu_x)^T\Sigma^{-1}(x-\mu_x)$ 几何形式关于 $x_a,x_b$ 的分解公式，可以得到：
$-\frac{1}{2}x_b^T\Lambda_{bb}x_b+x_b^Tm=-\frac{1}{2}(x_b-\Lambda_{bb}^{-1}m)^T\Lambda_{bb}(x_b-\Lambda_{bb}^{-1}m)+\frac{1}{2}m^{T}\Lambda_{bb}^{-1}m$

其中 $m=\Lambda_{bb}\mu_b-\Lambda_{ba}(x_a-\mu_a)$ ， $\Lambda\equiv\Sigma^{-1}$ ， $\Lambda$ 为协方差矩阵的逆矩阵，又称为精度矩阵。
上式中与 $x_b$ 相关的项转化为一个高斯分布的标准二次型，结合边缘概率公式需要积分：
$\int exp\left\{ -\frac{1}{2}(x_b-\Lambda_{bb}^{-1}m)^T\Lambda_{bb}(x_b-\Lambda_{bb}^{-1}m) \right\}dx_b$

上面只提出了关于 $x_b$ 的二项式，其最后一项 $\frac{1}{2}m^T\Lambda_{bb}^{-1}m$ 为和 $x_b$ 无关但和 $x_a$ 有关的项，结合前文提到的，除 $x_b$ 二次项以外的并和 $x_a$ 有关的项结合，得到：
$\begin{align*}&\frac{1}{2}\left[ \Lambda_{bb}\mu_b-\Lambda_{ba}(x_a-\mu_a) \right]^T\Lambda_{bb}^{-1}\left[ \Lambda_{bb}\mu_b-\Lambda_{ba}(x_a-\mu_a) \right]\\&-\frac{1}{2}x_a^T\Lambda_{aa}x_a+x_a^T(\Lambda_{aa}-\Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})x_a\\&=-\frac{1}{2}x_a^T(\Lambda_{aa}\Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba}x_a)+x_a^T(\Lambda_{aa}-\Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})\mu_a+b\end{align*}$

$b$ 为常数，是与 $x_a$ 无关的量，那么可以得到边缘概率的协方差矩阵：
$\Sigma_{a}=(\Lambda_{aa}-\Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})^{-1}$
均值为： $\mu_a=\Sigma_a(\Lambda_{aa}-\Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})\mu_a$
前文介绍过分块矩阵逆矩阵的恒等式，那么可以得出：
$\Sigma_{aa}=(\Lambda_{aa}-\Lambda_{ab}\Lambda_{bb}^{-1}\Lambda_{ba})^{-1}$
最后可以得出边缘概率 $p (x_a)$ 的均值和协方差：
$E\left[ x_a \right]=\mu_a ， cov\left[ x_a \right]=\Sigma_{aa}$
边缘概率分布：
$p(x_a)=\mathcal N(x_a|\mu_a,\Sigma_{aa})$

5.3 混合高斯分布

通过将更基本的概率分布(高斯分布)进行线性组合叠加，然后形式化为概率模型，被称为混合模型。高斯分布的线性组合可以给出相当复杂的概率密度形式。通过使用足够多的高斯分布，并且调节它们的均值和方差以及线性组合的系数、几乎所有的连续概率密度能够以任意的精度近似。考虑 $K$ 个高斯概率密度的叠加，形式为：
$p(x)=\sum_{k=1}^{K}\pi_k\ \mathcal N(x|\mu_k,\Sigma_k)$
称为混合高斯分布，每个高斯概率密度 $\mathcal N(x|\mu_k,\Sigma_k)$ 被称为混个高斯分布的一个成分，并且有自己的均值和协方差 $\mu_k，\Sigma_k$ 。 $\pi_k$ 被称为混合系数，可以得到： $\sum_{k=1}^{K}\pi_k=1$ 。
根据概率的加和规则和乘积规则，边缘概率密度为： $p(x)=\sum_{k=1}^{K}p(k)p(x|k)$
这和上面的混合高斯分布公式是等价的，把 $\pi_k=p(k)$ 看成第 $k$ 个成分的先验概率，把密度 $\mathcal N(x|\mu_k,\Sigma_k)=p(x|k)$ 看成以 $k$ 为条件的 $x$ 的概率。
后验概率 $p(k|x)=\frac{p(k)p(x|k)}{\Sigma_lp(l)p(x|l)}=\frac{\pi_k\mathcal N(x|\mu_k,\Sigma_k)}{\Sigma_l\pi_l\mathcal N(x|\mu_l,\Sigma_l)}$

令 $\pi\equiv\{\pi_1,...,\pi_K\},\mu\equiv\{\mu_1,...,\mu_K\},\Sigma\equiv\{\Sigma_1,...,\Sigma_K\}$ ，对数似然函数为：
$ln\ p(X|\pi,\mu,\Sigma)=\sum_{n=1}^{N}ln\left\{ x\sum_{k=1}^{K}\pi_k\ \mathcal N(x_n|\mu_k,\Sigma_k)\right\} ，X=\{x_1,...,x_N\}$

因为该对数似然函数中对数里含有求和式，不能像一元高斯分布那样可以求得封闭的解析解，可以通过迭代数值优化方法以及期望最大化方法来求解。

References

多元高斯分布完全解析 -知乎
 高斯分布相乘、积分整理
 多维高斯分布 -博客园
 多维正态分布的最大似然估计 -博客园
高斯性质：多元统计分析第01讲–多元正态分布及参数估计(随机向量，多元正态分布定义，条件分布和独立性）-知乎
高斯条件分布：多元统计分析第02讲（条件分布，随机阵的正态分布，参数估计）

高斯过程
通俗理解: 什么是Gaussian process? —— 说说高斯过程与高斯分布的关系
 从贝叶斯的角度理解高斯过程回归 -知乎
代码通俗：如何通俗易懂地介绍 Gaussian Process？
| 另一种代码实现（Cholesky分解）

Sum of normally distributed random variables
第三章·随机向量 ----概率论与数理统计

汇总型：
prml -gitbook
Gaussian Processes for Machine Learning.pdf

noobiee

关注

3
点赞
踩
15

收藏

觉得还不错? 一键收藏
0
评论
多元高斯分布全解析

首先我们知道一元高斯分布是：N(x∣u,σ2)=12πσ2exp[−12σ2(x−u)2]N(x|u,\sigma^2)=\frac{1}{\sqrt{2\pi \sigma^2}}exp[-\frac{1}{2\sigma^2}(x-u)^2]N(x∣u,σ2)=2πσ21exp[−2σ21(x−u)2], 拓展到高维时：N(x‾∣u‾,Σ)=1(2π)D/21∣Σ∣1/2exp[−12(x‾−u‾)TΣ−1(x‾−u‾)]N(\overline x | \overline u, \Sigma)=
复制链接

扫一扫