2 数学基础：概率-高斯分布_高斯分布求概率-CSDN博客

本文链接：https://blog.csdn.net/cengjing12/article/details/106171381

1 一维情况 MLE

1.1 均值、方差估计

数据： $X=(x_{1},x_{2},......,x_{N})^{T}=\left(\begin{array}{c}x_{1}^{T} \\ x_{2}^{T} \\ \vdots \\ x_{N}^{T}\end{array}\right)_{N \times p}$
$x_{i} \in \mathbb{R}^{p}$
$x_{i}\sim ^{iid}N(\mu, \Sigma)$
$\theta=(\mu,\Sigma)$
变量x独立同分布，服从于 $(\mu,\Sigma)$ 的高斯分布

高斯分布在机器学习中占有举足轻重的作用。在 MLE 方法中：

$\theta=(\mu,\Sigma)=(\mu,\sigma^{2}),\theta_{MLE}=\mathop{argmax}\limits _{\theta}\log p(X|\theta)\mathop{=}\limits _{iid}\mathop{argmax}\limits _{\theta}\sum\limits _{i=1}^{N}\log p(x_{i}|\theta)$ 一般地，高斯分布的概率密度函数PDF写为：

$p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)}$
带入 MLE 中我们考虑一维的情况，需求解参数有 $\mu,\sigma$

$\begin{aligned} \log p(X|\theta)=\log\prod\limits _{i=1}^{N} p(x_{i}|\theta) &=\sum\limits _{i=1}^{N}\log p(x_{i}|\theta) \\ &=\sum\limits _{i=1}^{N}\log\frac{1}{\sqrt{2\pi}\sigma}\exp(-(x_{i}-\mu)^{2}/2\sigma^{2}) \\ &=\sum\limits _{i=1}^{N}\left[\log\frac{1}{\sqrt{2\pi}}+ \log\frac{1}{\sigma}-(x_{i}-\mu)^{2}/2\sigma^{2}\right] \end{aligned}$

估计结果：
均值无偏： $\mu_{MLE}=\frac{1}{N}\sum\limits_ {i=1}^{N}x_{i}$
方差有偏： $\sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x_{i}-\mu_{MLE})^{2}$
无偏方差： $\hat{\sigma}^{2}=\frac{1}{N-1}\sum\limits_ {i=1}^{N}(x_{i}-\mu_{MLE})^{2}$

首先对 $\mu$ 的极值可以得到： $\mu_{MLE}=\mathop{argmax}\limits _{\mu}\log p(X|\theta)=\mathop{argmax}\limits_ {\mu}-(x_{i}-\mu)^{2}/2\sigma^{2} =\mathop{argmin}\limits_ {\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}$

于是： $\frac{\partial}{\partial\mu}\sum\limits _{i=1}^{N}(x_{i}-\mu)^{2}=0\longrightarrow\mu_{MLE}=\frac{1}{N}\sum\limits_ {i=1}^{N}x_{i}$

其次对 $\theta$ 中的另一个参数 $\sigma$ ，有：
$\begin{aligned} \sigma_{M L E}=\mathop{argmax}\limits _{\sigma} \log p(X | \theta) &=\mathop{argmax}\limits_{\sigma} \sum_{i=1}^{N}\left[-\log \sigma-\frac{1}{2 \sigma^{2}}\left(x_{i}-\mu\right)^{2}\right] \\ &=\mathop{argmin}\limits _{\sigma} \sum_{i=1}^{N}\left[\log \sigma+\frac{1}{2 \sigma^{2}}\left(x_{i}-\mu\right)^{2}\right] \end{aligned}$

于是： $\frac{\partial}{\partial\sigma}\sum\limits _{i=1}^{N}[\log\sigma+\frac{1}{2\sigma^{2}}(x_{i}-\mu)^{2}]=0\longrightarrow\sigma_{MLE}^{2}=\frac{1}{N}\sum\limits _{i=1}^{N}(x{i}-\mu)^{2}$

1.2 有偏vs无偏

值得注意的是，上面的推导中，首先对 $\mu$ 求 MLE，然后利用这个结果求 $\sigma_{MLE}$ ，因此可以预期的是对数据集求期望时 $\mathbb{E}_{\mathcal{D}}[\mu_{MLE}]$ 是无偏差的： $\mathbb{E}_{\mathcal{D}}[\mu_{MLE}]=\mathbb{E}_{\mathcal{D}}[\frac{1}{N}\sum\limits _{i=1}^{N}x_{i}]=\frac{1}{N}\sum\limits _{i=1}^{N}\mathbb{E}_{\mathcal{D}}[x_{i}]=\mu$
(因为 $x_{i}$ 独立同分布，所以 $\mathbb{E}_{\mathcal{D}}[x_{i}]=\mu$ )

但是当对 $\sigma_{MLE}$ 求期望的时候由于使用了单个数据集的 $\mu_{MLE}$ ，因此对所有数据集求期望的时候我们会发现 $\sigma_{MLE}$ 是 有偏的：

$\begin{aligned} \mathbb{E}_{\mathcal{D}}\left[\sigma_{M L E}^{2}\right] &=\mathbb{E}_{\mathcal{D}}\left[\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}-\mu_{M L E}\right)^{2}\right]=\mathbb{E}_{\mathcal{D}}\left[\frac{1}{N} \sum_{i=1}^{N}\left(x_{i}^{2}-2 x_{i} \mu_{M L E}+\mu_{M L E}^{2}\right)\right.\\ &=\mathbb{E}_{\mathcal{D}}\left[\frac{1}{N} \sum_{i=1}^{N} x_{i}^{2}-\mu_{M L E}^{2}\right]=\mathbb{E}_{\mathcal{D}}\left[\frac{1}{N} \sum_{i=1}^{N} x_{i}^{2}-\mu^{2}+\mu^{2}-\mu_{M L E}^{2}\right] \\ &=\mathbb{E}_{\mathcal{D}}\left[\frac{1}{N} \sum_{i=1}^{N} (x_{i}^{2}-\mu^{2})\right]-\mathbb{E}_{ \mathcal{D}}\left[\mu_{M L E}^{2}-\mu^{2}\right] \\ &=\frac{1}{N} \sum_{i=1}^{N} (\mathbb{E}_{\mathcal{D}}(x_{i}^{2})-\mu^{2})-\left(\mathbb{E}_{\mathcal{D}}\left[\mu_{M L E}^{2}\right]-\mathbb{E}_{\mathcal{D}}^{2}\left[\mu_{M L E}\right]\right)\\ &=\frac{1}{N} \sum_{i=1}^{N} (\mathbb{E}_{\mathcal{D}}(x_{i}^{2})-(\mathbb{E}_{\mathcal{D}}^{2}(x_{i})))-\operatorname{Var}\left[\mu_{M L E}\right] \\ &=\sigma^{2}-\operatorname{Var}\left[\frac{1}{N} \sum_{i=1}^{N} x_{i}\right]\\ &=\sigma^{2}-\frac{1}{N^{2}} \sum_{i=1}^{N} \operatorname{Var}\left[x_{i}\right]\\ &=\frac{N-1}{N} \sigma^{2} \end{aligned}$

所以： $\hat{\sigma}^{2}=\frac{1}{N-1}\sum\limits_ {i=1}^{N}(x_{i}-\mu)^{2}$

2 多维情况

2.1 概率密度角度

$x=\left(\begin{array}{c}x_{1} \\ x_{2}\\ \vdots \\ x_{p}\end{array}\right)$ $\mu=\left(\begin{array}{c}\mu_{1} \\ \mu_{2}\\ \vdots \\ \mu_{p}\end{array}\right)$ $\Sigma=\left(\begin{array}{c}\sigma_{11} \sigma_{21} \dots \sigma_{1p}\\ \sigma_{21} \sigma_{22} \dots \sigma_{2p}\\ \vdots \quad \vdots \quad \vdots \quad \vdots \\ \sigma_{p1} \sigma_{p2} \dots \sigma_{pp} \end{array}\right)$

多维高斯分布表达式为： $p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}(x-\mu)^{T}\Sigma^{-1}(x-\mu)}$
其中 $x,\mu\in\mathbb{R}^{p},\Sigma\in\mathbb{R}^{p\times p}$ ， $\Sigma$ 为协方差矩阵，一般而言也是半正定矩阵。这里我们只考虑正定矩阵。首先我们处理指数上的数字，指数上的数字( $(x-\mu)^{T}\Sigma^{-1}(x-\mu)$ 可以记为 $x$ 和 $\mu$ 之间的马氏距离(当 $\Sigma=I$ 时，马氏距离=欧式距离)。对于对称的协方差矩阵可进行特征值分解， $\Sigma=U\Lambda U^{T}=(u_{1},u_{2},\cdots,u_{p})diag(\lambda_{i})(u_{1},u_{2},\cdots,u_{p})^{T}=\sum\limits _{i=1}^{p}u_{i}\lambda_{i}u_{i}^{T}$ ，（其中 $U^{T}=U^{T} U=I,U=(u_{1},u_{2},,\cdots,u_{p})_{p*p}$ ， $u_{i}$ 实际上时协方差矩阵的特征向量）于是：

$\Sigma^{-1}=\sum\limits _{i=1}^{p}u_{i}\frac{1}{\lambda_{i}}u_{i}^{T}$

$\Delta=(x-\mu)^{T}\Sigma^{-1}(x-\mu)=\sum\limits _{i=1}^{p}(x-\mu)^{T}u_{i}\frac{1}{\lambda_{i}}u_{i}^{T}(x-\mu)=\sum\limits _{i=1}^{p}\frac{y{i}^{2}}{\lambda_{i}}$

令 $y_{i}=(x-\mu)^{T}u_{i}$ ，因此 $y_{i}$ 是一个实数
我们注意到 $y_{i}$ 是 $x-\mu$ 在特征向量 $u_{i}$ 上的投影长度，因此上式子就是 $\Delta$ 取不同值时的同心椭圆（例如p=2）。
$p(x)=\frac{1}{(2\pi)^{p/2}|\Sigma|^{1/2}}e^{-\frac{1}{2}\Delta}$ 。一维的概率密度曲线用二维坐标系表示，二维的概率密度函数就需要用三维坐标系表示，是一个曲面，向x轴投影后就很多椭圆，如下图。
在这里插入图片描述

2.2 局限性

下面我们看多维高斯模型在实际应用时的两个问题
$\Sigma=\left(\begin{array}{c}\sigma_{11} \sigma_{21} \dots \sigma_{1p}\\ \sigma_{21} \sigma_{22} \dots \sigma_{2p}\\ \vdots \quad \vdots \quad \vdots \quad \vdots \\ \sigma_{p1} \sigma_{p2} \dots \sigma_{pp} \end{array}\right)$
对于参数 $\Sigma$ 而言，参数有 $p^{2}$ 个，但是此矩阵时对称的，所以参数有（p+1)p/2个

参数过多：参数 $\Sigma,\mu$ 的自由度为 $O(p^{2})$ 对于维度很高的数据其自由度太高，不利于计算。解决方案：高自由度的来源是 $\Sigma$ 有 $\frac{p(p+1)}{2}$ 个自由参数，可以假设其是对角矩阵，甚至在各向同性假设中假设其对角线上的元素都相同。前一种的算法有 Factor Analysis，后一种有概率 PCA(p-PCA) 。
第二个问题是单个高斯分布是单峰的，对有多个峰的数据分布不能得到好的结果。解决方案：高斯混合GMM 模型。

2.3 边缘概率和条件概率

下面对多维高斯分布的常用定理进行介绍。

我们记 $x=(x_1, x_2,\cdots,x_p)^T=(x_{a,m\times 1}, x_{b,n\times1})^T,\mu=(\mu_{a,m\times1}, \mu_{b,n\times1}),\Sigma=\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\ \Sigma_{ba}&\Sigma_{bb}\end{pmatrix}，m+n=p$ ，已知 $x\sim\mathcal{N}(\mu,\Sigma)$ 。求 $p(x_a),p(x_b),p(x_a|x_b),p(x_b|x_a)$

首先是一个高斯分布的定理：

定理：已知 $x\sim\mathcal{N}(\mu,\Sigma), y\sim Ax+b$ ，那么 $y\sim\mathcal{N}(A\mu+b, A\Sigma A^T)$ 。
证明： $\mathbb{E}[y]=\mathbb{E}[Ax+b]=A\mathbb{E}[x]+b=A\mu+b$ ， $Var[y]=Var[Ax+b]=Var[Ax]=A\cdot Var[x]\cdot A^T$ 。

下面利用这个定理得到 $p(x_a),p(x_b),p(x_a|x_b),p(x_b|x_a)$ 这四个量。

$\left.x_{a}=\left(\mathbb{I}_{m \times m} \quad \mathbb{O}_{m \times n}\right)\right)\left(\begin{array}{l} x_{a} \\ x_{b} \end{array}\right)$ ，代入定理中得到：
$\mathbb{E}[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\mu_a\\ \mu_b\end{pmatrix}=\mu_a$ $Var[x_a]=\begin{pmatrix}\mathbb{I}&\mathbb{O}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\ \Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}\mathbb{I}\\ \mathbb{O}\end{pmatrix}=\Sigma_{aa}$
所以 $x_a\sim\mathcal{N}(\mu_a,\Sigma_{aa})$ 。
同样的， $x_b\sim\mathcal{N}(\mu_b,\Sigma_{bb})$ 。
对于两个条件概率，我们引入三个量：
$x_{b\cdot a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a$ $\mu_{b\cdot a}=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a$ $\Sigma_{bb\cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}$
特别的，最后一个式子叫做 $\Sigma_{bb}$ 的 Schur Complementary。可以看到：
$x_{b \cdot a}=\left(-\Sigma_{b a} \Sigma_{a a}^{-1} \quad \mathbb{I}_{n \times n}\right)\left(\begin{array}{l} x_{a} \\ x_{b} \end{array}\right)$
所以：
$\mathbb{E}[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix}=\mu_{b\cdot a}$ $Var[x_{b\cdot a}]=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\ \Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}-\Sigma_{aa}^{-1}\Sigma_{ba}^T\\ \mathbb{I}_{n\times n}\end{pmatrix}=\Sigma_{bb\cdot a}$ 利用这三个量可以得到 $x_b=x_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$ 。因此： $\mathbb{E}[x_b|x_a]=\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$ $Var[x_b|x_a]=\Sigma_{bb\cdot a}$ 这里同样用到了定理。
上述推导中缺少Xb.a 与Xa的独立性证明，具体证明步骤如下：

左侧是Mx和Nx相互独立的充要条件证明，后边使用左侧的结论。以上证明中x为服从高斯分布的随机变量，M，N均为矩阵，Mx，Nx也服从高斯分布，其中M，N为矩阵。
Note：

一般情况下两个随机变量之间独立一定不相关，不相关不一定独立（也就是独立的概念更“苛刻”一点，不相关稍微“弱”一点）
如果两个随机变量均服从高斯分布，那么“不相关”等价于“独立”

同样： $x_{a\cdot b}=x_a-\Sigma_{ab}\Sigma_{bb}^{-1}x_b$ $\mu_{a\cdot b}=\mu_a-\Sigma_{ab}\Sigma_{bb}^{-1}\mu_b$ $\Sigma_{aa\cdot b}=\Sigma_{aa}-\Sigma_{ab}\Sigma_{bb}^{-1}\Sigma_{ba}$
所以： $\mathbb{E}[x_a|x_b]=\mu_{a\cdot b}+\Sigma_{ab}\Sigma_{bb}^{-1}x_b$ $Var[x_a|x_b]=\Sigma_{aa\cdot b}$

2.4 联合概率分布

下面利用上边四个量，求解线性模型：

已知： $p(x)=\mathcal{N}(\mu,\Lambda^{-1}),p(y|x)=\mathcal{N}(Ax+b,L^{-1})$ ，求解： $p (y), p (x ∣ y)$ 。

解：令 $y=Ax+b+\epsilon,\epsilon\sim\mathcal{N}(0,L^{-1})$ ，所以 $\mathbb{E}[y]=\mathbb{E}[Ax+b+\epsilon]=A\mu+b$ ， $\Lambda^{-1}A^T+L^{-1}$ ，因此： $p(y)=\mathcal{N}(A\mu+b,L^{-1}+A\Lambda^{-1}A^T)$
引入 $z=\left(\begin{array}{l}x \\ y\end{array}\right)$ ，我们可以得到 $Cov[x,y]=\mathbb{E}[(x-\mathbb{E}[x])(y-\mathbb{E}[y])^T]$ 。对于这个协方差可以直接计算： $\operatorname{Cov}(x, y)=\mathbb{E}\left[(x-\mu)(A x-A \mu+\epsilon)^{T}\right]=\mathbb{E}\left[(x-\mu)(x-\mu)^{T} A^{T}\right]=\operatorname{Var}[x] A^{T}=\Lambda^{-1} A^{T}$ 注意到协方差矩阵的对称性，所以 $p(z)=\mathcal{N}(\left(\begin{array}{c}\mu \\ A \mu+b\end{array}\right),\left(\begin{array}{cc}\Lambda^{-1} & \Lambda^{-1} A^{T} \\ A \Lambda^{-1} & L^{-1}+A \Lambda^{-1} A^{T}\end{array}\right))$ 。根据之前2.3的公式，我们可以得到： $\mathbb{E}[x|y]=\mu+\Lambda^{-1}A^T(L^{-1}+A\Lambda^{-1}A^T)^{-1}(y-A\mu-b)$