机器学习数学基础之四多维高斯分布

最新推荐文章于 2023-10-14 15:40:44 发布

AI小小白_XP

最新推荐文章于 2023-10-14 15:40:44 发布

阅读量1.2k

点赞数

分类专栏：机器学习数学基础文章标签：矩阵线性代数概率论

本文链接：https://blog.csdn.net/qq_41821224/article/details/113036267

版权

机器学习数学基础专栏收录该内容

4 篇文章 0 订阅

订阅专栏

多维高斯分布

概率密度函数

首先给出多维高斯分布的概率密度函数：
$p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}exp\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\}$ 其中， $\vec{x}\in{R^p},\mu$ 为均值 $,\Sigma$ 为协方差矩阵 $,|\Sigma|$ 为对应行列式的值。
由于协方差矩阵 $\Sigma$ 具有正定性，可对其做特征分解 $\Sigma=U\Lambda U^T$ , 其中 $U=\begin{pmatrix}u_1&u_2&\dots&&u_p\end{pmatrix}，UU^T=I_{p\times{p}}, \Lambda=diag(\lambda_i)$
由此可得： $\Sigma=\begin{pmatrix}u_1&u_2&\dots&u_p\end{pmatrix}\begin{pmatrix}\lambda_1&0&0&\dots&0\\0&\lambda_2&0&\dots&0\\0&0&\lambda_3&\dots&0\\0&0&0&\dots&0\\.&&&&.\\0&0&0&\dots&\lambda_p\end{pmatrix}\begin{pmatrix}u_1^T\\u_2^T\\\vdots\\u_p^T\end{pmatrix}=\sum\limits_{i=1}^{p}\lambda_iu_iu_i^T$ $\Sigma_1^{-1}=(U\Lambda U^T)^{-1}=(U^T)^{-1}\Lambda^{-1}U^{-1}=(U^{-1})^{T}\Lambda^{-1}U^{-1}=U\Lambda^{-1}U^T=\sum\limits_{i=1}^{p}\frac{1}{\lambda_i}u_iu_i^T$
则分布函数中的指数部分可进一步表示为：
$(x-\mu)^T\Sigma^{-1}(x-\mu)=\sum\limits_{i=1}^{p}\frac{1}{\lambda_i}(x-\mu)^Tu_iu_i^T(x-\mu)=\sum\limits_{i=1}^{p}\frac{1}{\lambda_i}y_iy_i^T=\sum\limits_{i=1}^{p}\frac{1}{\lambda_i}||y_i||^2$

很明显，当 p = 2 时，指数部分 $\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}=r$ 表示一个椭圆曲线。椭圆的两个轴的方向是 $U$ 中两个特征向量的方向，轴长是对应的 $\sqrt{\lambda_i}$ 的长度。高斯分布的形状见下图：
图片来源于网络

高斯分布的线性变换

对于 $Y = A X + B$

若 $X\sim N(\mu_x,\Sigma)$ ，则 $Y\sim N(A\mu_x+B,A\Sigma A^T)$

证明如下：

$E[Y]=E[AX+B]=AE[X]+B=A\mu_x+B$

$D[Y]=D[(Y-\mu_y)(Y-\mu_y)^T]\\\quad \quad =D[((AX+B)-(A\mu_x+B))((AX+B)-(A\mu_x+B))^T]\\\quad \quad= D[(AX-A\mu_x)(AX-A\mu_x)^T]\\\quad \quad =AD[(X-\mu_x)(X-\mu_x)]A^T\\\quad \quad =A\Sigma_xA^T$

由联合概率分布求边缘概率分布

【假设】： $X=\begin{pmatrix}x_a\\x_b\end{pmatrix},\mu=\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix},\Sigma=\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix},x_a\in{R^m},x_b\in{R^n}$ 对于 $x_a=\begin{pmatrix}I_m&0\end{pmatrix}\begin{pmatrix}x_a\\x_b\end{pmatrix}=AX$
则根据线性变换有： $E[x_a]=E[AX]=E[I_mx_a]=E[x_a]=\mu_a$ $D[x_a]=A\Sigma A^T=\begin{pmatrix}I_m&0\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}I_m\\0\end{pmatrix}=\Sigma_{aa}$
所以 $x_a\sim N(\mu_a,\Sigma_{aa})$ ，同理也可得到 $x_b\sim N(\mu_b,\Sigma_{bb})$

AI小小白_XP

关注

0
点赞
踩
8

收藏

觉得还不错? 一键收藏
0
评论
机器学习数学基础之四多维高斯分布

多维高斯分布概率密度函数首先给出多维高斯分布的概率密度函数：p(x∣μ,Σ)=1(2π)p2∣Σ∣12exp{−12(x−μ)TΣ−1(x−μ)}p(x|\mu,\Sigma)=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}exp\{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)\}p(x∣μ,Σ)=(2π)2p∣Σ∣211exp{−21(x−μ)TΣ−1(x−μ)}其中，x⃗∈Rp,μ\vec{x}\i
复制链接

扫一扫

专栏目录