多维高斯分布

最新推荐文章于 2022-07-31 21:05:26 发布

Rauchy

最新推荐文章于 2022-07-31 21:05:26 发布

阅读量5.9k

点赞数 3

分类专栏：概率统计与线代文章标签：高斯分布

本文链接：https://blog.csdn.net/wc13197389627/article/details/101267462

版权

概率统计与线代专栏收录该内容

7 篇文章 2 订阅

订阅专栏

简介

高斯分布是比较常见的概率分布，一维高斯分布如下：
$f(x)=\frac{1}{2\pi\sigma}e^{-{\frac{(x-\mu)^2} {2\sigma^2}}}$
其中， $\sigma$ 是方差， $\mu$ 是平均值。但是常见的一般是多维高斯分布，我们可以由一维的高斯分布推广到多维的高斯分布。

推导

多维高斯分布的表示如下：
$P(x|\mu,\Sigma)=\frac{1}{{(2\pi)}^{n/2}|\Sigma|^{1/2}}exp\{{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}\}$
其中， $\mu=E(x)$ ， $\Sigma=Cov(x)=E\{(x-\mu)(x-\mu)^T\}$ ， $\mu$ 是均值向量， $\Sigma$ 是协方差矩阵。
由多维高斯分布可以推导出联合高斯分布，假设有多维变量 $X_1$ 和 $X_2$ ，它们的联合高斯分布和之前的形式一样，只不过相关参数有所变化，相关参数如下：
$\mu=\left[\begin{matrix}\mu_1\\\mu_2 \end{matrix}\right]$
$\Sigma=\left[\begin{matrix}\Sigma_{11}&\Sigma_{12}\\\Sigma_{21}&\Sigma_{22}\end{matrix}\right]$

条件高斯分布 $P(X_1|X_2=x_2)$ 的参数如下：
$\mu_{1|2}=\mu_1+\Sigma_{12}\Sigma^{-1}_{22}(x_2-\mu_2)$
$\Sigma_{1|2}=\Sigma_{11}-\Sigma_{22}^{-1}\Sigma_{21}$
多维高斯分布可以由多个变量的联合概率分布推导出来，一开始，我们考虑n个彼此无关的高斯分布变量，它们的联合概率密度为
$f(x_1,x_2,...,x_n)=\prod_{i=0}^{n}f(x_i)=\frac{1}{(2\pi)^{n/2}\prod_{i=1}^{n}\sigma_i}\exp{-\sum_{i=1}^{n}\frac{(x_i-\mu_i)^2}{\sigma^2}}$
其中， $\mu_i$ 为 $x_i$ 的均值， $\sigma_i$ 为 $x_i$ 的方差。
这和多维高斯分布是一致的，由于各个变量不相关，所以协方差矩阵 $\Sigma$ 是对角阵 $\Sigma=dialog(\sigma_1^2,\sigma_2^2,...,\sigma_n^2)$
利用多维高斯分布计算出来的结果与上式相同。

极大似然估计

我们可以利用极大似然估计对多维高斯分布的参数进行估计。给定数据 $X=\{x_1,x_2,...,x_n\}$ ，已知 $x\sim N(\mu,\Sigma)$ ，估计参数 $\mu$ 和 $\Sigma$ 的值。
概率的对数似然函数如下：
$\ln p(X|\mu,\Sigma)=-\frac{N}{2}\ln \det(\Sigma) -\frac{1}{2}\sum_{n=1}^{N}(x_n-\mu)^T\Sigma^{-1}(x_n-\mu)+const$
将上式对 $\mu$ 求导，得 $\nabla_{\mu} \ln p(X|\mu,\Sigma)=\sum_{n=1}^{N}\Sigma^{-1}(\mu-x_n)=\Sigma^{-1}\sum_{n=1}^{N}(\mu-x_n)=0$
于是， $\hat\mu=\frac{1}{N}\sum_{n=1}^{N}x_n$ .

将上式对 $\Sigma$ 求导，需要先用"trace trick"对对数似然函数变形，对于矩阵的迹，有以下性质:

如果c是数值，那么 $t r (c) = c$
如果A,B是两个矩阵而且AB和BA是有定义的，那么 $t r (A B) = t r (B A)$
$\nabla_{A}{BA}=B^T$
$\nabla_{A}\ln(\det(A))=(A^{-1})^T$
如果x是k1的向量，A是kk的对称矩阵，那么 $\nabla_{x}(x^TAx)=2Ax$

将上述对数似然函数变形，得（因为是求导，所以我们忽略常数项）
$\begin{aligned} \ln p(X|\mu,\Sigma)=&-\frac{N}{2}\ln \det(\Sigma)-\frac{1}{2}\sum_{n=1}^{N}tr((x_n-\mu)^T\Sigma^{-1}(x_n-\mu))\\ =&-\frac{N}{2}\ln \det(\Sigma)-\frac{1}{2}\sum_{n=1}^{N}tr(\Sigma^{-1}(x_n-\mu)(x_n-\mu)^T)\\ =&-\frac{N}{2}\ln \det(\Sigma)-\frac{1}{2}tr(\Sigma^{-1}\sum_{n=1}^{N}(x_n-\mu)(x_n-\mu)^T) \end{aligned}$
将上式对 $\Sigma^{-1}$ 求导，首先，
$\nabla_{\Sigma^{-1}}\ln\det(\Sigma)=-\nabla_{\Sigma^{-1}}\ln\det(\Sigma^{-1})=-\Sigma^T$
于是，
$\nabla_{\Sigma^{-1}} \ln p(X|\mu,\Sigma)=\frac{N}{2}\Sigma^T-\frac{1}{2}\sum_{n=1}^{N}(x_n-\mu)(x_n-\mu)^T$
令上式等于0,得
$\Sigma=\frac{1}{N}\sum_{n=1}^{N}(x_n-\hat\mu)(x_n-\hat\mu)^T$

参考资料

Rauchy

关注

3
点赞
踩
26

收藏

觉得还不错? 一键收藏
0
评论
多维高斯分布

简介高斯分布是比较常见的概率分布，一维高斯分布如下：f(x)=12πσe−(x−μ)22σ2f(x)=\frac{1}{2\pi\sigma}e^{-{\frac{(x-\mu)^2} {2\sigma^2}}}f(x)=2πσ1e−2σ2(x−μ)2其中，σ\sigmaσ是方差，μ\muμ是平均值。但是常见的一般是多维高斯分布，我们可以由一维的高斯分布推广到多维的高斯分布。推导...
复制链接

扫一扫