多维高斯概率密度函数估计

最新推荐文章于 2024-08-21 21:56:17 发布

ツぃ☆ve芜情

最新推荐文章于 2024-08-21 21:56:17 发布

阅读量5.2k

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/dreaming_coder/article/details/104145693

版权

机器学习专栏收录该内容

12 篇文章 0 订阅

订阅专栏

多维高斯概率密度函数形式为 $f(x,\mu,\Sigma)=\displaystyle\frac{1}{(2\pi)^{d/2}|\Sigma|^{1/2}}\Large e ^{-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu)}$
其中 $x$ 和 $\mu$ 是 $d$ 维向量， $\Sigma$ 是 $\times d$ 的矩阵， $\Sigma$ 和 $\mu$ 是待求参数。

设 $\{x_i\}, i=1 \sim N$ 是符合该密度函数的 $N$ 个样本,那么我们可以利用最大似然法（Maxium Likelihood）求待定参数。目标函数为： $E(\mu,\Sigma)=\sum_{i=1}^N \ln f(x_i,\mu,\Sigma)=-\frac{Nd}{2}\ln (2\pi)-\frac{N}{2}\ln |\Sigma|-\frac{1}{2}\sum_{i=1}^N(x_i-\mu)^T\Sigma^{-1}(x_i-\mu)$ 此时，我们假定 $\{x_i\}, i=1 \sim N$ 满足独立同分布（independent and identical distribution, i.i.d）。

根据最大似然法的要求，我们要求 $\Sigma$ 和 $\mu$ 使 $E(\mu,\Sigma)$ 的值最大，由于 $E$ 是凸函数，故可以直接求使偏导数为 $0$ 的参数。这里为了简化计算我们可以求 $\Sigma^{-1}$ 的偏导，因为行列式容易转换，而后面有一项矩阵如果进行转换回很麻烦，求出 $\Sigma^{-1}$ 其实也就是求出了 $\Sigma$
$\begin{aligned} &\frac{\partial E}{\partial \mu}=-\frac{1}{2}\sum_{i=1}^N\bigg[\Sigma^{-1}(x_i-\mu)+(\Sigma^{-1})^T(x_i-\mu)\bigg]\times(-1)=0 \\\\ &\frac{\partial E}{\partial (\Sigma^{-1})}=\frac{N}{2}\Sigma^T-\frac{1}{2}\sum_{i=1}^N(x_i-\mu)(x_i-\,u)^T=0 \end{aligned}$
显然，第二个式子好求，化简得 $\Sigma^T=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)(x_i-\,u)^T$ 可以看出来这是个对称矩阵，故 $\begin{aligned}\Sigma=\Sigma^T=\frac{1}{N}\sum_{i=1}^N(x_i-\mu)(x_i-\,u)^T， \Sigma^{-1}=(\Sigma^{-1})^T\end{aligned}$ 再看第一个式子 $\begin{aligned}&\sum_{i=1}^N\bigg[\Sigma^{-1}(x_i-\mu)+(\Sigma^{-1})^T(x_i-\mu)\bigg]=0 \\\\ \implies&2\sum_{i=1}^N\bigg[\Sigma^{-1}(x_i-\mu)\bigg]=0 \\\\ \implies&\Sigma^{-1}\sum_{i=1}^N(x_i-\mu)=0 \\\\ \implies&\sum_{i=1}^N(x_i-\mu)=0 \\\\ \implies& \mu=\frac{1}{N}\sum_{i=1}^Nx_i \end{aligned}$