白板推导2-高斯分布

最新推荐文章于 2022-01-28 21:07:22 发布

prupcognition

最新推荐文章于 2022-01-28 21:07:22 发布

阅读量117

点赞数

分类专栏：机器学习算法

本文链接：https://blog.csdn.net/m0_37896765/article/details/103999633

版权

机器学习算法专栏收录该内容

17 篇文章 0 订阅

订阅专栏

1:用极大似然求高斯分布参数

令 $data:X=(x_1 \ x_2 \ ... \ x_p)^T$
$x_i \in R^p$
$x_i \ 服从 \quad N(\mu,\sigma^2)$ ,是独立同分布
一维高斯概率密度函数：
$p(x)=\frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x-\mu)^2}{2\sigma^2}\}$
多维高斯概率密度函数：
$=\frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\exp\{-\frac{1}{2}(x-\mu)^T \Sigma^{-1}(x-\mu)\}$
极大似然法求一维高斯的参数
$\theta =(\mu,\sigma^2)$
对原概率函数求对数，对数函数和原函数有相同的单调性
$\log p(x|\theta)= \displaystyle \log \prod_{i=1}^n p(x_i|\theta)$
$\displaystyle \sum_{i=1}^n \log p(x_i|\theta)$
$\displaystyle \sum_{i=1}^n \log \frac{1}{\sqrt{2\pi}\sigma}\exp\{-\frac{(x_i-\mu)^2}{2\sigma^2}\}$
$\displaystyle \sum_{i=1}^n( \log \frac{1}{\sqrt{2\pi}}+\log \frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2\sigma^2})$

$MLE_\mu =argmax_\mu \log p(x|\theta)$
$=argmax_\mu \displaystyle \sum_{i=1}^n( \log \frac{1}{\sqrt{2\pi}}+\log \frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2\sigma^2})$
对 $\mu 求偏导并令其为0 有$
$\displaystyle \sum_{i=1}^n2(x_i-\mu)(-1)=0$
$\displaystyle \sum_{i=1}^nx_i=\displaystyle \sum_{i=1}^n\mu$
$\mu = \frac{1}{n}\displaystyle \sum_{i=1}^nx_i$

对 $\sigma^2求偏导并令其为0 有$
$\displaystyle \sum_{i=1}^n(-\frac{1}{\sigma}-\frac{(x_i-\mu)^2}{2}*(-2)\sigma^{-3})=0$
$\displaystyle \sum_{i=1}^n((x_i-\mu)^2-\sigma^2)=0$
$\sigma^2 =\frac{1}{n}\displaystyle \sum_{i=1}^n(x_i-\mu)^2=0$

2：高斯分布的几何解释

多维高斯分布公式：
$=\displaystyle \frac{1}{(2\pi)^{\frac{p}{2}}|\Sigma|^{\frac{1}{2}}}\exp\{-\frac{1}{2}(x-\mu)^T \Sigma^{-1}(x-\mu)\}$
其中
$x_i \in R^p$
$X=\left[ \begin{matrix} x_1 \\ x_2 \\ ...\\x_n \end{matrix} \right] \qquad \mu=\left[ \begin{matrix} \mu_1 \\ \mu_2 \\ ...\\\mu_n \end{matrix} \right] \qquad \Sigma=\left[ \begin{matrix} \sigma_{11} \ \sigma_{12} \ ... \sigma_{1p} \\ \sigma_{21} \ \sigma_{22} \ ... \sigma_{2p} \\ ......... \\ \sigma_{n1} \ \sigma_{n2} \ ... \sigma_{np} \\ \end{matrix} \right] \qquad 并假定\Sigma是正定的$
多维高斯分布只有指数项部分和x相关，所以可以只研究指数项部分，其中
$(x-\mu)^T \Sigma^{-1}(x-\mu)称为x与\mu的马氏距离$
首先对协方差矩阵做特征值分解,因为是正定矩阵有：

$\Sigma =U\lambda U^T, \quad UU^T=U^TU=U^{-1}U=I, \lambda=diag(\lambda_i)$
$\Sigma^{-1} =(U\lambda U^T)^{-1}=(U^T)^{-1}\lambda^{-1}U^{-1}=U\lambda^{-1}U^T$
$\Sigma =U\lambda U^T= (u_1\ u_2 \ ...\ u_p) \left[ \begin{matrix} \lambda_1 ..............0 \\ 0... \lambda_2 \ ... .....0 \\ 0.........\lambda_i .... 0\\ 0 \ 0 \ ...........\lambda_p \\ \end{matrix} \right] (u_1\ u_2 \ ...\ u_p)^T \\$
$=(u_1\lambda_1\ u_2\lambda_2 \ ...\ u_p\lambda_p) (u_1\ u_2 \ ...\ u_p)^T \\ =\sum u_i \lambda_{i}u_i^T$
所以有
$\Sigma^{-1}=\displaystyle\sum_{i=1}^p u_i \frac{1}{\lambda_{i}}u_i^T$
带入马氏距离有：
$(x-\mu)^T \Sigma^{-1}(x-\mu)=(x-\mu)^T\displaystyle\sum_{i=1}^p u_i \frac{1}{\lambda_{i}}u_i^T(x-\mu)\\ 把求和符号提到前面有\\ =\displaystyle\sum_{i=1}^p(x-\mu)^T u_i \frac{1}{\lambda_{i}}u_i^T(x-\mu)$
令 $y_i=(x-\mu)^T u_i$
原式= $\displaystyle\sum_{i=1}^p \frac{y_i^2}{\lambda_i}$
令p=2,也就是3维的情况，有
$p(x)=\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}$
当概率给定时，比如r,有 $p(x)=\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}=r$ ,从几何角度看，该图形是以 $\lambda为轴，u方向的椭圆$
在这里插入图片描述
概率从0到1的整个形状，如下图所示，像山峰一样

3：高斯分布的局限性

协方差参数过多，假定 $\in R^p,协方差参数为p^2,为了简化操作有时可以假定协方差矩阵为对角矩阵$
当个的高斯分布不一定符合实际问题，有时可以采用混合高斯模型

prupcognition

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
白板推导2-高斯分布

令data:X=(x1 x2 ... xp)Tdata:X=(x_1 \ x_2 \ ... \ x_p)^Tdata:X=(x1 x2 ... xp)Txi∈Rpx_i \in R^pxi∈Rpxi 服从N(μ,σ2)x_i \ 服从 \quad N(\mu,\sigma^2)xi 服从N(μ,σ2...
复制链接

扫一扫

专栏目录