数学基础——高斯分布

最新推荐文章于 2023-10-23 06:11:03 发布

对不起该昵称已存在

最新推荐文章于 2023-10-23 06:11:03 发布

阅读量614

点赞数

分类专栏：模式识别与机器学习文章标签：高斯分布极大似然估计无偏估计边缘概率条件概率

本文链接：https://blog.csdn.net/qq_43326818/article/details/112602980

版权

模式识别与机器学习专栏收录该内容

5 篇文章 0 订阅

订阅专栏

数学基础-——高斯分布

一、极大似然估计
- 1、极大似然估计
- 2、有偏VS无偏
二、从概率密度角度看高分布
三、高斯分布的局限性
四、求边缘概率和条件概率

一、极大似然估计

1、极大似然估计

数据： $X=x_1,x_2,x_3,...,x_N$ ， $x_i$ 为n维数据，即 $x_i=(x_{i1},x_{i2},x_{i3},...,x_{in})$ ，且数据 iid，都服从 $N(\mu,\Sigma)$ 。
参数： $\theta=(\mu,\Sigma)$
极大似然估计：以一维为例子使用极大似然方法估计参数，即 $\theta=(\mu,\sigma^2)$ 。
极大似然估计：
（1）单个数据的概率分布： $p(x|\theta)=\frac{1}{\sqrt{2\pi}\sigma}exp(-\frac{(x-\mu)^2}{2\sigma^2})$
（2）所有数据的概率分布： $p(X|\theta)=\prod\limits_{i=1}^Np(x_i|\theta)$
（3）对数似然函数： $logp(X|\theta)=\sum\limits_{i=1}^Nlogp(x_i|\theta)=\sum\limits_{i=1}^N(log\frac{1}{\sqrt{2\pi}}-log\sigma-\frac{(x_i-\mu)^2}{2\sigma^2})$
（4）求参数 $\mu$ : $\frac{ \partial log(X|\theta)}{\partial \mu}=-2\sum\limits_{i=1}^N(x_i-\mu)=0\Rightarrow\hat{\mu}=\frac{\sum\limits_{i=1}^Nx_i}{N}$ 。
（5）求参数 $\sigma$ : $\frac{\partial log(X|\theta)}{\partial \sigma}=\sum\limits_{i=1}^N(-\frac{1}{\sigma}+(x_i-\mu)^2\sigma^{-3}=0\Rightarrow\hat{\sigma}=\frac{\sum\limits_{i=1}^N(x_i-\hat{\mu})^2}{N}$ 。

2、有偏VS无偏

有偏VS无偏
参数估计时，若 $E(\hat{\theta})=\theta，则为有偏估计，否则为无偏估计$ 。

（1）使用最大似然估计得到的高斯分布的均值 $\hat{\mu}$ 为无偏估计： $E(\hat\mu)=E(\frac{\sum x_i}{N})=\frac{1}{N}E(\sum x_i)=\frac{1}{N}N\mu=\mu$ ，所以 $\mu$ 为无偏估计。
（2）使用最大似然估计得到的高斯分布的方差 $\hat{\sigma^2}$ 为有偏估计： $E(\hat{\sigma^2}) =E(\frac{\sum (x_i-\hat{\mu})^2}{N})=\frac{1}{N}\sum E(x_i^2-2x_i\hat{\mu}+\hat\mu^2)=\frac{1}{N}\sum (E(x_i^2)-2E(x_i\hat{\mu}^2)+E(\hat{\mu}))=\frac{1}{N}\sum(E(x_i)^2-\hat{\mu}^2)=\frac{1}{N}\sum(E(x_i)^2-\mu^2-(\hat{\mu}^2-\mu^2))=\frac{1}{N}(Nvar(x)-Nvar(\hat{\mu}))=\sigma^2-var(\hat{\mu})=\sigma^2-\frac{1}{N}\sigma^2=\frac{N-1}{N}\sigma^2\not=\sigma^2$ 。
并且使用最大似然估计得到的方差偏小，这是因为使用了均值的估计值对方差进行估计，从而导致使用最大似然对方差进行估计是有偏的。
（3） $\sigma^2$ 的无偏估计为： $\frac{1}{N-1}\sum(x_i-\hat{\mu})^2$ 。

二、从概率密度角度看高分布

当是多维高斯分布时，其概率密度函数为： $p(x)=\frac{1}{(2\pi)^{\frac{1}{n}}|\Sigma|^\frac{1}{2}}exp(-\frac{1}{2}(x-\mu)^T\Sigma^{-1}(x-\mu))$ 。
对于同一个分布，不同的只是x的取值，其余 $\mu和\Sigma$ 可视为常数，因此考虑不同x的取值对 $(x-\mu)^T\Sigma^{-1}(x-\mu)$ 的影响。
首先考虑协方差矩阵 $\Sigma$ ，根据特征值分解： $\Sigma=U\Lambda U^T,UU^T=U^TU=I,\Lambda=diag(\lambda_i) ~i=1,2,...,n，U=（u_1,u_2,...,u_p)_{p*p}$
$\Rightarrow\Sigma=(u_1,u_2,...,u_n)\Lambda(u_1,u_2,...,u_n)^ T=(u_1\lambda_1,u_2\lambda_2,...,u_n\lambda_n)(u_1,u2,...,u_n)^T=\sum\limits_{i=1}^nu_i\lambda_iu_i^T$ 。
则 $\Sigma^{-1}=(U\Lambda U)^{-1}=U\Lambda^{-1}U^T=\sum\limits_{i=1}^nu_i\frac{1}{\lambda_i}u_i^T$ 。
则记 $\Delta=(x-\mu)^T\Sigma^{-1}(x-\mu)=\sum\limits_{i=1}^n(x-\mu)^Tu_i\frac{1}{\lambda_i}u_i^T(x-\mu),令y_i=(x-\mu)^Tu_i,则\Delta=\sum\limits_{i=1}^ny_i\frac{1}{\lambda_i}y_i=\sum\limits_{i=1}^n\frac{y_i^2}{\lambda_i}$ 。
当 $\Delta$ 取值相同时，有相同的概率（在一点时，概率密度的值即为该点的概率），若n=2，则 $\Delta=\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}$ ，当取定值 $\Delta=r$ 时， $\frac{y_1^2}{\lambda_1}+\frac{y_2^2}{\lambda_2}=r$ ，其为 $y_1$ 轴和 $y_2$ 轴上的椭圆，其中 $y_1$ 和 $y_2$ 的坐标是通过对x进行映射得到，即 $y_i=(x-\mu)^Tu_i$ 。因此，在二维高斯分布中，相同的概率的点在平面上方的映射为一个个椭圆。

三、高斯分布的局限性

高维高斯分布需要求其协方差矩阵，复杂度为 $O(p^2)$ ，当很高维时复杂度很高，因此在一些情况下对协方差矩阵进行一些假设可以降低复杂度：
（1）协方差矩阵为对角矩阵，则 $y_i$ 的方向与 $x_i$ 同向，只是对 $x_i$ 进行了平移，x的各维之间无关，互相正交。
（2）协方差矩阵为对角矩阵且特诊值都相同，即 $\lambda_i=\lambda$ ，则 $\Delta$ 值相同时为圆形，不再是椭圆，x分布是各向同性的。

四、求边缘概率和条件概率

数据格式：
已知
$x =$ $\begin{pmatrix}x_a \\ x_b \end{pmatrix}$ $\mu=$ $\begin{pmatrix}\mu_a\\\mu_b \end{pmatrix}$ $\Sigma=$ $\begin{bmatrix} \Sigma_{aa} & \Sigma_{ab} \\\Sigma_{ba} & \Sigma_{bb}\end{bmatrix}$
根据协方差矩阵的对称性： $\Sigma_{ab}=\Sigma_{ba}^T$
求 $p(x_a)和p(x_b|x_a)$

1、定理

已知 $x服从N(\mu,\Sigma)，x为n维向量，y=Ax+B，A为q*n的矩阵，y为q维向量，则：$
$y服从N(A\mu+B,A\Sigma A^T)$

2、求边缘概率密度

（1）求边缘概率 $p(x_a)$ :
由 $x_a=(I_{m*m}~ 0_{m*n})x$ ,则根据定理有 $A=(I_{m*m}~0_{m*n}),B=0$
$\Rightarrow E(x_a)=A*\mu+B=(I_{m*m}~0_{m*n})(\mu_a~\mu_b)^T+0=\mu_a$
$var(x_a)=A\Sigma A^T=\Sigma_{aa}$
所以， $x_a$ 服从 $N(\mu_a,\Sigma_{aa})$ ，则边缘概率 $p(x_a)$ 得解。
（2）求条件概率 $p(x_b|x_a)$ ，求解的过程比较有技巧性，间接性求解。
首先记一些符号： $x_{ba}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a$
$\mu_{ba}=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a$
$\Sigma_{bba}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}$
观察上面的符号，可以知道如果知道 $x_{ba}$ 的分布，那么 $x_b$ 的分布也就可以得到：
$x_{ba}=(-\Sigma_{ba}\Sigma_{aa}^{-1}~ ~~~I_n)x$ $,则A=(-\Sigma_{ba}\Sigma_{aa}^{-1}~ ~~~I_n),B=0$
$\Rightarrow E(x_{ba})=A\mu+B=\mu_ba$
$\Rightarrow var(x_{ba})=AxA^T=\Sigma_{bba}$
$\Rightarrow x_{ba}服从N(\mu_ba,\Sigma_{bba})$
因为 $x_b=x_{ba}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a,则A=I,B=\Sigma_{ba}\Sigma_{aa}^{-1}x_a$
$\Rightarrow E(x_b|x_a)=\mu_{ba}+B=\mu_{ba}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a$
$\Rightarrow var(x_b|x_a)=var(x_{ba})=\Sigma_{bba}$
$\Rightarrow x_b|x_a服从N(\mu_{ba}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a,\Sigma_{bba})$ ，条件概率得解。
因为有对称性，所以 $x_b|x_a$ 只需要更改a,b的位置。

3、例子

已知：
$p(x)=N(x|\mu,\Lambda^{-1})$
$p(y|x)=N(y|Ax+b,L^{-1})$
求 $p (y), p (x ∣ y)$
解：
（1）因为x服从高斯分布，且p(y|x)也为高斯分布，则x与y之间的关系为： $y=Ax+b+\epsilon,其中\epsilon服从N(0,L^{-1})$
$\Rightarrow E(y)=E(Ax+b+\epsilon)=AE(x)+b=A\mu+b$
$\Rightarrow var(y)=Avar(x)A^T=A\Lambda^{-1}A$
所以 $p(y)=N(A\mu+b,A\Lambda^{-1}A)$ 。
（2）求条件概率，首先求联合概率，则根据2中的式子求解条件概率。
因为x服从高斯分布，y也服从高斯分布，则其联合分布也服从高斯分布，即 $z=(x^T~~~y^T)^T$ 也服从高斯分布，且
$E (z) =$ $\begin{bmatrix} \mu \\ A\mu+b \end{bmatrix}$
$v a r (z) =$ $\begin{bmatrix} \Lambda^{-1} & \Delta \\ \Delta^T & L^{-1}+A\Lambda^{-1}A^T \end{bmatrix}$
此时，问题转化为求解 $\Delta$ ， $\Delta$ 为x,y的协方差矩阵：
$\Delta=Cov(x,y)$
$E(x-E(x))(y-E(y))^T$
$=E(x-\mu)(y-A\mu-b)^T$
$=E(x-\mu)(Ax+b+\epsilon-A\mu-b)^T$
$=E(x-\mu)(Ax-A\mu+\epsilon)^T$
$=E(x-\mu)(Ax-A\mu)^T+(x-\mu)\epsilon^T$
因为 $x与\epsilon$ 独立并且 $E(\epsilon)=0$
$\Rightarrow =E(x-\mu)(Ax-A\mu)^T$
$=E[(x-\mu)(x-\mu)^T]A$
$var(x)A^T$ $=\Lambda^{-1}A^T$
$\Rightarrow \Delta=\Lambda^{-1}A^T$
则 $p (x, y)$ 求得，求解p(x|y)根据（2）中的条件概率计算公式。

参考视频，大佬太厉害了

对不起该昵称已存在

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
数学基础——高斯分布

数学基础-——高斯分布一、极大似然估计1、极大似然估计2、有偏VS无偏二、从概率密度角度看高分布三、求边缘概率和条件概率一、极大似然估计1、极大似然估计数据：x1,x2,x3,...,xNx_1,x_2,x_3,...,x_Nx1,x2,x3,...,xN，xix_ixi为n维数据，即xi=(xi1,xi2,xi3,...,xin)x_i=(x_{i1},x_{i2},x_{i3},...,x_{in})xi=(xi1,xi2,xi3,...,xin)，且数据 iid，都服从N(μ
复制链接

扫一扫

专栏目录