PRML学习总结之三-----概率分布之二

最新推荐文章于 2021-10-18 17:49:00 发布

bjy_fighting

最新推荐文章于 2021-10-18 17:49:00 发布

阅读量1.2k

点赞数

分类专栏： PRML学习心得文章标签：机器学习 PRML 高斯分布概率分布

本文链接：https://blog.csdn.net/bjy_fighting/article/details/50688023

版权

PRML学习心得专栏收录该内容

5 篇文章 0 订阅

订阅专栏

PRML学习总结之三—–概率分布之二

这一部分主要介绍机器学习之中的重要分布：高斯分布(Gaussian Distribution)，高斯分布贯穿整个机器学习中的各个部分。本文主要介绍2维、3维高斯分布的特点及性质。

高斯分布的表达式

二维高斯：

N (x | μ, σ 2) = 1 ( 2 π σ 2 ) 1 / 2 e x p {- 1 2 σ 2 (x - μ) 2}

$N(x|\mu, \sigma^2) = \frac{1}{(2\pi\sigma^2)^{1/2}}exp\{-\frac{1}{2\sigma^2}(x - \mu)^2\}$
多维高斯：

N (x | μ, Σ) = 1 ( 2 π ) D / 2 | Σ | 1 / 2 e x p {- 1 2 (x - μ) T Σ - 1 (x - μ)}

$N(x|\mu, \Sigma) = \frac{1}{(2\pi)^{D/2}|\Sigma|^{1/2}}exp\{-\frac{1}{2}(x - \mu)^T\Sigma^{-1}(x - \mu)\}$ 其中D为向量x的维度。

高斯分布的图形

一维高斯的图形如下图，显然 $x = \mu$ 为二维高斯的对称轴，当 $\sigma$ 越大时，曲线越矮胖；而当 $\sigma$ 越小时，曲线越高窄。
一维高斯图形
二维高斯根据 $\Sigma$ 的不同可以分为3种：
(1) 当 $\Sigma$ 为对角矩阵，且对角线的元素均相等，图形如下
( $\mu = \left[ \begin{matrix} 0\\ 0\\ \end{matrix} \right]$ , $\Sigma = \left[ \begin{matrix} 1&0\\ 0&1\\ \end{matrix} \right]$ )
这里写图片描述
俯视图为：

显然可知俯视图为圆形。
(2) 当 $\Sigma$ 为对角矩阵，且对角线的元素不全相等，图形如下
( $\mu = \left[ \begin{matrix} 0\\ 0\\ \end{matrix} \right]$ , $\Sigma = \left[ \begin{matrix} 1&0\\ 0&1.8\\ \end{matrix} \right]$ )：
这里写图片描述
俯视图为：

显然可知俯视图为椭圆，且其长轴与短轴分别与坐标轴平行。
通过对比也可以发现，当 $\Sigma$ 的元素变大时, 图形变得矮胖；当 $\Sigma$ 的元素较小时，图形变得瘦高。可以通过证明的是椭圆的长轴与短轴的长度恰恰是 $\Sigma$ 的2个特征根的平方根。而方向则恰恰等于其特征向量的方向。
(3) 当 $\Sigma$ 为非对角矩阵时，图形如下
( $\mu = \left[ \begin{matrix} 0\\ 0\\ \end{matrix} \right]$ , $\Sigma = \left[ \begin{matrix} 2&1\\ 1&3\\ \end{matrix} \right]$ )
这里写图片描述
俯视图为:

显然此时俯视图为椭圆，另一俯视图
（ $\mu = \left[ \begin{matrix} 0\\ 0\\ \end{matrix} \right]$ , $\Sigma = \left[ \begin{matrix} 2&-1\\ -1&3\\ \end{matrix} \right]$ )

其中绘制2维高斯的matlab代码如下所示：

function [] = showGaussian2(mu, sigma)
[x,y] = meshgrid(-3:0.1:3,-3:0.1:3) ;
z = zeros(size(x));

m = length(x);
for i = 1:m,
    for j = 1:m,
        v = [x(i,j);y(i,j)] - mu;
        z(i,j) =  1/(2*pi*(det(sigma)^0.5)) * exp(-0.5*v'*pinv(sigma)*v);
    end;
end;

figure;mesh(x, y, z);
figure;contour(x, y, z);

条件高斯分布

设原高斯分布为 $p(x) = N(x|\mu, \Sigma)$ , 且
$x = \left[ \begin{matrix} x_1\\ x_2\\ \end{matrix} \right]$ , $\mu = \left[ \begin{matrix} \mu_1\\ \mu_2\\ \end{matrix} \right]$ , $\Sigma = \left[ \begin{matrix} \Sigma_{11}&\Sigma_{12}\\ \Sigma_{21}&\Sigma_{22}\\ \end{matrix} \right]$ ,
则在 $x_2$ 已知的前提下， $x_1$ 仍为高斯分布，其形式如下：

p (x 1 | x 2) = N (x | μ 1 | 2, Σ 1 | 2)

$p(x_1|x_2) = N(x|\mu_{1|2}, \Sigma_{1|2})$ 其中：

μ 1 | 2 = μ 1 + Σ 12 Σ - 1 22 (x 2 - μ 2)

$\mu_{1|2} = \mu_1 + \Sigma_{12}\Sigma^{-1}_{22}(x_2 - \mu_2)$

Σ 1 | 2 = Σ 11 - Σ 12 Σ - 1 22 Σ 21

$\Sigma_{1|2} = \Sigma_{11} - \Sigma_{12}\Sigma^{-1}_{22}\Sigma_{21}$
注意到

μ1|2 $\mu_{1|2}$ 是

x2 $x_2$ 的线性函数，而这是很典型的线性高斯模型。

边缘高斯分布

类似条件高斯分布的假设，通过计算知 $x_1$ 依然是服从高斯分布，且其中

p (x 1) = N (x 1 | μ 1, Σ 11)

$p(x_1) = N(x_1|\mu_1, \Sigma_{11})$

边缘与条件高斯

假设给定了x的边缘分布与给定x的情况下y的条件分布如下所示：

p (x) = N (x | μ, η - 1)

$p(x) = N(x|\mu, \eta^{-1})$

p (y | x) = N (y | A x + b, L - 1)

$p(y|x) = N(y|Ax + b, L^{-1})$
则根据Bayesian定理，可知：

p (y) = N (y | A μ + b, L - 1 + A η - 1 A T)

$p(y) = N(y|A\mu + b, L^{-1} + A\eta^{-1}A^T)$

p (x | y) = N (x | Σ A T L (y - b) + η μ, Σ)

$p(x|y) = N(x|\Sigma{A^TL(y - b) + \eta\mu}, \Sigma)$ 其中：

Σ=(η+ATLA)−1. $\Sigma = (\eta + A^TLA)^{-1}.$

高斯分布参数的共轭先验分布

高斯分布参数的先验分布主要可以分为4种情况：
(1) 当 $\Sigma$ 已知, $\mu$ 未知时, 参数 $\mu$ 的共轭先验分布为高斯分布;
(2)当 $\Sigma$ 未知, $\mu$ 已知时, 当参数为1维时，参数 $\Sigma$ 的共轭先验分布为Gamma分布;当参数为2维时， $\Sigma$ 的共轭先验分布为Wishart分布;
(3)当 $\Sigma$ 未知, $\mu$ 未知时, 当参数为1维时，参数 $\Sigma, \mu$ 的共轭先验分布为Gaussian-Gamma分布;当参数为2维时， $\Sigma$ 的共轭先验分布为Gaussian-Wishart分布;

高斯分布的评价

优势
在不同学科的模型与生活中的多种场景中，利用高斯分布进行估计与模拟可以产生相当精确的结果。
不足：
(1)对于多维高斯， $\Sigma, \mu$ 参数很多，假设参数维度为D，则 $\mu$ 包含D个参数，而对于普通的对称矩阵 $\Sigma$ 也有 $D(D + 1)/2$ 个参数，总计有 $D(D + 3)/2$ 个参数。若D很大，则参数的估计计算很麻烦。
(2)由于仅含有唯一的最大值，高斯分布十分适用于单模型，而无法适用于多模型，这样就大大的增加了其局限性。不过，混合高斯可以很好地解决这个问题。
(3)由于高斯分布的尾巴很短，则对于一些偏离中心的孤立点往往不能给出很好地效果，因此利用高斯分布构建的模型可能并不健壮。

bjy_fighting

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
0
评论
PRML学习总结之三-----概率分布之二

PRML学习总结之三—–概率分布之二这一部分主要介绍机器学习之中的重要分布：高斯分布(Gaussian Distribution)，高斯分布贯穿整个机器学习中的各个部分。本文主要介绍2维、3维高斯分布的特点及性质。高斯分布的表达式二维高斯：N(x|μ,σ2)=1(2πσ2)1/2exp{−12σ2(x−μ)2}N(x|\mu, \sigma^2) = \frac{1}{(2\pi\sigma^2)^
复制链接

扫一扫