（转载）高斯过程的数学基础-高斯分布

最新推荐文章于 2024-07-05 21:31:38 发布

深度胡说

最新推荐文章于 2024-07-05 21:31:38 发布

阅读量2.1k

点赞数 1

分类专栏：算法

算法专栏收录该内容

3 篇文章 0 订阅

订阅专栏

转载自：https://blog.csdn.net/paulfeng20171114/article/details/80276061

透彻理解高斯过程Gaussian Process (GP)

一、整体说说

为了理解高斯过程，我们就首先需要了解如下预备知识，即：高斯分布（函数）、随机过程、以及贝叶斯概率等。明白了这些预备知识之后才能顺利进入高斯过程，了解高斯过程本质及其高斯过程描述方法。人们又将高斯过程与贝叶斯概率有机结合在一起，构造了强大的数学方法（或称模型），为人类提供解决日常生活和工作的问题。特别是在人工智能领域更是意义非凡。为什么呢？

高斯过程模型属于无参数模型，相对解决的问题复杂度及与其它算法比较减少了算法计算量。
高斯模型可以解决高维空间（实际上是无限维）的数学问题，可以面对负杂的数学问题。
结合贝叶斯概率算法，可以实现通过先验概率，推导未知后验输入变量的后验概率。由果推因的概率。
高斯过程观测变量空间是连续域，时间或空间。
高斯过程观测变量空间是实数域的时候，我们就可以进行回归而实现预测。
高斯过程观测变量空间是整数域的时候（观测点是离散的），我们就可以进行分类。结合贝叶斯算法甚至可以实现单类分类学习（训练），面对小样本就可以实现半监督学习而后完成分类。面对异常检测领域很有用，降低打标签成本（小样本且单类即可训练模型）。
所以说，我们快点进入高斯过程-贝叶斯概率算法模型吧，功能非凡。
接下来慢慢展开学习之旅吧。

二、高斯分布（高斯函数）

https://blog.csdn.net/jorg_zhao/article/details/52687448</a>
https://blog.csdn.net/zyttae/article/details/41086773</a></p>

（一）一维高斯函数

一维高斯函数定义一维高斯函数定义
若随机变量XX服从一个位置参数为 $\mu$ 、尺度参数为 $\sigma$ 的概率分布(正态分布)，记为：

则其概率密度函数为
正态分布的数学期望值（或期望值） $\mu$ 等于位置参数，决定了分布曲线的位置；其方差 $\sigma ^{2}$ 的开平方或标准差 $\sigma$ 等于尺度参数，决定了分布曲线的幅度。正态分布的概率密度函数曲线呈钟形，因此人们又经常称之为钟形曲线“bellcurve”“bellcurve”。

我们通常所说的标准正态分布是位置参数 $\mu$ =0,尺度参数 $\sigma$ =1的正态分布（见下图中红色曲线）。
这里写图片描述

对于任意的实数a,b,c，
a= $\frac{1}{\sigma \sqrt{2\pi }}$ 是曲线尖峰的高度，b= $\mu$ 是尖峰中心的坐标，c= $\sigma$ 称为标准方差，表征的是bell钟状的宽度。钟形曲线下的总面积和永远为1。

为什么用概率密度函数表示高斯正态分布的函数：这种方法能够表示随机变量每个取值有多大的可能性。其它方法我们这里不在描述了，如：累积分布函数，cumulant、特征函数、动差生成函数以及cumulant-生成函数。
正态分布中一些值得注意的现象（量）：
1. 密度函数关于平均值对称。
2. 平均值与它的众数（statistical mode）以及中位数（median）同一数值。
3. 函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。
4. 95.449974%的面积在平均数左右两个标准差 $2\sigma$ 的范围内。
5. 99.730020%的面积在平均数左右三个标准差 $3\sigma$ 的范围内。
6. 99.993666%的面积在平均数左右四个标准差 $4\sigma$ 的范围内。

这里写图片描述

其中：

在机器学习中，用于故障检测时，训练数据集X是已知，而且不需要有标签，可以作为非监督学习训练。
高斯分布样例如下图（引自吴恩达课件）：
一维高斯分布样例图（吴恩达）

注：机器学习中对于方差我们通常只除以m而非统计学中的m−1(因为均值进去一个点)。这里顺便提一下，在实际使用中，到底是选择使用 $\frac{1}{m}$ 还是 $\frac{1}{m-1}$ 其实区别很小，只要你有一个还算大的训练集，在机器学习领域大部分人更习惯使用这个版本的公式。这两个版本的公式在理论特性和数学特性上稍有不同，但是在实际使用中，他们的区别甚小，几乎可以忽略不计。

正态分布的一些性质：
中心极限定理
正态分布有一个非常重要的性质：在特定条件下，大量统计独立的随机变量的平均值的分布趋于正态分布，这就是中心极限定理。中心极限定理的重要意义在于，根据这一定理的结论，其他概率分布可以用正态分布作为近似。中心极限定理阐明了随着有限方差的随机变量数量增长，它们的和的分布趋向正态分布。
- 1、参数为n和p的二项分布，在n相当大而且p接近0.5时近似于正态分布。
  （有的参考书建议仅在np与n(1−p)至少为5时才能使用这一近似）。近似正态分布平均数为 $\mu$ = np且方差为 $\sigma ^{2}$ = np(1−p).（见下图）正态分布的概率密度函数，参数为 $\mu$ = 12， $\sigma$ = 3，趋近于n = 48、p = 1/4的二项分布的概率质量函数。
- 2、一泊松分布带有参数λ当取样样本数很大时将近似正态分布λ.
  近似正态分布平均数为 $\mu$ = $\lambda$ 且方差为 $\sigma ^{2}$ = $\lambda$ ,这些近似值是否完全充分正确取决于使用者的使用需求。
相关的一些分布介绍

（二）二元高斯函数（多元中的特例）

二维高斯函数形如：

A是幅值，x。y。是中心点坐标， $\sigma _{x}$ $\sigma _{y}$ 是方差，图示如下，A = 1, $x_{0}$ = 0, $y_{0}$ = 0, $\sigma _{x}$ = $\sigma _{y}$ = 1.
gaussian curve with a 2-dimensional domain

下面使用matlab直观的查看高斯函数，在实际编程应用中，高斯函数中的参数有

ksize 高斯函数的大小
sigma 高斯函数的方差
center 高斯函数尖峰中心点坐标
bias 高斯函数尖峰中心点的偏移量，用于控制截断高斯函数

为了方便直观的观察高斯函数参数改变而结果也不一样，下面的代码实现了参数的自动递增，并且将所有的结果图保存为gif图像，首先贴出完整代码：

[plain] view plain copy
 function mainfunc()  
% 测试高斯函数，递增的方法实现高斯函数参数的改变对整个高斯函数的影响，  
% 并自动保存为gif格式输出。  
% created by zhao.buaa 2016.09.28  

%% 保存gif动画  
item = 10;      % 迭代次数  
dt = 1;             % 步长大小  
ksize =20;      % 高斯大小  
sigma = 2;      % 方差大小  
% filename = ['ksize-' num2str(ksize) '--' num2str(ksize+dt*item) '-sigma-' num2str(sigma) '.gif']; %必须预先建立gif文件  
filename = ['ksize-' num2str(ksize)  '-sigma-' num2str(sigma) '--' num2str(sigma+dt*item) '.gif']; %必须预先建立gif文件  

% main loop  
for i = 1:item  
    center  = round(ksize/2);          % 中心点  
    bias       = ksize*10/10;              % 偏移中心点量  
    ksigma = ksigma(ksize, sigma, center, bias);    % 构建核函数  
    tname  = ['ksize-' num2str(ksize) '-sigma-' num2str(sigma) '-center-' num2str(center)];  
    figure(i), mesh(ksigma), title(tname);  
    %设置固定的x-y-z坐标范围，便于观察，axis([xmin xmax ymin ymax zmin zmax])  
    axis([0 ksize 0 ksize 0 0.008]);  view([0, 90]);% 改变可视角度     
    % ksize 递增  
%     ksize = ksize + 10;  
    % sigma 递增  
    sigma = sigma + dt;       

    % 自动保存为gif图像  
    frame = getframe(i);  
    im = frame2im(frame);  
    [I,map] = rgb2ind(im,256);  
    if i==1  
        imwrite(I,map,filename,'gif','Loopcount',inf, 'DelayTime',0.4);  
    else  
        imwrite(I,map,filename,'gif','WriteMode','append','DelayTime',0.4);  
    end  
end;  

close all;  


%% 截断高斯核函数，截断的程度取决于参数bias  
function ksigma = ksigma(ksize, sigma, center,bias)  
%ksize = 80;    sigma = 15;  
ksigma=fspecial('gaussian',ksize, sigma);   % 构建高斯函数  
[m, n] =size(ksigma);  
for i = 1:m  
    for j = 1:n  
        if(  (i<center-bias)||(i>center+bias)||(j<center-bias)||(j>center+bias)  )  
            ksigma(i,j) = 0;  
        end;  
    end;  
end;  
--------------------- 
作者：AI工匠 
来源：CSDN 
原文：https://blog.csdn.net/paulfeng20171114/article/details/80276061 
版权声明：本文为博主原创文章，转载请附上博文链接！

固定ksize为20，sigma从1-9，固定center在高斯中间，并且bias偏移量为整个半径，即原始高斯函数。

随着sigma的增大，整个高斯函数的尖峰逐渐减小，整体也变的更加平缓，则对图像的平滑效果越来越明显。

保持参数不变，对上述高斯函数进行截断，即truncated gaussian function，bias的大小为ksize*3/10，则结果如下图：

truncated gaussian function的作用主要是对超过一定区域的原始图像信息不再考虑，这就保证在更加合理的利用靠近高斯函数中心点的周围像素，同时还可以改变高斯函数的中心坐标，如下图(俯视图)：
truncated gaussian function 俯视图

（三）多元高斯函数

多元正态分布定义
多变量正态分布亦称为多变量高斯分布。它是单维正态分布向多维的推广。它同矩阵正态分布有紧密的联系。
一般形式：
N维随机向量 X =   $\begin{bmatrix}X_{1},......, & X_{n}\end{bmatrix}^{T}$ ,如果服从多变量正态分布，必须满足下面的三个等价条件：
1、任何线性组合 Y = $a_{1}X_{1}+......+a_{n}X_{n}$ 服从正态分布。
2、存在随机向量  Z = $\begin{bmatrix}Z_{1},......, & Z_{n}\end{bmatrix}^{T}$ ( 它的每个元素服从独立标准正态分布），向量 $\mu$ = $\begin{bmatrix}\mu _{1},......, & \mu _{n}\end{bmatrix}^{T}$ 及N×M矩阵 A 满足 $X = AZ + \mu$ .
3、存在 $\mu$ 和一个对称正定阵  Σ ，满足 X的特征函数

$\phi _{x}( u:\mu ,\sum ) = exp(i\mu ^{T}u-\frac{1}{2}\mu ^{T}\sum u)$ ，

如果 Σ 是非奇异的，那么该分布可以由以下的PDF来描述：

注意这里的|Σ|表示协方差矩阵的行列式。

多元高斯分布参数相关性分析（ $x_{i};\mu _{i};\sigma _{i}$ ）

标准方差对角线x1,x2同时缩小（高度增大，幅度x1,x2同时缩小）或增大（高度缩小，幅度x1,x2同时增大），如下图
多维高斯分布标准方差调整变化图1

标准方差对角线单元素 $x_{1}$ 缩小（高度单比例增大，幅度单方向 $x_{1}$ 缩小）或增大（高度单比例缩小，幅度单方向 $x_{1}$ 增大），如下图
多维高斯分布标准方差调整变化图2

标准方差对角线单元素 $x_{2}$ 缩小（高度单比例增大，幅度单方向 $x_{2}$ 缩小）或增大（高度单比例缩小，幅度单方向 $x_{2}$ 增大），如下图
多维高斯分布标准方差调整变化图3

协方差非对角线同时由0增加，见下图
多维高斯分布非对角线标准方差调整变化图4

协方差非对角线同时由0负增加，见下图
多维高斯分布非对角线标准方差负调整变化图5

均值调整，高斯分布图中心点变化，如下图
多维高斯分布均值调整变化图6

多元高斯概率模型

在一般的高斯分布模型中，我们计算p(x) 的方法是：通过分别计算每个特征对应的几率然后将其累乘起来，在多元高斯分布模型中，我们将构建特征的协方差矩阵，用所有的特征一起来计算p(x)。

我们首先计算所有特征的平均值，

然后再计算协方差矩阵：

注:其中μ是一个向量，其每一个单元都是原特征矩阵中一行数据的均值。最后我们计算多元高斯分布的p(x):

其中： $|\Sigma |$ 是正定矩阵，在 Octave 中用 det(sigma)计算

$\Sigma^{-1}$ 是逆矩阵。

多元高斯分布模型与原高斯分布模型的关系：

可以证明的是，原本的高斯分布模型是多元高斯分布模型的一个子集，如果协方差矩阵只在对角线的单位上有非零的值时，即为原本的高斯分布模型了。

原高斯分布模型和多元高斯分布模型的比较：

原高斯分布模型	多元高斯分布模型
不能捕捉特征之间的相关性但可以通过将特征进行组合的方法来解决	自动捕捉特征之间的相关性
计算代价低，能适应大规模的特征	计算代价较高训练集较小时也同样适用
	必须要有m>n ，不然的话协方差矩阵不可逆的，通常需要m>10n另外特征冗余也会导致协方差矩阵不可逆

使用多元高斯分布函数进行异常检测

多元高斯分布函数：

多元高斯分布函数有两个参数， $\mu$ 和 $\Sigma$ 。其中 $\mu$ 是一个n维向量。 $\Sigma$ 是n×n的协方差矩阵。

深度胡说

关注

1
点赞
踩
7

收藏

觉得还不错? 一键收藏
0
评论
（转载）高斯过程的数学基础-高斯分布

转载自：https://blog.csdn.net/paulfeng20171114/article/details/80276061透彻理解高斯过程Gaussian Process (GP)一、整体说说为了理解高斯过程，我们就首先需要了解如下预备知识，即：高斯分布（函数）、随机过程、以及贝叶斯概率等。明白了这些预备知识之后才能顺利进入高斯过程，了解高斯过程本质及其高斯过程描述方法。人...
复制链接

扫一扫