透彻理解高斯过程Gaussian Process (GP)

最新推荐文章于 2025-03-29 11:20:09 发布

AI工匠

最新推荐文章于 2025-03-29 11:20:09 发布

阅读量7.3w

点赞数 62

本文链接：https://blog.csdn.net/paulfeng20171114/article/details/80276061

版权

透彻理解高斯过程Gaussian Process (GP)

一、整体说说

为了理解高斯过程，我们就首先需要了解如下预备知识，即：高斯分布（函数）、随机过程、以及贝叶斯概率等。明白了这些预备知识之后才能顺利进入高斯过程，了解高斯过程本质及其高斯过程描述方法。人们又将高斯过程与贝叶斯概率有机结合在一起，构造了强大的数学方法（或称模型），为人类提供解决日常生活和工作的问题。特别是在人工智能领域更是意义非凡。为什么呢？

高斯过程模型属于无参数模型，相对解决的问题复杂度及与其它算法比较减少了算法计算量。
高斯模型可以解决高维空间（实际上是无限维）的数学问题，可以面对负杂的数学问题。
结合贝叶斯概率算法，可以实现通过先验概率，推导未知后验输入变量的后验概率。由果推因的概率。
高斯过程观测变量空间是连续域，时间或空间。
高斯过程观测变量空间是实数域的时候，我们就可以进行回归而实现预测。
高斯过程观测变量空间是整数域的时候（观测点是离散的），我们就可以进行分类。结合贝叶斯算法甚至可以实现单类分类学习（训练），面对小样本就可以实现半监督学习而后完成分类。面对异常检测领域很有用，降低打标签成本（小样本且单类即可训练模型）。
所以说，我们快点进入高斯过程-贝叶斯概率算法模型吧，功能非凡。
接下来慢慢展开学习之旅吧。

二、高斯分布（高斯函数）

https://blog.csdn.net/jorg_zhao/article/details/52687448
https://blog.csdn.net/zyttae/article/details/41086773

（一）一维高斯函数

$\color{blue}{ 一维高斯函数定义}$
若随机变量 $X$ 服从一个位置参数为 $\mu$ 、尺度参数为 $\sigma$ 的概率分布(正态分布)，记为：
$X \sim N (μ, σ 2) .$ $\color{blue}{ X\sim N(\mu ,\sigma ^2)}.$ 则其概率密度函数为 $f (x) = 1 σ 2 π - - \sqrt e - ( x - μ ) 2 2 σ 2$ $\color{blue}{f(x)=\frac {1}{\sigma \sqrt {2\pi}}e^{-\frac{(x-\mu)^2}{2\sigma ^2}}}$ 正态分布的数学期望值（或期望值） $\mu$ 等于位置参数，决定了分布曲线的位置；其方差 $\sigma^2$ 的开平方或标准差 $\sigma$ 等于尺度参数，决定了分布曲线的幅度。正态分布的概率密度函数曲线呈钟形，因此人们又经常称之为钟形曲线 $\color{blue}{ “bell\quad curve”}$ 。

我们通常所说的标准正态分布是位置参数 $\mu = 0$ ,尺度参数 $\sigma = 1$ 的正态分布（见下图中红色曲线）。
这里写图片描述

对于任意的实数 $a,b,c$ ，
$\color{red}{a=\frac {1}{\sigma \sqrt {2\pi} }是曲线尖峰的高度，b=\mu是尖峰中心的坐标，c=\sigma称为标准方差，表征的是bell钟状的宽度。钟形曲线下的总面积和永远为1}$ 。

为什么用概率密度函数表示高斯正态分布的函数：这种方法能够表示随机变量每个取值有多大的可能性。其它方法我们这里不在描述了，如：累积分布函数，cumulant、特征函数、动差生成函数以及cumulant-生成函数。
正态分布中一些值得注意的现象（量）：
1. 密度函数关于平均值 $\mu$ 对称。
2. 平均值与它的众数（statistical mode）以及中位数（median）同一数值。
3. 函数曲线下68.268949%的面积在平均数左右的一个标准差范围内。
4. 95.449974%的面积在平均数左右两个标准差2 \sigma的范围内。
5. 99.730020%的面积在平均数左右三个标准差3 \sigma的范围内。
6. 99.993666%的面积在平均数左右四个标准差4 \sigma的范围内。

这里写图片描述

其中：

μ=1m∑mi=1x(i)σ2=1m∑mi=1(x(i)−μ)2) μ = 1 m ∑ i = 1 m x ( i ) σ 2 = 1 m ∑ i = 1 m ( x ( i ) − μ ) 2 ) $\color{red}{\mu =\frac {1}{m}\sum_{i=1}^mx^{(i)}\qquad \sigma^2=\frac {1}{m}\sum_{i=1}^m(x^{(i)}-\mu )^2)}$

在机器学习中，用于故障检测时，训练数据集

X X $X$ 是已知，而且不需要有标签，可以作为非监督学习训练。
高斯分布样例如下图（引自吴恩达课件）：
一维高斯分布样例图（吴恩达）

注：机器学习中对于方差我们通常只除以 $m$ 而非统计学中的 $m-1$ (因为均值进去一个点)。这里顺便提一下，在实际使用中，到底是选择使用 $\frac{1}{m}$ 还是 $\frac{1}{m-1}$ 其实区别很小，只要你有一个还算大的训练集，在机器学习领域大部分人更习惯使用这个版本的公式。这两个版本的公式在理论特性和数学特性上稍有不同，但是在实际使用中，他们的区别甚小，几乎可以忽略不计。