高斯过程回归【详细数学推导】

格兰芬多_未名

已于 2024-11-06 20:42:11 修改

阅读量8k

点赞数 22

分类专栏：机器学习文章标签：回归数据挖掘人工智能高斯过程回归

于 2024-04-22 18:23:31 首次发布

本文链接：https://blog.csdn.net/v20000727/article/details/138086802

版权

机器学习笔记

第一章机器学习简介
 第二章感知机
 第三章支持向量机
 第四章朴素贝叶斯分类器
 第五章 Logistic回归
 第六章线性回归和岭回归
 第七章多层感知机与反向传播【Python实例】
第八章主成分分析【PCA降维】
第九章隐马尔可夫模型
 第十章奇异值分解
 第十一章熵、交叉熵、KL散度
 第十二章什么是范数【向量范数、矩阵范数】
第十三章极大似然估计、最大后验估计、贝叶斯估计
第十四章高斯过程回归模型

高斯过程回归（Gaussian Process Regression，简称GPR）是一种非参数的回归方法，它基于高斯过程（Gaussian Process）理论。在机器学习中，高斯过程是一种强大的工具，用于建模连续型的函数关系，特别适用于小样本的情况。在进行预测时，高斯过程回归会计算给定输入下目标函数的后验分布，这个后验分布也是一个高斯分布，它的均值给出了预测值，方差则表示了预测的不确定性。由于高斯过程回归是基于贝叶斯推断的，因此它能够提供预测结果的不确定性估计，这对于许多应用场景非常有用，尤其是在决策制定中需要考虑风险的情况下。

高斯过程回归的优点包括：

能够灵活地处理非线性关系，适用于各种类型的函数逼近。
能够提供预测的不确定性，有利于进行决策制定。
不需要事先指定复杂的模型结构，减轻了参数调节的负担。

一、一元高斯分布

若随机变量 $x$ 服从一个位置参数为 $\mu$ 、尺度参数为 $\sigma$ 的概率分布, 且其概率密度函数为 :
$f(x)=\frac{1}{\sqrt{2 \pi} \sigma} \exp \left(-\frac{(x-\mu)^2}{2 \sigma^2}\right)$
则这个随机变量就称为正态随机变量, 正态随机变量服从的分布就称为正态分布(也称为高斯分布), 记作 $\sim N\left(\mu, \sigma^2\right)$ 。当 $\mu=0, \sigma=1$ 时, 正态分布就成为标准正态分布:
$f(x)=\frac{1}{\sqrt{2 \pi}} \exp\left(-\frac{x^2}{2}\right)$

一元高斯分布有很多很好的性质，比如两个高斯分布的线性组合仍然是高斯分布，而多个一元高斯分布的联合分布则可以导出多元高斯分布。

二、多元高斯分布

若一个多维随机向量具有同一元高斯分布类似的概率规律时, 称此随机向量遵从多元高斯(multivariate Gaussian)分布。多元高斯分布可以从一元高斯分布导出，对于 $D$ 维的随机变量量 $\mathbf{x}=\left(x_1, \ldots, x_D\right)^T$ , 多元高斯分布形式为:
$N(\mathbf{x} \mid \mu, \boldsymbol{\Sigma})=\frac{1}{(2 \pi)^{D / 2}} \frac{1}{|\mathbf{\Sigma}|^{1 / 2}} \exp \left\{-\frac{1}{2}(\mathbf{x}-\mu)^T \mathbf{\Sigma}^{-1}(\mathbf{x}-\mu)\right\}$
式中的 $\mu$ 是 $D$ 维的均值向量, $\Sigma$ 是 $\times D$ 的协方差矩阵 (covariance matrix), $|\Sigma|$ 是 $\Sigma$ 的行列式。多元正态分布也有很好的性质, 例如, 多元正态分布的边缘分布仍为正态分布，它经任何线性变换得到的随机向量仍为多维正态分布，它的线性组合为一元正态分布。在后面高斯过程回归的推导中会用到多元高斯分布的条件概率分布，所以这里我们给出多元高斯分布条件概率分布的定理：

定理（多元高斯分布条件概率分布）

设 $\boldsymbol{y} \sim \mathcal{N}(\boldsymbol{\mu}, \Sigma)$ , 将 $\boldsymbol{y}, \boldsymbol{\mu}$ 和 $\Sigma$ 分割成如下形式：
$\begin{aligned} & \boldsymbol{y}=\left[\begin{array}{l} \boldsymbol{y}_1 \\ \boldsymbol{y}_2 \end{array}\right]\begin{array}{l} n_1 \\ n_2 \end{array} \quad \quad \boldsymbol{\mu}=\left[\begin{array}{l} \boldsymbol{\mu}_1 \\ \boldsymbol{\mu}_2 \end{array}\right]\begin{array}{l} n_1 \\ n_2 \end{array} \\ & \Sigma=\left[\begin{array}{cc} \Sigma_{11} & \Sigma_{12} \\ \Sigma_{21} & \Sigma_{22} \end{array}\right] \begin{array}{l} n_1 \\ n_2 \end{array} \end{aligned}$
其中 $\boldsymbol{y}, \boldsymbol{\mu} \in \mathbb{R}^n$ 且 $\Sigma \in \mathbb{R}^{n \times n}$ 。那么我们可以知道 $\boldsymbol{y}_1 \sim \mathcal{N}\left(\boldsymbol{\mu}_1, \Sigma_{11}\right)$ ，进一步可以推出条件概率分布：
$\boldsymbol{y}_2 \mid \boldsymbol{y}_1 \sim \mathcal{N}\left(\boldsymbol{\mu}_2+\Sigma_{21} \Sigma_{11}^{-1}\left(\boldsymbol{y}_1-\boldsymbol{\mu}_1\right), \Sigma_{22}-\Sigma_{21} \Sigma_{11}^{-1} \Sigma_{12}\right)$