机器学习——高斯过程

最新推荐文章于 2024-07-05 21:31:38 发布

ML_CS

最新推荐文章于 2024-07-05 21:31:38 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习文章标签：高斯过程

本文链接：https://blog.csdn.net/qq_27436347/article/details/89489219

版权

机器学习专栏收录该内容

13 篇文章 0 订阅

订阅专栏

高斯过程

所谓高斯，即高斯分布
所谓过程，即随机过程

高斯分布

一维高斯

$p(x)=N(\mu, \sigma^2)$

高维高斯

多元高斯分布——高斯网络 $x\in \mathbb{R}^p$
$p(x)=N(\mu,\Sigma),\Sigma_{p\times p},p<\inf$

无限维高斯分布

即高斯过程，定义在连续域（时间或者空间）上的无限多个高斯随机变量所组成的随机过程
假设有一个连续域 $T$ ，对于任意正整数 $n$ ，有 $t_1,...,t_n \in T$ ，且满足条件
$\left[ \begin{array}{c}{\xi_{t_{1}}} \\ {\vdots} \\ {\xi_{t_{n}}}\end{array}\right] \sim N(\mu_{t_1-t_n},\Sigma_{t_1-t_n})$ 则 $\{\xi_t\}_{t\in T}$ 就是一个高斯过程。
在这里插入图片描述
则一个高斯过程可以表示为
$G P (m (t), k (s, t))$ 其中 $m(t)=E[\xi_t]$ 为均值函数， $k(s,t)=E[\xi_s-E[\xi_s]][\xi_t-E[\xi_t]]$ 为协方差函数

高斯过程回归

贝叶斯线性回归（权重空间视角）

线性回归
使用核函数就可以用于非线性
贝叶斯线性回归加上核方法（非线性转换内积）也就是高斯过程回归 $\left\{\begin{array}{l}{f(x)=\phi^T (x)w} \\ {y=f(x)+\varepsilon}\end{array}\right.$ 这是从权重空间的角度来看

函数空间视角

$\sim GP(m(x),k(x,x'))$

f(x) 是函数
f(x)是高斯分布
与之前的定义对应关系就是
$\rightarrow \xi_t,\{\xi_t\}_{t\in T}\sim GP$ $\rightarrow f(x),\{f(x)\}_{x\in \mathbb{R}^p}\sim GP$

回归问题：
Data： $\{(x_i,y_i)\}_{i=1}^N,y=f(x)+\epsilon$
定义 $X_{N\times p}=(x_1,...,x_N)^T,Y_{N\times 1}=(y_1,...,y_N)^T$
$f(X)\sim N(\mu(X),K(X,X))$
$Y=f(X)+\epsilon \sim N(\mu(X),K(X,X)+\sigma^2I)$
需要预测的数据为 $X^*$ ，则 $Y^*=f(X^*)+\epsilon$

已知 $\sim N(\mu,\Sigma)$
其中 $\left( \begin{array}{l} {x_a}\\ {x_b} \end{array} \right),\mu = \left( \begin{array}{l} {\mu _a}\\ {\mu _b} \end{array} \right),\Sigma= \left( \begin{array}{ll}{\Sigma_{aa}} & {\Sigma_{ab}} \\ {\Sigma_{ba}} & {\Sigma_{bb}}\end{array}\right)$ 则 $x_b|x_a \sim N(\mu_{b|a},\Sigma_{b|a})$ 其中
$\mu_{b|a}=\Sigma_{ba}\Sigma_{aa}^{-1}(x_a-\mu_a)+\mu_b,\Sigma_{b|a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}$

令 $x_a=Y,x_b=f(X^*)$ ，所要求的的条件概率为 $p(f(X^*|Y,X,X^*))$ 即 $p(x_b|x_a)$ ，带入公式可得 ${\mu ^*} = K\left( {{X^*},X} \right){\left( {K\left( {X,X} \right) + {\sigma ^2}I} \right)^{ - 1}}\left( {Y - \mu \left( X \right)} \right) + \mu \left( {{X^*}} \right) \\ \Sigma^*=K(X^*,X^*)-K(X^*,X) {\left( {K\left( {X,X} \right) + {\sigma ^2}I} \right)^{ - 1}}K(X,X^*)$ 因此 $p(f(X^*|Y,X,X^*))=N(\mu^*,\Sigma^*)$ $p(Y^*|Y,X,X^*)=N(\mu^*,\Sigma^*+\sigma^2I)$