高斯过程部分数学推导

最新推荐文章于 2024-04-22 18:23:31 发布

柳成荫~

最新推荐文章于 2024-04-22 18:23:31 发布

阅读量676

点赞数

分类专栏：机器学习深度学习文章标签：概率论线性代数机器学习高斯过程贝叶斯优化

本文链接：https://blog.csdn.net/qq_41335232/article/details/124654233

版权

机器学习同时被 2 个专栏收录

23 篇文章 2 订阅

订阅专栏

深度学习

22 篇文章 5 订阅

订阅专栏

博客介绍了高斯过程在机器学习中的应用，特别是如何利用已有的样本点和观测噪声来预测新数据点的观测值。通过建立多维高斯分布模型，结合核函数（kernel）计算协方差矩阵，可以得到新观测值的后验预测分布。文章详细阐述了计算预测均值和方差的步骤，并提供了推导过程，揭示了高斯过程在处理随机过程中的作用。

摘要由CSDN通过智能技术生成

已知

高斯过程：任意给定一批样本点 $\mathbf{X=[x_1,x_2,...,x_n]}$ 为其随机分配 $\mathbf{F = [f(x_1),f(x_2),...,f(x_n)]}$ ， $\bold F$ 服从多维高斯分布。

假设 $\mathbf{F}$ 的实际观测为 $\mathbf{Y=[y_1,y_2,...,y_n]}$ ，且观测噪声服从均值 $\bold 0$ ，方差 $\mathbf{\sigma^2}$ 的高斯分布。

问题

最终问题：给定一批新数据点 $\mathbf{X_*}$ ，预测新的观测 $\mathbf{Y_*}$

隐含问题：给出 $\mathbf{P(F_*|X_*,X,Y)}$ 后验预测分布

根据后验分布我们就能在该分布上随机采样从而得到新的观测值，这是一个随机过程

解决

在新数据点 $\bold X{_*}$ 上分配的值为 $\bold F_*=[f(x_{*1}),f(x_{*2}),...,f(x_{*m})]$ ，根据高斯过程的定义，有：
$\begin{bmatrix} \mathbf{F} \\ \mathbf{F_*} \end{bmatrix}|\begin{bmatrix} \mathbf{X} \\ \mathbf{X_*} \end{bmatrix} \sim N( \begin{bmatrix} \mathbf{u(X)} \\ \mathbf{u(X_*)} \end{bmatrix}, \begin{bmatrix} \mathbf{K} & \mathbf{K_*} \\ \mathbf{K_{*}^T} & \mathbf{K_{**}} \end{bmatrix} )$
其中

$\begin{aligned} &\mathbf{K = kernel(X,X)} \\ &\mathbf{K_{*} = kernel(X,X_{*})} \\ &\mathbf{K_{**} = kernel(X_{*},X_{*})} \\ \end{aligned}$

又
$\mathbf{y_n = f(x_n)+\epsilon ,\epsilon \sim N(0,\sigma ^2)}$

因此有
$\begin{bmatrix} \mathbf{Y} \\ \mathbf{F_*} \end{bmatrix}|\begin{bmatrix} \mathbf{X} \\ \mathbf{X_*} \end{bmatrix}\sim N( \begin{bmatrix} \mathbf{u(X)} \\ \mathbf{u(X_*)} \end{bmatrix}, \begin{bmatrix} \mathbf{K+\sigma^2I} & \mathbf{K_*} \\ \mathbf{K_{*}^T} & \mathbf{K_{**}} \end{bmatrix} )$
根据多维高斯分布的性质： $F_*|Y,X,X_*$ 服从高斯分布 $N(u_*,\Sigma_*)$ . 求 $u_*$ 和 $\Sigma_{*}$ 的方法如下.

我们先介绍一个普遍的结论，下面的推导引自白板推导笔记

记 $x=(x_1, x_2,\cdots,x_p)^T=(x_{a,m\times 1}, x_{b,n\times1})^T,\mu=(\mu_{a,m\times1}, \mu_{b,n\times1}),\Sigma=\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}$ ，已知 $x\sim\mathcal{N}(\mu,\Sigma)$ 。

求 $p(x_b|x_a)$
$x_{b\cdot a}=x_b-\Sigma_{ba}\Sigma_{aa}^{-1}x_a\\ \mu_{b\cdot a}=\mu_b-\Sigma_{ba}\Sigma_{aa}^{-1}\mu_a\\ \Sigma_{bb\cdot a}=\Sigma_{bb}-\Sigma_{ba}\Sigma_{aa}^{-1}\Sigma_{ab}$
于是有
$x_{b\cdot a}=\begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}x_a\\x_b\end{pmatrix}$

从而
$\begin{aligned} \mathbb{E}[x_{b\cdot a}] & = \begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\mu_a\\\mu_b\end{pmatrix} = \mu_{b\cdot a}\\ Var[x_{b\cdot a}] & = \begin{pmatrix}-\Sigma_{ba}\Sigma_{aa}^{-1}&\mathbb{I}_{n\times n}\end{pmatrix}\begin{pmatrix}\Sigma_{aa}&\Sigma_{ab}\\\Sigma_{ba}&\Sigma_{bb}\end{pmatrix}\begin{pmatrix}-\Sigma_{aa}^{-1}\Sigma_{ba}^T\\\mathbb{I}_{n\times n}\end{pmatrix} = \Sigma_{bb\cdot a} \end{aligned}$
可得
$\begin{aligned} &x_b|x_a =x_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a \\\\ &\mathbb{E}[x_b|x_a]=\mu_{b\cdot a}+\Sigma_{ba}\Sigma_{aa}^{-1}x_a \\\\ &Var[x_b|x_a]=\Sigma_{bb\cdot a}\\ \end{aligned}$
其中， $x_{b.a}$ 与 $x_a$ 的独立性证明过程如图，该图来自B站大佬shuhuai008的白板推导视频勘误

根据上面得到的结论，我们把以下映射带入公式：
$\begin{aligned} x_a & = \mathbf{Y} \\ x_b & = \mathbf{F_*} \\ u_a & = 0 \\ u_b & = 0 \\ \Sigma_{aa} & = \mathbf{K} \\ \Sigma_{ab} & = \mathbf{K_*} \\ \Sigma_{ba} & = \mathbf{K_*^T} \\ \Sigma_{bb} & = \mathbf{K_{**}} \\ \end{aligned}$
代入的计算略，读者可自己完成。最终可得
$\begin{aligned} \boldsymbol{\mu}_{*} &=\mathbf{K}_{*}^{T} \mathbf{K}^{-1} \mathbf{Y} \\ \mathbf{\Sigma}_{*} &=\mathbf{K}_{* *}-\mathbf{K}_{*}^{T} \mathbf{K}^{-1} \mathbf{K}_{*} \end{aligned}$
所以
$\mathbf{P(F_*|X_*,X,Y) = N(F_*|u_*,\Sigma_*)}$