机器学习笔记之高斯过程(三)高斯过程回归——函数空间角度

静静的喝酒

已于 2022-12-01 13:11:49 修改

阅读量780

点赞数 1

分类专栏：机器学习文章标签：函数空间角度高斯过程回归核函数

于 2022-11-30 16:09:32 首次发布

本文链接：https://blog.csdn.net/qq_34758157/article/details/128098749

版权

机器学习专栏收录该内容

195 篇文章 231 订阅

订阅专栏

机器学习笔记之高斯过程——高斯过程回归[函数空间角度]

引言

引言

上一节介绍了从权重空间角度认识高斯过程回归。本节将介绍从函数空间角度认识高斯过程回归。

回顾：高维转换处理非线性回归任务过程

从权重空间(Weight-Space)视角观察高斯过程回归和高斯过程(Gaussian Process)本身没有直接联系。其本质上是 针对非线性回归任务，使用贝叶斯线性回归与核技巧(Kernal Trick)相结合的方式进行求解：

针对非线性回归任务，使用非线性转换(Non-Linear Transformation) $\phi(\cdot)$ 将原始特征空间 $\mathcal X \in \mathbb R^p$ 映射到高维空间：
$\begin{aligned} \mathcal X \in \mathbb R^p \to \phi(\mathcal X) \in \mathbb R^q \quad q \gg p \end{aligned}$
由于样本特征空间的变化，因而影响随机变量 $\mathcal W$ 的后验概率分布 $\mathcal P(\mathcal W \mid Data)$ ：
$\mathcal P(\mathcal W \mid Data) \sim \mathcal N(\mu_{\mathcal W},\Sigma_{\mathcal W}) \to \begin{cases} \mu_{\mathcal W} = \frac{\mathcal A^{-1}[\phi(\mathcal X)]^T\mathcal Y}{\sigma^2} \\ \Sigma_{\mathcal W} = \mathcal A^{-1} \\ \mathcal A = \frac{[\phi(\mathcal X)]^T\phi(\mathcal X)}{\sigma^2} + [\Sigma_{prior}^{-1}]_{q \times q} \end{cases}$
从而对经过非线性转换后的给定(未知)样本 $\phi(\hat x)$ 的标签 $f[\phi(\hat x)]$ 进行预测(Prediction)：
- 推导过程复杂的部分是 $\mathcal A^{-1}$ 的求解，关于 $\mathcal A^{-1}$ 的求解过程详见上一节.
- 这里预测的是'不含高斯噪声'的 $f[\phi(\hat x)]$ 而不是 $\hat y$ ,如果要预测 $\hat y$ 需要在协方差中加上 $\sigma^2$ .
  $\begin{aligned} \mathcal P[f[\phi(\hat x)] \mid Data,\phi(\hat x)] & \sim \mathcal N([\phi(\hat x)]^T \mu_{\mathcal W},[\phi(\hat x)]^T \Sigma_{\mathcal W} \cdot \phi(\hat x)) \\ & = \mathcal N \left\{[\phi(\hat x)]^T \left(\frac{\mathcal A^{-1} [\phi(\mathcal X)]^T\mathcal Y}{\sigma^2}\right),[\phi(\hat x)]^T\mathcal A^{-1} \cdot \phi(\hat x)\right\} \end{aligned}$
最终展开结果表示如下：
其中 $[\Sigma_{prior}]_{q \times q}$ 表示先验分布的协方差矩阵； $\mathcal I_{q \times q}$ 表示单位矩阵。 $\mathcal K(\mathcal X,\mathcal X)_{q \times q}$ 表示 $[\phi(\mathcal X)]^T\Sigma_{prior}\phi(\mathcal X)$ .
$\mathcal P[f(\hat x) \mid Data,\hat x] \sim \mathcal N(\mu_{\hat x}.\Sigma_{\hat x}) \\ \begin{cases} \mu_{\hat x} = [\phi(\hat x)]^T \Sigma_{prior} [\phi(\mathcal X)]^T [\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I]^{-1} \\ \Sigma_{\hat x} = [\phi(\hat x)]^T \cdot \left\{\Sigma_{prior} - \Sigma_{prior} [\phi(\mathcal X)]^T \left[\mathcal K(\mathcal X,\mathcal X) + \sigma^2 \mathcal I\right]^{-1} \phi(\mathcal X) \Sigma_{prior}\right\} \cdot \phi(\hat x) \end{cases}$
针对公式中出现的复杂的内积问题，使用核技巧(Kernal Trick)进行处理。假设存在关于变量 $x, x^{'}$ 的核函数 $\mathcal K(x,x')$ 表示如下：
这里 $[\Sigma_{prior}]_{q \times q}$ 至少是半正定矩阵。
$\begin{aligned} \mathcal K(x,x') & = [\phi(x)]^T \Sigma_{prior} \phi(x') \\ & = \left[\sqrt{\Sigma_{prior}} \text{ } \phi(x)\right]^T[\sqrt{\Sigma_{prior}} \text{ } \phi(x')] \\ & = \left\langle\sqrt{\Sigma_{prior}} \text{ } \phi(x) ,\sqrt{\Sigma_{prior}} \text{ } \phi(x')\right\rangle \end{aligned}$
与核函数的处理方式相同，直接规避了非线性函数 $\phi(\cdot)$ 的高维复杂运算。直接对其内积进行求解。

回顾：高斯过程

高斯过程(Gaussian Process)本质上式一组高维随机变量组成的集合：
$\{\xi_{t}\}_{t \in \mathcal T} = \{\cdots,\xi_{t_1},\xi_{t_2},\cdots,\xi_{t_n},\cdots\} \quad (t_1,t_2\cdots,t_n \in \mathcal T)$
其中 $\mathcal T$ 表示连续域，它可能是时间/空间中的连续域。对于高斯过程的定义可描述为：对于任意 $\{t_1,t_2,\cdots,t_n\} \in \mathcal T$ 对应随机过程 $\{\xi_t\}_{t \in \mathcal T}$ 的子集： $\xi_{t_1 \to t_n} = \{\xi_{t_1},\xi_{t_2},\cdots,\xi_{t_n}\}$ 服从某一高斯分布 $\mathcal N(\mu_{t_1 \to t_n},\Sigma_{t_1 \to t_n})$ ,那么称 $\{\xi_{t}\}_{t \in \mathcal T}$ 是高斯过程：
由于 $\in \mathcal T$ 是稠密的(可以理解为‘时间间隔无限趋近于0，依然存在随机变量’)，从而可以看作是连续域 $\mathcal T$ 内的‘无限维’高斯分布。
$\{\xi_t\}_{t \in \mathcal T} \sim \mathcal G\mathcal P[m(t),\mathcal K(t,s)] \quad (s,t \in \mathcal T)$
需要注意的是，均值函数(Mean-Function) $m (t)$ 和 方差函数(Covariance Function) $\mathcal K(s,t)$ 它们均是基于函数形式的表达，这说明：不同时刻/状态下的均值/协方差结果不是固定值，而是表示为关于 $s, t$ 的函数。
$\mathcal X \in \mathbb R^p \to \mathcal X \sim \mathcal N(\mu_p,\Sigma_{p \times p})$

相反，如高斯网络(Gaussian Network)，一旦随机变量集合 $\mathcal X$ 确定了，那么对应的概率图模型就是静态模型，对应的期望结果 $\mu_p$ 和协方差矩阵 $\Sigma_{p \times p}$ 就是恒定不变的，从概率图的角度观察各随机变量结点之间的关联关系也是确定的。

权重空间视角——模型参数 $\mathcal W$ 的变化

基于线性回归模型(无高斯噪声) $f(\mathcal X) = \mathcal X^T\mathcal W$ ，对特征空间 $\mathcal X \in \mathbb R^p$ 进行非线性高维转换： $\mathcal X \to \phi(\mathcal X) \in \mathbb R^q$ ；
给定模型参数 $\mathcal W$ 一个先验分布：
由于 $\mathcal X$ 已经执行了‘非线性转换’，因此此时的 $\mathcal W$ 是 $q$ 维随机变量，对应的协方差矩阵 $\Sigma_{prior}$ 同样需要时 $\times q$ 的格式。
$\mathcal W \sim \mathcal N(0,[\Sigma_{prior}]_{q \times q})$
因此，线性模型 $f(\mathcal X)$ 的期望 $\mathbb E[f(\mathcal X)]$ 可表示如下：
这里关注的是 $\mathcal W$ 的变化，因此这里将 $\phi(\mathcal X)$ 看作常数。
$\mathbb E[f(\mathcal X)] = \mathbb E\left\{[\phi(\mathcal X)]^T \mathcal W\right\} = [\phi(\mathcal X)]^T \mathbb E[\mathcal W] = [\phi(\mathcal X)]^T \cdot 0 = 0$
对于任意 $x^{(i)},x^{(j)} \in \mathbb R^p$ ，对应函数结果的协方差 $\left[f(x^{(i)}),f(x^{(j)})\right]$ 表示如下：
$\begin{aligned} Cov \left[f(x^{(i)}),f(x^{(j)})\right] & = \mathbb E \left\{\left[f(x^{(i)}) -\mathbb E[f(x^{(i)})] \right] \cdot \left[f(x^{(j)}) -\mathbb E[f(x^{(j)})] \right] \right\} \\ & = \mathbb E \left\{\left[f(x^{(i)}) -0 \right] \cdot \left[f(x^{(j)}) -0 \right] \right\} \\ & = \mathbb E \left[f(x^{(i)}) \cdot f(x^{(j)})\right] \\ & = \mathbb E \left[\phi(x^{(i)})^T\mathcal W \cdot \phi(x^{(j)})^T\mathcal W\right] \end{aligned}$
由于 $\phi(x^{(j)})^T \mathcal W$ 结果是一个实数，因而 $\left[\phi(x^{(j)})^T \mathcal W\right]^T = \mathcal W^T\phi(x^{(j)})$ 等于 $\phi(x^{(j)})^T \mathcal W$ 自身。因而有：
$\Delta$ 表示上述推导结果。
$\begin{aligned} \Delta & = \mathbb E \left[\phi(x^{(i)})^T\mathcal W \cdot \mathcal W^T \phi(x^{(j)})\right] \\ & = [\phi(x^{(i)})]^T \cdot \mathbb E[\mathcal W \cdot \mathcal W^T] \cdot \phi(x^{(j)}) \end{aligned}$
观察 $\mathbb E[\mathcal W \cdot \mathcal W^T]$ ，它实际上就是：
$\begin{aligned} \mathbb E[\mathcal W \cdot \mathcal W^T] & = \mathbb E \left[(\mathcal W - 0) \cdot (\mathcal W^T - 0)\right] \\ & = \mathbb E\left\{[\mathcal W - \mathbb E[\mathcal W]] \cdot [\mathcal W - \mathbb E[\mathcal W]]^T\right\} \\ & = Cov(\mathcal W,\mathcal W) \\ & = \Sigma_{prior} \end{aligned}$
至此，关于 $f(x^{(i)})$ 和 $f(x^{(j)})$ 的协方差结果 $\left[f(x^{(i)}),f(x^{(j)})\right]$ 表示如下：
$\begin{aligned} Cov\left[f(x^{(i)}),f(x^{(j)})\right] & = [\phi(x^{(i)})]_{1 \times q}^T \cdot [\Sigma_{prior}]_{q \times q} \cdot [\phi(x^{(j)})]_{q \times 1} \\ & = \mathcal K(x^{(i)},x^{(j)}) \end{aligned}$

小插曲：记号函数 $\mathcal K$ 是核函数的必要性证明

继续将 $Cov\left[f(x^{(i)}),f(x^{(j)})\right]$ 展开，有：
在权重空间角度文章的末尾介绍的是‘记号函数’ $\mathcal K(\cdot,\cdot)$ 的充分性证明。这里顺势补充一下必要性证明。
$\begin{aligned} Cov\left[f(x^{(i)}),f(x^{(j)})\right] & = (x_1^{(i)},x_2^{(i)},\cdots,x_q^{(i)})\begin{pmatrix} \Sigma_{prior}^{11},\Sigma_{prior}^{12},\cdots,\Sigma_{prior}^{1q} \\ \Sigma_{prior}^{21},\Sigma_{prior}^{22},\cdots,\Sigma_{prior}^{2q} \\ \vdots \\ \Sigma_{prior}^{q1},\Sigma_{prior}^{q2},\cdots,\Sigma_{prior}^{qq} \\ \end{pmatrix}\begin{pmatrix} x_1^{(j)} \\ x_2^{(j)} \\ \vdots \\ x_q^{(j)} \end{pmatrix} \quad \Sigma_{prior}^{ij} = Cov(w_i,w_j);w_i,w_j \in \mathcal W \\ & = \left[\sum_{k=1}^qx_k^{(i)}\Sigma_{prior}^{k1},\cdots,\sum_{k=1}^qx_k^{(i)}\Sigma_{prior}^{kq}\right]\begin{pmatrix} x_1^{(j)} \\ x_2^{(j)} \\ \vdots \\ x_q^{(j)} \end{pmatrix} \\ & = \sum_{l=1}^q\sum_{k=1}^q x_k^{(i)} \cdot \Sigma_{prior}^{kl} \cdot x_l^{(j)} \end{aligned}$
其中， $x_k^{(i)},\Sigma_{prior}^{kl},x_l^{(j)}$ 均表示实数，因而有：
$\begin{aligned} & \sum_{l=1}^q\sum_{k=1}^q x_k^{(i)} \cdot \Sigma_{prior}^{kl} \cdot x_l^{(j)} = \sum_{l=1}^q\sum_{k=1}^q x_l^{(j)} \cdot \Sigma_{prior}^{kl} \cdot x_k^{(i)} \\ & \Rightarrow Cov \left[f(x^{(i)}),f(x^{(j)})\right] = Cov \left[f(x^{(j)}),f(x^{(i)})\right] \\ & \Rightarrow \mathcal K(x^{(i)},x^{(j)}) = \mathcal K(x^{(j)},x^{(i)}) \end{aligned}$
这意味着核矩阵 $\mathbb K$ 是实对称矩阵，那么它必然是半正定的：
$\mathbb K = \begin{bmatrix} \mathcal K(x^{(1)},x^{(1)}),\mathcal K(x^{(1)},x^{(2)}),\cdots,\mathcal K(x^{(1)},x^{(N)}) \\ \mathcal K(x^{(2)},x^{(1)}),\mathcal K(x^{(2)},x^{(2)}),\cdots,\mathcal K(x^{(2)},x^{(N)}) \\ \vdots \\ \mathcal K(x^{(N)},x^{(1)}),\mathcal K(x^{(N)},x^{(2)}),\cdots,\mathcal K(x^{(N)},x^{(N)}) \\ \end{bmatrix}_{N \times N}$
至此，证明记号 $\mathcal K$ 函数是正定核函数。
正定核函数必要性证明参考传送门

言归正传

根据 $Cov\left[f(x^{(i)}),f(x^{(j)})\right] = \mathcal K(x^{(i)},x^{(j)})$ ，这意味着：如果将 $\{f(\mathcal X)\}_{x \in \mathbb R^p} = \{f(x_1),f(x_2),\cdots,f(x_p)\}$ 本身看做一个随机变量集合，那么这个随机变量本身的协方差结果可以由核函数表示。

回顾高斯过程的定义式： $\{\xi_t\}_{t \in \mathcal T} \sim \mathcal G\mathcal P[m(t),\mathcal K(t,s)] \quad (s,t \in \mathcal T)$ ，其中 $s, t$ 本身不是随机变量，它们仅是描述连续域中状态/时刻的下标(index)，和随机变量 $\xi$ 之间不存在关系。因而可以将高斯过程定义式表示为如下形式：
$\begin{cases} \{f(\mathcal X)\}_{\mathcal X \in \mathbb R^p} \sim \mathcal G\mathcal P[m(\mathcal X),\mathcal K(x^{(i)},x^{(j)})] \quad x^{(i)},x^{(j)} \in \mathcal X \\ \{\xi_t\}_{t \in \mathcal T} \sim \mathcal G\mathcal P[m(t),\mathcal K(t,s)] \quad (s,t \in \mathcal T) \end{cases}$

小结

对比一下两种高斯过程的表达：

$t$ 和 $\xi_t$ 之间不存在关联关系，只是一个下标的表示；而 $\mathcal X$ 和 $f(\mathcal X)$ 之间存在明确的函数关系；
$\xi_t$ 表示连续域 $\mathcal T$ 中 $t$ 时刻的一个高维随机变量；而 $f(\mathcal X)$ 表示 $p$ 维实数域 $\mathbb R^p$ 中某随机变量 $\mathcal X$ 对应的高维随机变量；
均值函数、方差函数：这里以方差函数为例，它们均表示连续域中随机变量集合的核矩阵：
$\begin{aligned} \mathcal K(s,t) & \Rightarrow \begin{bmatrix} \mathcal K(\xi_{t_1},\xi_{t_1}),\mathcal K(\xi_{t_1},\xi_{t_2}),\cdots,\mathcal K(\xi_{t_1},\xi_{t_n}) \\ \mathcal K(\xi_{t_2},\xi_{t_1}),\mathcal K(\xi_{t_2},\xi_{t_2}),\cdots,\mathcal K(\xi_{t_2},\xi_{t_n}) \\ \vdots \\ \mathcal K(\xi_{t_n},\xi_{t_1}),\mathcal K(\xi_{t_n},\xi_{t_2}),\cdots,\mathcal K(\xi_{t_n},\xi_{t_n}) \\ \end{bmatrix}_{n \times n} \quad s,t \in \{t_1,t_2,\cdots,t_n\} \\ \mathcal K(x^{(i)},x^{(j)}) & \Rightarrow \begin{bmatrix} \mathcal K(x^{(1)},x^{(1)}),\mathcal K(x^{(1)},x^{(2)}),\cdots,\mathcal K(x^{(1)},x^{(N)}) \\ \mathcal K(x^{(2)},x^{(1)}),\mathcal K(x^{(2)},x^{(2)}),\cdots,\mathcal K(x^{(2)},x^{(N)}) \\ \vdots \\ \mathcal K(x^{(N)},x^{(1)}),\mathcal K(x^{(N)},x^{(2)}),\cdots,\mathcal K(x^{(N)},x^{(N)}) \\ \end{bmatrix}_{N \times N} \quad x^{(i)},x^{(j)} \in \mathcal X \end{aligned}$

关于给定样本 $\hat x$ 的预测任务中：

权重空间角度关注模型参数 $\mathcal W$ ，对预测任务的表达式如下：
$\mathcal P(\hat y \mid \hat x,Data) = \int_{\mathcal W \mid Data} \mathcal P(\hat y \mid \mathcal W,\hat x) \cdot \mathcal P(\mathcal W \mid Data) d\mathcal W$
函数空间角度关注 $f(\mathcal X)$ 自身，将 $f(\mathcal X) = [\phi(\mathcal X)]^T \mathcal W$ 自身看作随机变量，对预测任务的表达式如下：
$\mathcal P(\hat y \mid Data,\hat x) = \int_{f(\mathcal X)} \mathcal P(\hat y \mid f(\mathcal X),\hat x) \cdot \mathcal P[f(\mathcal X) \mid Data]\text{ }df(\mathcal X)$

函数空间角度与权重空间角度的核心差别在于 $\mathcal K(x^{(i)},x^{(j)})$ 的表示上。

权重空间角度需要将 $x^{(i)},x^{(j)} \to \phi(x^{(i)}),\phi(x^{(j)})$ ，然后通过高维转换后的样本维度重新对 $\mathcal W$ 的先验分布 $\mathcal P(\mathcal W)$ 进行设定 $\to \mathcal N(0,\Sigma_{prior})$ 。再凑成 $\mathcal K(x^{(i)},x^{(j)}) = \phi(x^{(i)})\Sigma_{prior}\phi(x^{(j)})$ 的格式，去求解 $\mathcal W$ 的后验概率分布 $\mathcal P(\mathcal W \mid Data)$ ;
函数空间角度直接用 $Cov[f(x^{(i)}),f(x^{(j)})]$ 表示 $\mathcal K(x^{(i)},x^{(j)})$ ，从而并不需要单独求解 $\mathcal W$ ，而是直接求解 $f(x^{(i)}) = [\phi(x^{(i)})]^T\mathcal W,f(x^{(j)}) = [\phi(x^{(j)})]^T\mathcal W$ 即可。在预测任务中，直接通过 $[\phi(x)]^T\mathcal W$ 替代 $\mathcal W$ 执行预测任务。