分别从权重空间角度和函数空间角度看高斯过程回归

tianmingemmm

已于 2022-10-11 20:12:36 修改

阅读量559

点赞数

文章标签：回归机器学习算法

于 2022-10-10 15:31:29 首次发布

本文链接：https://blog.csdn.net/qq_39645262/article/details/127245244

版权

高斯过程回归

高斯过程回归——权重空间角度

线性回归的高斯过程(贝叶斯线性回归)

假设有 $n$ 个观察值组成的训练数据 $\mathcal{D}=\{\mathbf{x}_i, y_i\}_{i=1}^{n}$ ，其中 $\mathbf{x}_i$ 是第 $i$ 个维度为 $d$ 的输入， $y_i$ 是其对应的输出。我们假设输入和输出之间的潜在关系是带有高斯噪声的标准线性回归模型
$f(\mathbf{x})=\mathbf{x}^{T} \mathbf{w}, \quad \mathbf{y}=f(\mathbf{x})+e \tag {1.1}$
其中， $\mathbf{w}$ 是线性模型的权重向量， $f$ 是函数， $y$ 是观察到的输出。 $e$ 是服从独立、同分布的均值为零，方差为 $\sigma_n^2$ 的高斯附加噪声。根据以上假设，给定输入和权重向量后，输出的似然(likelihood)为
$\begin{aligned} p(\mathbf{y} \mid \mathbf{X}, \mathbf{w}) &=\prod_{i=1}^{n} p(y_i \mid \mathbf{x}_i, \mathbf{w}) \\ &=\prod_{i=1}^{n} \frac{1}{\sqrt{2 \pi \sigma_{n}^{2}}} \exp \left(-\frac{\left(y_i-\mathbf{x}_i^{T} \mathbf{w}\right)^{2}}{2 \sigma_{n}^{2}}\right) \\ &=\frac{1}{\left(2 \pi \sigma_{n}^{2}\right)^{n / 2}} \exp \left(-\frac{\sum_{i=1}^{n}\left(y_i-\mathbf{x}_i^{T} \mathbf{w}\right)^{2}}{2 \sigma_{n}^{2}}\right) \\ &=\frac{1}{\left(2 \pi \sigma_{n}^{2}\right)^{n / 2}} \exp \left(-\frac{\left\|\mathbf{y}-\mathbf{X} \mathbf{w}\right\|^{2}}{2 \sigma_{n}^{2}}\right) \\ &=\mathcal{N}\left(\mathbf{X} \mathbf{w}, \sigma_{n}^{2} \mathbf{I}\right) \tag {1.2} \end{aligned}$
其中 $\mathbf{X}=\left[\mathbf{x}_{1}, \ldots, \mathbf{x}_{n}\right]^{T} \in \mathbb{R}^{n \times d}$ ， $\mathbf{y}=\left[y_{1}, \ldots, y_{n}\right]^{T}$
根据贝叶斯公式
$\mid B)=\frac{P(B \mid A) P(A)}{P(B)}$
其中

$\mid B)$ 称为后验概率(posterior),这是我们需要结合先验概率和证据计算之后才能知道的。

$\mid A)$ 称为似然(likelihood),在事件A发生的情况下，事件B(或evidence)的概率有多大

$P (A)$ 称为先验概率(prior), 事件A发生的概率有多大

$P (B)$ 称为证据(evidence)，即无论事件如何，事件B(或evidence)的可能性有多大

因此
$p(\mathbf{w} \mid \mathbf{X}, \mathbf{y})=\frac{p(\mathbf{y} \mid \mathbf{X}, \mathbf{w}) \times p(\mathbf{w})}{p(\mathbf{y} \mid \mathbf{X})} \tag {1.3}$
显然，为了推导权重向量的后验分布，我们需要权重向量的先验。我们假设一个协方差矩阵为 $\sigma_\mathbf{w}^2 \mathbf{I}$ 的零均值高斯先验
$p(\mathbf{w})=\mathcal{N}\left(\mathbf{0}, \sigma_{\mathbf{w}}^{2} \mathbf{I}\right)$
其中 $\mathbf{I}$ 是 $d\times d$ 的单位矩阵。等式 $(1.3)$ 的分母称为证据或边际似然，它独立于 $\mathbf{w}$ ，可由以下公式得出：
$p(\mathbf{y} \mid \mathbf{X})=\int[p(\mathbf{y} \mid \mathbf{X}, \mathbf{w}) \times p(\mathbf{w})] d \mathbf{w} \tag{1.4}$
因为边际似然只是一个归一化常数，我们可以导出后验概率
$\begin{aligned} p(\mathbf{w} \mid \mathbf{X}, \mathbf{y}) & \propto p(\mathbf{y} \mid \mathbf{X}, \mathbf{w}) \times p(\mathbf{w}) \\ & \propto \exp \left(-\frac{\left\|\mathbf{y}-\mathbf{X} \mathbf{w}\right\|^{2}}{2 \sigma_{n}^{2}}\right) \exp \left(-\frac{1}{2} \mathbf{w}^{T}\left(\sigma_{\mathbf{w}}^{2} \mathbf{I}\right)^{-1} \mathbf{w}\right) \\ & \propto \exp \left[-\frac{1}{2}(\mathbf{w}-\widehat{\mathbf{w}})^{T}\left(\frac{1}{\sigma_{n}^{2}} \mathbf{X}^{T} \mathbf{X}+\sigma_{\mathbf{w}}^{-2} \mathbf{I}\right)(\mathbf{w}-\widehat{\mathbf{w}})\right] \tag{1.5} \end{aligned}$
其中
$\widehat{\mathbf{w}}=\left(\mathbf{X}^{T} \mathbf{X}+\sigma_{n}^{2} \sigma_{\mathbf{w}}^{-2} \mathbf{I}\right)^{-1} \mathbf{X}^{T} \mathbf{y} \tag{1.6}$
从等式 $(1.5)$ 可以看出，后验分布是高斯分布，其均值为 $\widehat{\mathbf{w}}$ ，协方差矩阵为 $\left(\frac{1}{\sigma_{n}^{2}} \mathbf{X}^{T} \mathbf{X}+\sigma_{\mathbf{w}}^{-2} \mathbf{I}\right)^{-1}$
为了预测新样本 $\mathbf{x}_{new}$ ，我们有 $f(\mathbf{x}_{new})$ 的后验分布
$p\left(f\left(\mathbf{x}_{new}\right) \mid \mathbf{x}_{new}, \mathcal{D}\right)=\int p\left(f\left(\mathbf{x}_{new}\right) \mid \mathbf{x}_{new}, \mathbf{w}\right) p(\mathbf{w} \mid \mathcal{D}) d \mathbf{w}$

这相当于对所有可能的权重向量预测得到的 $f\left(\mathbf{x}_{new}\right)$ 根据后验分布 $p(\mathbf{w} \mid \mathcal{D})$ 进行加权平均。预测的后验分布 $p\left(f\left(\mathbf{x}_{new}\right) \mid \mathbf{x}_{new}, \mathcal{D}\right)$ 再次为高斯分布，其均值为 $\mathbf{x}_{new}^T \widehat{\mathbf{w}}$ ，方差为 $\mathbf{x}_{new}^T\left(\frac{1}{\sigma_{n}^{2}} \mathbf{X}^{T} \mathbf{X}+\sigma_{\mathbf{w}}^{-2} \mathbf{I}\right)^{-1}\mathbf{x}_{new}$ 。在这里我们也可以简单的理解为一个常量 $\mathbf{x}_{new}$ 乘以一个服从高斯分布 $p(\mathbf{w} \mid \mathbf{X}, \mathbf{y})$ 的随机变量 $\mathbf{w}$ 。

非线性回归的高斯过程

将原始的 $\mathbf{X}$ 映射到高维空间中得到 $\phi(\mathbf{X})=\left[\phi\left(\mathbf{x}_{1}\right), \ldots, \phi\left(\mathbf{x}_{n}\right)\right]^{T} \in \mathbb{R}^{n \times d^{\prime}}$ ， $d^{'} > d$ ， $\mathcal{D'}=\{\mathbf{x}_i, y_i\}_{i=1}^{n}$ 重复线性回归的高斯过程可得 $f(\phi(\mathbf{x}_{new}))$ 的后验分布
$p\left(f\left(\phi(\mathbf{x}_{new})\right) \mid \phi(\mathbf{x}_{new}), \mathcal{D'}\right)=\int p\left(f\left(\phi(\mathbf{x}_{new})\right) \mid \phi(\mathbf{x}_{new}), \boldsymbol{\omega}\right) p(\boldsymbol{\omega} \mid \mathcal{D'}) d \boldsymbol{\omega} \tag{2.1}$
其均值
$m(f(\phi(\mathbf{x}_{new})))=\phi(\mathbf{x}_{new})^T \widehat{\boldsymbol{\omega}} \tag{2.2}$
方差
$\sigma^2(f(\phi(\mathbf{x}_{new})))=\phi(\mathbf{x}_{new})^T\left(\frac{1}{\sigma_{n}^{2}} \phi(\mathbf{X})^{T} \phi(\mathbf{X})+\sigma_{\mathbf{w}}^{-2} \mathbf{I}\right)^{-1} \phi(\mathbf{x}_{new}) \tag{2.3}$

利用矩阵求逆引理， $(2.2)$ 和 $(2.3)$ 可进一步整理成如 $(2.4)$ 和 $(2.5)$ 的形式
$\begin{aligned} m\left(f\left(\phi(\mathbf{x}_{new})\right)\right) &=\phi\left(\mathbf{x}_{new}\right)^{T} \widehat{\boldsymbol{\omega}} \\ &=\phi\left(\mathbf{x}_{new}\right)^{T}\left(\phi(\mathbf{X})^{T} \phi(\mathbf{X})+\sigma_{n}^{2} \sigma_{\boldsymbol{\omega}}^{-2} \mathbf{I}\right)^{-1} \phi(\mathbf{X})^{T} \mathbf{y} \\ &=\phi\left(\mathbf{x}_{new}\right)^{T} \phi(\mathbf{X})^{T}\left(\phi(\mathbf{X}) \phi(\mathbf{X})^{T}+\sigma_{n}^{2} \sigma_{\boldsymbol{\omega}}^{-2} \mathbf{I}\right)^{-1} \mathbf{y} \end{aligned} \tag{2.4}$

$\begin{aligned} \sigma^{2}\left(f\left(\phi(\mathbf{x}_{new})\right)\right) &=\phi\left(\mathbf{x}_{new}\right)^{T}\left(\frac{1}{\sigma_{n}^{2}} \phi(\mathbf{X})^{T} \phi(\mathbf{X})+\sigma_{\omega}^{-2} \mathbf{I}\right)^{-1} \phi\left(\mathbf{x}_{new}\right) \\ &=\sigma_{\omega}^{2} \phi\left(\mathbf{x}_{new}\right)^{T} \phi\left(\mathbf{x}_{new}\right)-\sigma_{\omega}^{2} \phi\left(\mathbf{x}_{new}\right)^{T} \phi(\mathbf{X})^{T}\left(\phi(\mathbf{X}) \phi(\mathbf{X})^{T}+\sigma_{n}^{2} \sigma_{\omega}^{-2} \mathbf{I}\right)^{-1} \phi(\mathbf{X}) \phi\left(\mathbf{x}_{new}\right) \end{aligned} \tag{2.5}$

对 $(2.4)$ 和 $(2.5)$ 采用核技巧，令
$\widetilde{\mathbf{h}}_{*}^{T}=\phi\left(\mathbf{x}_{new}\right)^{T} \phi(\mathbf{X})^{T}=\left[\widetilde{\kappa}\left(\mathbf{x}_{new}, \mathbf{x}_{1}\right), \cdots, \widetilde{\kappa}\left(\mathbf{x}_{new}, \mathbf{x}_{n}\right)\right]$

$\widetilde{\mathbf{K}}=\phi(\mathbf{X}) \phi(\mathbf{X})^{T}=\left[\begin{array}{ccc} \widetilde{\kappa}(\mathbf{x}_{1}, \mathbf{x}_{1}) & \cdots & \widetilde{\kappa}(\mathbf{x}_{n}, \mathbf{x}_{1}) \\ \vdots & \ddots & \vdots \\ \widetilde{\kappa}(\mathbf{x}_{1}, \mathbf{x}_{n}) & \cdots & \widetilde{\kappa}(\mathbf{x}_{n}, \mathbf{x}_{n})\end{array}\right]$
则
$m\left(f\left(\phi(\mathbf{x}_{new})\right)\right)=\widetilde{\mathbf{h}}_{*}^{T}\left(\widetilde{\mathbf{K}}+\sigma_{n}^{2} \sigma_{\omega}^{-2} \mathbf{I}\right)^{-1} \mathbf{y} = \sigma _\omega ^2\widetilde {\mathbf{h}}_*^T{\left( {\sigma _\omega ^2\widetilde {\mathbf{K}} + \sigma _n^2{\mathbf{I}}} \right)^{ - 1}}{\mathbf{y}} \tag{2.6}$

$\sigma^{2}\left(f\left(\phi(\mathbf{x}_{new})\right)\right)=\sigma_{\omega}^{2}\left[\widetilde{\kappa}\left(\mathbf{x}_{new}, \mathbf{x}_{new}\right)-\widetilde{\mathbf{h}}_{*}^{T}\left(\widetilde{\mathbf{K}}+\sigma_{n}^{2} \sigma_{\omega}^{-2} \mathbf{I}\right)^{-1} \widetilde{\mathbf{h}}_{*}\right] \tag{2.7}$

将常数 $\sigma_{\omega}^{2}$ 吸收到核中并定义新核为 $\kappa=\sigma_{\omega}^{2}\widetilde{\kappa}$ 。对于新核， $(2.6)$ 和 $(2.7)$ 可重新表示成如下形式：
$m\left(f\left(\phi(\mathbf{x}_{new})\right)\right)=\mathbf{h}_{*}^{T}\left(\mathbf{K}+\sigma_{n}^{2} \mathbf{I}\right)^{-1} \mathbf{y} \tag{2.8}$

$\sigma^{2}\left(f\left(\phi(\mathbf{x}_{new})\right)\right)=\sigma_{\omega}^{2}\left[\kappa\left(\mathbf{x}_{new}, \mathbf{x}_{new}\right)-\mathbf{h}_{*}^{T}\left(\mathbf{K}+\sigma_{n}^{2} \mathbf{I}\right)^{-1} \mathbf{h}_{*}\right] \tag{2.9}$
其中
$\mathbf{h}_{*}^{T}=\phi\left(\mathbf{x}_{new}\right)^{T} \phi(\mathbf{X})^{T}=\left[\kappa\left(\mathbf{x}_{new}, \mathbf{x}_{1}\right), \cdots, \kappa\left(\mathbf{x}_{new}, \mathbf{x}_{n}\right)\right]$

$\mathbf{K}=\phi(\mathbf{X}) \phi(\mathbf{X})^{T}=\left[\begin{array}{ccc} \kappa(\mathbf{x}_{1}, \mathbf{x}_{1}) & \cdots & \kappa(\mathbf{x}_{n}, \mathbf{x}_{1}) \\ \vdots & \ddots & \vdots \\ \kappa(\mathbf{x}_{1}, \mathbf{x}_{n}) & \cdots & \kappa(\mathbf{x}_{n}, \mathbf{x}_{n})\end{array}\right]$

高斯过程回归——函数空间角度

假设有 $n$ 个观察值组成的训练数据 $\mathcal{D}=\{\mathbf{\mathbf{x}}_i, y_i\}_{i=1}^{n}$ ，其中 $\mathbf{\mathbf{x}}_i$ 是第 $i$ 个维度为 $d$ 的输入， $y_i$ 是其对应的输出。我们假设输入和输出之间的潜在关系是带有高斯噪声的标准线性回归模型
$f(\mathbf{\mathbf{x}})=\phi(\mathbf{\mathbf{x}})^{T} \mathbf{w}, \quad \mathbf{y}=f(\mathbf{\mathbf{x}})+e \tag {3.1}$
其中， $\mathbf{w}$ 是线性模型的权重向量， $f$ 是函数， $y$ 是观察到的输出。 $e$ 是服从独立、同分布的均值为零，方差为 $\sigma_n^2$ 的高斯附加噪声。
我们假设一个协方差矩阵为 $\sigma_\mathbf{w}^2 \mathbf{I}$ 的零均值高斯先验
$p(\mathbf{w}) \sim \mathcal{N}\left(\mathbf{0}, \sigma_{\mathbf{w}}^{2} \mathbf{I}\right)$
$\begin{aligned} E_{\mathbf{w}}[f(\mathbf{X})] &=E_{\mathbf{w}}\left[\phi(\mathbf{X}) \mathbf{w}\right]=\phi(\mathbf{X}) E_{\mathbf{w}}[\mathbf{w}]=0 \\ \operatorname{cov}\left(f(\mathbf{X}), f\left(\mathbf{X}\right)^{T}\right) &=E\left[(f(\mathbf{X})-E[f(\mathbf{X})])\left(f\left(\mathbf{X}\right)^{T}-E\left[f\left(\mathbf{X}\right)^{T}\right]\right)\right]\\ &=E\left[f(\mathbf{X}) f\left(\mathbf{X}\right)^{T}\right] \\ &=E\left[\phi(\mathbf{X}) \mathbf{w} \mathbf{w}^{T} \phi\left(\mathbf{X}\right)^{T}\right] \\ &=\phi(\mathbf{X}) E\left[\mathbf{w} \mathbf{w}^{T}\right] \phi\left(\mathbf{X}\right)^{T} \\ &=\phi(\mathbf{X}) \sigma_{\mathbf{w}}^{2} \mathbf{I} \phi\left(\mathbf{X}\right)^{T} \\ &=\sigma_{\mathbf{w}}^{2} \phi(\mathbf{X}) \phi\left(\mathbf{X}\right)^{T} \end{aligned}$
令 $K=\sigma_{\mathbf{w}}^{2} \phi(\mathbf{X}) \phi\left(\mathbf{X}\right)^{T}$ , 因此
$f(\mathbf{X}) \sim \mathcal{N}(0,K)$
如果我们把0看作特殊的函数,即此时 $\mu(\mathbf{X})=0$ ，上式可写为
$f(\mathbf{X}) \sim \mathcal{N}(\mu(\mathbf{X}),K)$
由上式可知，对于任意一个输入 $\mathbf{x}_i$ ，把 $f(\mathbf{x}_i)$ 看作一个服从高斯分布的随机变量，若干个 $f(\mathbf{x}_i)$ 的联合分布仍然是高斯分布。
根据两个服从高斯分布的变量相加仍为高斯分布，可以得到
$\mathbf{y}=f(\mathbf{X})+e \sim \mathcal{N}(\mu(\mathbf{X}),K+\sigma_n^2\mathbf{I})$

因此，对于训练集 $\mathbf{X}$ ， $\mathbf{y} \sim \mathcal{N}(\mu(\mathbf{X}),K+\sigma_n^2\mathbf{I})$ ,对于待预测的预测集 $\mathbf{X}_{new}$ , $f(\mathbf{\mathbf{X}_{new}}) \sim \mathcal{N}(\mu(\mathbf{X}_{new}),K(\mathbf{X}_{new},\mathbf{X}_{new}))$
由高斯分布的性质可知， $(\mathbf{y},f(\mathbf{\mathbf{X}_{new}}))$ 的联合分布仍然是高斯分布：
$\left(\begin{array}{c} \mathbf{y} \\ f\left(\mathbf{X}_{new}\right) \end{array}\right)=N\left(\left(\begin{array}{c} \mu(\mathbf{X}) \\ \mu\left(\mathbf{X}_{new}\right) \end{array}\right),\left(\begin{array}{cc} K(\mathbf{X}, \mathbf{X})+\sigma^{2} I & K\left(\mathbf{X}, \mathbf{X}_{new}\right) \\ K\left(\mathbf{X}_{new}, \mathbf{X}\right) & K\left(\mathbf{X}_{new}, \mathbf{X}_{new}\right) \end{array}\right)\right)$

$\begin{array}{c} P\left(f\left(\mathbf{X}_{new}\right) \mid \mathbf{y}\right)=N\left(\mu^{*}, \Sigma^{*}\right) \\ \mu^{*}=K\left(\mathbf{X}_{new}, \mathbf{X}\right)\left(K(\mathbf{X}, \mathbf{X})+\sigma^{2} I\right)^{-1}(\mathbf{y}-\mu(\mathbf{X}))+\mu\left(\mathbf{X}_{new}\right) \\ \Sigma^{*}=K\left(\mathbf{X}_{new}, \mathbf{X}_{new}\right)-K\left(\mathbf{X}_{new}, \mathbf{X}\right)\left(K(\mathbf{X}, \mathbf{X})+\sigma^{2} I\right)^{-1}K\left(\mathbf{X}, \mathbf{X}_{new}\right) \end{array}$

tianmingemmm

关注

0
点赞
踩
2

收藏

觉得还不错? 一键收藏
1
评论
分别从权重空间角度和函数空间角度看高斯过程回归

高斯过程回归（Gaussian Process Regression, GPR）是使用高斯过程（Gaussian Process, GP）先验对数据进行回归分析的非参数模型（non-parameteric model）
复制链接

扫一扫