PRML学习总结（6）——Kernel Methods

最新推荐文章于 2020-12-22 14:57:30 发布

Ghy817920

最新推荐文章于 2020-12-22 14:57:30 发布

阅读量782

点赞数 3

分类专栏： PRML学习总结

本文链接：https://blog.csdn.net/Ghy817920/article/details/93302079

版权

PRML学习总结专栏收录该内容

11 篇文章 4 订阅

订阅专栏

PRML学习总结（6）——Kernel Methods

6.1 Dual Representations
6.2 Constructing Kernels
6.3 Radial Basis Function Networks
- 6.3.1 Nadaraya-Watson model
6.4 Gaussian Processes

在第3章和第4章，我们考虑了回归问题和分类问题的线性参数模型，其中从输⼊

\mathbf x

到输出y的映射

\mathbf { x } , \mathbf { w } )

的形式由可调节参数构成的向量

\mathbf w

控制。在学习阶段，⼀组训练数据⽤来得到参数向量的点估计，或者⽤来确定这个向量的后验概率分布。然后，训练数据之后被丢弃，对于新输⼊的预测纯粹依靠学习到的参数向量

\mathbf w

。这个⽅法也被⽤于⾮线性参数模型，例如神经⽹络。
然⽽，有这样⼀类模式识别的技术：训练数据点或者它的⼀个⼦集在预测阶段仍然保留并且被使⽤。

6.1 Dual Representations

许多回归的线性模型和分类的线性模型的公式都可以使⽤对偶表⽰重写。使⽤对偶表⽰形式，核函数可以⾃然地产⽣。在我们下⼀章中讨论⽀持向量机的时候，这个概念⼗分重要。这⾥，我们考虑⼀个线性模型，它的参数通过最⼩化正则化的平⽅和误差函数来确定。正则化的平⽅和误差函数为 $\mathbf { w } ) = \frac { 1 } { 2 } \sum _ { n = 1 } ^ { N } \left\{ \mathbf { w } ^ { \mathrm { T } } \mathbf { \phi } \left( \mathbf { x } _ { n } \right) - t _ { n } \right\} ^ { 2 } + \frac { \lambda } { 2 } \mathbf { w } ^ { \mathrm { T } } \mathbf { w }$ 其中 $\lambda \ge0$ 。当对以上目标函数对 $\mathbf w$ 求导为0，可得 $\mathbf { w } = - \frac { 1 } { \lambda } \sum _ { n = 1 } ^ { N } \left\{ \mathbf { w } ^ { \mathrm { T } } \boldsymbol { \phi } \left( \mathbf { x } _ { n } \right) - t _ { n } \right\} \phi \left( \mathbf { x } _ { n } \right) = \sum _ { n = 1 } ^ { N } a _ { n } \phi \left( \mathbf { x } _ { n } \right) = \mathbf { \Phi } ^ { \mathrm { T } } \mathbf { a }$ 其中 $\mathbf { \Phi }$ 的第 $n$ 行为 $\phi \left( \mathbf { x } _ { n } \right) ^ { T }$ ， $\mathbf { a } = \left( a _ { 1 } , \dots , a _ { N } \right) ^ { \mathrm { T } }$ 且 $\frac { 1 } { \lambda } \left\{ \mathbf { w } ^ { \mathrm { T } } \boldsymbol { \phi } \left( \mathbf { x } _ { n } \right) - t _ { n } \right\}$ 将上式带入原目标函数 $\mathbf { a } ) = \frac { 1 } { 2 } \mathbf { a } ^ { \mathrm { T } } \mathbf { \Phi } \mathbf { \Phi } ^ { \mathrm { T } } \mathbf { \Phi } \mathbf { \Phi } ^ { \mathrm { T } } \mathbf { a } - \mathbf { a } ^ { \mathrm { T } } \mathbf { \Phi } \mathbf { \Phi } ^ { \mathrm { T } } \mathbf { t } + \frac { 1 } { 2 } \mathbf { t } ^ { \mathrm { T } } \mathbf { t } + \frac { \lambda } { 2 } \mathbf { a } ^ { \mathrm { T } } \mathbf { \Phi } \mathbf { \Phi } ^ { \mathrm { T } } \mathbf { a }$ 其中 $\mathbf { t } = \left( t _ { 1 } , \dots , t _ { N } \right) ^ { \mathrm { T } }$ ，定义Gram matrix $\mathbf { K } = \mathbf { \Phi } \mathbf { \Phi } ^ { \mathrm { T } }$ 其中 $\phi \left( \mathbf { x } _ { n } \right) ^ { \mathrm { T } } \boldsymbol { \phi } \left( \mathbf { x } _ { m } \right) = k \left( \mathbf { x } _ { n } , \mathbf { x } _ { m } \right)$ 此处引入kernel function $\left( \mathbf { x } , \mathbf { x } ^ { \prime } \right)$ 将Gram matrix代入 $\mathbf { a } ) = \frac { 1 } { 2 } \mathbf { a } ^ { \mathrm { T } } \mathbf { K } \mathbf { K } \mathbf { a } - \mathbf { a } ^ { \mathrm { T } } \mathbf { K } \mathbf { t } + \frac { 1 } { 2 } \mathbf { t } ^ { \mathrm { T } } \mathbf { t } + \frac { \lambda } { 2 } \mathbf { a } ^ { \mathrm { T } } \mathbf { K } \mathbf { a }$ 则上式对 $\mathbf a$ 求导为0 $\mathbf { a } = \left( \mathbf { K } + \lambda \mathbf { I } _ { N } \right) ^ { - 1 } \mathbf { t }$ 将上式再带入回归模型中 $\mathbf { x } ) = \mathbf { w } ^ { \mathrm { T } } \boldsymbol { \phi } ( \mathbf { x } ) = \mathbf { a } ^ { \mathrm { T } } \boldsymbol { \Phi } \phi ( \mathbf { x } ) = \mathbf { k } ( \mathbf { x } ) ^ { \mathrm { T } } \left( \mathbf { K } + \lambda \mathbf { I } _ { N } \right) ^ { - 1 } \mathbf { t }$ 其中 $\mathbf { k } ( \mathbf { x } )$ with elements $\mathbf { x } ) = k \left( \mathbf { x } _ { n } , \mathbf { x } \right)$
在这里插入图片描述

6.2 Constructing Kernels

第一种构造方式是根据定义， $\left( x , x ^ { \prime } \right) = \phi ( x ) ^ { \mathrm { T } } \phi \left( x ^ { \prime } \right) = \sum _ { i = 1 } ^ { M } \phi _ { i } ( x ) \phi _ { i } \left( x ^ { \prime } \right)$
在这里插入图片描述
另⼀种⽅法是直接构造核函数。在这种情况下，我们必须确保我们核函数是合法的，即它对应于某个（可能是⽆穷维）特征空间的标量积。作为⼀个简单的例⼦，考虑下⾯的核函数 $\mathbf { x } , \mathbf { z } ) = \left( \mathbf { x } ^ { \mathrm { T } } \mathbf { z } \right) ^ { 2 }$ 可以发现通过以下变换可以变成定义 $\begin{aligned} k ( \mathbf { x } , \mathbf { z } ) & = \left( \mathbf { x } ^ { \mathrm { T } } \mathbf { z } \right) ^ { 2 } = \left( x _ { 1 } z _ { 1 } + x _ { 2 } z _ { 2 } \right) ^ { 2 } \\ & = x _ { 1 } ^ { 2 } z _ { 1 } ^ { 2 } + 2 x _ { 1 } z _ { 1 } x _ { 2 } z _ { 2 } + x _ { 2 } ^ { 2 } z _ { 2 } ^ { 2 } \\ & = \left( x _ { 1 } ^ { 2 } , \sqrt { 2 } x _ { 1 } x _ { 2 } , x _ { 2 } ^ { 2 } \right) \left( z _ { 1 } ^ { 2 } , \sqrt { 2 } z _ { 1 } z _ { 2 } , z _ { 2 } ^ { 2 } \right) ^ { \mathrm { T } } \\ & = \boldsymbol { \phi } ( \mathbf { x } ) ^ { \mathrm { T } } \boldsymbol { \phi } ( \mathbf { z } ) \end{aligned}$ 但是这样判断一个核是否有效太麻烦，因此寻找一个更加方便的方法。核函数 $\left( \mathbf { x } , \mathbf { x } ^ { \prime } \right)$ 是⼀个合法的核函数的充分必要条件是Gram矩阵（元素由 $\left( \mathbf { x } _ { n } , \mathbf { x } _ { m } \right)$ 给出）在所有的集合 $\left\{ \mathbf { x } _ { n } \right\}$ 的选择下都是半正定的（Shawe-Taylor and Cristianini, 2004）。
还有一些扩展的技巧
在这里插入图片描述
通过以上性质，可以构造出很多核函数 $\left( \mathbf { x } , \mathbf { x } ^ { \prime } \right) = \left( \mathbf { x } ^ { \mathrm { T } } \mathbf { x } ^ { \prime } + c \right) ^ { M }$ $\left( \mathbf { x } , \mathbf { x } ^ { \prime } \right) = \exp \left( - \left\| \mathbf { x } - \mathbf { x } ^ { \prime } \right\| ^ { 2 } / 2 \sigma ^ { 2 } \right)$ 在高斯核中不限于欧几里得度量，也可以将其再用核替换 $\left( \boldsymbol { x } , \boldsymbol { x } ^ { \prime } \right) = \exp \left\{ - \frac { 1 } { 2 \sigma ^ { 2 } } \left( \kappa ( \boldsymbol { x } , \boldsymbol { x } ) + \kappa \left( \boldsymbol { x } ^ { \prime } , \boldsymbol { x } ^ { \prime } \right) - 2 \kappa \left( \boldsymbol { x } , \boldsymbol { x } ^ { \prime } \right) \right) \right\}$
在这里插入图片描述
构造核的另⼀个强⼤的⽅法是从⼀个概率⽣成式模型开始构造（Haussler, 1999），这使得我们可以在⼀个判别式的框架中使⽤⽣成式模型。⽣成式模型可以⾃然地处理缺失数据，并且在隐马尔科夫模型的情况下，可以处理长度变化的序列。相反，判别式模型在判别式的任务中通常会⽐⽣成式模型的表现更好。于是，将这两种⽅法结合吸引了⼀些⼈的兴趣（Lasserre et al.,2006）。⼀种将⼆者结合的⽅法是使⽤⼀个⽣成式模型定义⼀个核，然后在判别式⽅法中使⽤这个核。 $\left( \mathbf { x } , \mathbf { x } ^ { \prime } \right) = p ( \mathbf { x } ) p \left( \mathbf { x } ^ { \prime } \right)$ 很显然这个为有效核。它表明，如果两个输⼊ $\mathbf x$ 和 $\mathbf x^′$ 都具有较⾼的概率，那么它们就是相似的。利用6.13和6.17扩展这个核 $\left( \mathbf { x } , \mathbf { x } ^ { \prime } \right) = \sum _ { i } p ( \mathbf { x } | i ) p \left( \mathbf { x } ^ { \prime } | i \right) p ( i )$ 其中 $i$ 可以看作为隐变量，将求和换为积分，则 $\left( \mathbf { x } , \mathbf { x } ^ { \prime } \right) = \int p ( \mathbf { x } | \mathbf { z } ) p \left( \mathbf { x } ^ { \prime } | \mathbf { z } \right) p ( \mathbf { z } ) \mathrm { d } \mathbf { z }$
在这里插入图片描述
另⼀个使⽤⽣成式模型定义核函数的⽅法被称为Fisher核（Jaakkola and Haussler, 1999）。考虑⼀个参数⽣成式模型 $\mathbf { x } | \boldsymbol { \theta } )$ ，其中 $\boldsymbol { \theta }$ 表⽰参数的向量。⽬标是找到⼀个核，度量这个⽣成式模型的两个输⼊变量 $\mathbf x$ 和 $\mathbf x^′$ 之间的相似性。Jaakkola and Haussler（1999）考虑关于 $\boldsymbol { \theta }$ 的梯度，它定义了“特征”空间的⼀个向量，这个特征空间的维度与 $\boldsymbol { \theta }$ 的维度相同。特别地，它们考虑Fisher得分 $\mathbf { g } ( \boldsymbol { \theta } , \mathbf { x } ) = \nabla _ { \boldsymbol { \theta } } \ln p ( \mathbf { x } | \boldsymbol { \theta } )$ 则Fisher核 $\left( \mathbf { x } , \mathbf { x } ^ { \prime } \right) = \mathbf { g } ( \boldsymbol { \theta } , \mathbf { x } ) ^ { \mathrm { T } } \mathbf { F } ^ { - 1 } \mathbf { g } \left( \boldsymbol { \theta } , \mathbf { x } ^ { \prime } \right)$ 其中Fisher information matrix $\mathbf { F } = \mathbb { E } _ { \mathbf { x } } \left[ \mathbf { g } ( \boldsymbol { \theta } , \mathbf { x } ) \mathbf { g } ( \boldsymbol { \theta } , \mathbf { x } ) ^ { \mathrm { T } } \right]$ 在实际中 $\boldsymbol { F } \simeq \frac { 1 } { N } \sum _ { n = 1 } ^ { N } \boldsymbol { g } \left( \boldsymbol { \theta } , \boldsymbol { x } _ { n } \right) g \left( \boldsymbol { \theta } , \boldsymbol { x } _ { n } \right) ^ { T }$ 在这里插入图片描述

6.3 Radial Basis Function Networks

在第3章，我们讨论了基于固定基函数的线性组合的回归模型，但是我们没有详细讨论可以取哪种形式的基函数。⼀种⼴泛使⽤的基函数是径向基函数（radial basis functions）。径向基函数中，每⼀个基函数只依赖于样本和中⼼ $\mu _ { j }$ 之间的径向距离（通常是欧⼏⾥得距离），即 $\phi _ { j } ( \mathbf { x } ) = h \left( \left\| \mathbf { x } - \boldsymbol { \mu } _ { j } \right\| \right)$ 。
rbf首先是针对于回归问题（内插问题），对于训练数据 $\{\mathbf x_1,...,\mathbf x_N\}$ , ${t_1,...,t_N\}$ 。目标是找到一个函数 $f\left(\mathbf{x}_{n}\right)=t_{n}$ 。可以这样做：将 $f\left(\mathbf{x}_{n}\right)$ 表⽰为径向基函数的线性组合，每个径向基函数都以数据点为中⼼，即
$f(\boldsymbol{x})=\sum_{n=1}^{N} w_{n} h\left(\left\|\boldsymbol{x}-\boldsymbol{x}_{n}\right\|\right)$ 以上可以利用LMS求解，但是数据往往存在噪声，因此会过拟合。对于RBF函数的研究有很多，下面将一一罗列出。

6.3.1 Nadaraya-Watson model

之前3.3.3得到 $y\left(\mathbf{x}, \mathbf{m}_{N}\right)=\sum_{n=1}^{N} k\left(\mathbf{x}, \mathbf{x}_{n}\right) t_{n}$ 其中 $k\left(\mathbf{x}, \mathbf{x}^{\prime}\right)=\beta \phi(\mathbf{x})^{\mathrm{T}} \mathbf{S}_{N} \phi\left(\mathbf{x}^{\prime}\right)$ 我们可以从核密度估计开始，以⼀个不同的⾓度研究核回归模型。对于训练数据集，我们利用Parzen density estimator建模联合概率密度 $p(\mathbf{x}, t)$ $p(\mathbf{x}, t)=\frac{1}{N} \sum_{n=1}^{N} f\left(\mathbf{x}-\mathbf{x}_{n}, t-t_{n}\right)$ 那么最优 $\begin{aligned} y(\mathbf{x}) &=\mathbb{E}[t | \mathbf{x}]=\int_{-\infty}^{\infty} t p(t | \mathbf{x}) \mathrm{d} t \\ &=\frac{\int t p(\mathbf{x}, t) \mathrm{d} t}{\int p(\mathbf{x}, t) \mathrm{d} t} \\ &=\frac{\sum_{n} \int t f\left(\mathbf{x}-\mathbf{x}_{n}, t-t_{n}\right) \mathrm{d} t}{\sum_{m} \int f\left(\mathbf{x}-\mathbf{x}_{m}, t-t_{m}\right) \mathrm{d} t} \end{aligned}$ 假设 $\int_{-\infty}^{\infty} f(\mathbf{x}, t) t \mathrm{d} t=0$ 则 $\begin{aligned} y(\mathbf{x}) &=\frac{\sum_{n} g\left(\mathbf{x}-\mathbf{x}_{n}\right) t_{n}}{\sum_{m} g\left(\mathbf{x}-\mathbf{x}_{m}\right)} \\ &=\sum_{n} k\left(\mathbf{x}, \mathbf{x}_{n}\right) t_{n} \end{aligned}$ 其中 $k\left(\mathbf{x}, \mathbf{x}_{n}\right)=\frac{g\left(\mathbf{x}-\mathbf{x}_{n}\right)}{\sum_{m} g\left(\mathbf{x}-\mathbf{x}_{m}\right)}$ $g(\mathbf{x})=\int_{-\infty}^{\infty} f(\mathbf{x}, t) \mathrm{d} t$ 以上就是Nadaraya-Watson model。对于⼀个局部核函数，它的性质为：给距离 $\mathbf x$ 较近的数据点 $\mathbf x_n$ 较⾼的权重。可以发现 $\sum_{n=1}^{N} k\left(\mathbf{x}, \mathbf{x}_{n}\right)=1$ 这个与第三章得到的约束一样。我们利用这个还可以得到条件概率分布 $\mathbf{x})=\frac{p(t, \mathbf{x})}{\int p(t, \mathbf{x}) \mathrm{d} t}=\frac{\sum_{n} f\left(\mathbf{x}-\mathbf{x}_{n}, t-t_{n}\right)}{\sum_{m} \int f\left(\mathbf{x}-\mathbf{x}_{m}, t-t_{m}\right) \mathrm{d} t}$
在这里插入图片描述
这个模型的⼀个明显的推⼴是允许形式更灵活的⾼斯分布作为其分量，例如让输⼊和⽬标值具有不同⽅差。

6.4 Gaussian Processes

在6.1中在非概率回归模型中引入了对偶形式。下面以概率的观点看这个问题。也就是高斯过程。

6.4.1 Linear regression revisited

考虑⼀个模型 $M$ ，它被定义为由向量 $\phi(\mathbf{x})$ 的元素给出的 $M$ 个固定基函数的线性组合，即 $y(\mathbf{x})=\mathbf{w}^{\mathrm{T}} \boldsymbol{\phi}(\mathbf{x})$ 对权重引入先验 $p(\mathbf{w})=\mathcal{N}\left(\mathbf{w} | \mathbf{0}, \alpha^{-1} \mathbf{I}\right)$ 改写成矩阵形式 $\mathbf{y}=\mathbf{\Phi} \mathbf{w}$ 其中 $\mathbf y$ 为高斯分布的线性组合，那么他就是个高斯分布，则 $\begin{aligned} \mathbb{E}[\mathbf{y}] &=\boldsymbol{\Phi} \mathbb{E}[\mathbf{w}]=\mathbf{0} \\ \operatorname{cov}[\mathbf{y}] &=\mathbb{E}\left[\mathbf{y} \mathbf{y}^{\mathrm{T}}\right]=\mathbf{\Phi} \mathbb{E}\left[\mathbf{w} \mathbf{w}^{\mathrm{T}}\right] \mathbf{\Phi}^{\mathrm{T}}=\frac{1}{\alpha} \mathbf{\Phi} \mathbf{\Phi}^{\mathrm{T}}=\mathbf{K} \end{aligned}$ 其中 $K_{n m}=k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right)=\frac{1}{\alpha} \phi\left(\mathbf{x}_{n}\right)^{\mathrm{T}} \boldsymbol{\phi}\left(\mathbf{x}_{m}\right)$ 这个模型给我们提供了⾼斯过程的⼀个具体的例⼦。通常来说，⾼斯过程被定义为函数 $y(\mathbf{x})$ 上的⼀个概率分布，使得在任意点集 $\mathbf{x}_{1}, \dots, \mathbf{x}_{N}$ 处计算的 $y(\mathbf{x})$ 的值的集合联合起来服从⾼斯分布。在输⼊向量 $\mathbf x$ 是⼆维的情况下，这也可以被称为⾼斯随机场（Gaussian random field）。更⼀般地，可以⽤⼀种合理的⽅式为 $y\left(\mathbf{x}_{1}\right), \ldots, y\left(\mathbf{x}_{N}\right)$ 赋予⼀个联合的概率分布，来确定⼀个随机过程（stochastic process） $y(\mathbf{x})$ 。
⾼斯随机过程的⼀个关键点是 $N$ 个变量 $y_{1}, \ldots, y_{N}$ 上的联合概率分布完全由⼆阶统计（即均值和协⽅差）确定。在⼤部分应⽤中，我们关于 $y(\mathbf{x})$ 的均值没有任何先验的知识，因此根据对称性，我们令其等于零。这等价于基函数的观点中，令权值 $p(\mathbf{w} | \alpha)$ 的先验概率分布的均值等于零。之后，⾼斯过程的确定通过给定两个 $\mathbf x$ 处的函数值 $y(\mathbf{x})$ 的协⽅差来完成。这个协⽅差由核函数确定 $\mathbb{E}\left[y\left(\mathbf{x}_{n}\right) y\left(\mathbf{x}_{m}\right)\right]=k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right)$ 我们也可以直接定义核函数，⽽不是间接地通过选择基函数。图6.4给出了对于两个不同的核函数，由⾼斯过程产⽣的函数的样本。下图的第二个核函数为 $k\left(x, x^{\prime}\right)=\exp \left(-\theta\left|x-x^{\prime}\right|\right)$
在这里插入图片描述

6.4.2 Gaussian processes for regression

为了把⾼斯过程模型应⽤于回归问题，我们需要考虑观测⽬标值的噪声，形式为 $t_{n}=y_{n}+\epsilon_{n}$ 其中 $y_{n}=y\left(\mathbf{x}_{n}\right)$ 。对于噪声可以定义为 $p\left(t_{n} | y_{n}\right)=\mathcal{N}\left(t_{n} | y_{n}, \beta^{-1}\right)$ $p(\mathbf{t} | \mathbf{y})=\mathcal{N}\left(\mathbf{t} | \mathbf{y}, \beta^{-1} \mathbf{I}_{N}\right)$ 其中 $p(\mathbf{y})=\mathcal{N}(\mathbf{y} | \mathbf{0}, \mathbf{K})$ 确定 $\mathbf{K}$ 的核函数通常被选择成能够表⽰下⾯的性质：对于相似的点 $\mathbf x_n$ 和 $\mathbf x_m$ ，对应的值 $y\left(\mathbf{x}_{n}\right)$ 和 $y\left(\mathbf{x}_{m}\right)$ 的相关性要⼤于不相似的点。这⾥，相似性的概念取决于实际应⽤。
可以把 $\mathbf y$ 积分 $p(\mathbf{t})=\int p(\mathbf{t} | \mathbf{y}) p(\mathbf{y}) \mathrm{d} \mathbf{y}=\mathcal{N}(\mathbf{t} | \mathbf{0}, \mathbf{C})$ 其中 $C\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right)=k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right)+\beta^{-1} \delta_{n m}$ 对于⾼斯过程回归，⼀个⼴泛使⽤的核函数的形式为指数项的⼆次型加上常数和线性项，即 $k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right)=\theta_{0} \exp \left\{-\frac{\theta_{1}}{2}\left\|\mathbf{x}_{n}-\mathbf{x}_{m}\right\|^{2}\right\}+\theta_{2}+\theta_{3} \mathbf{x}_{n}^{\mathrm{T}} \mathbf{x}_{m}$ 以此核函数为先验抽样函数为
在这里插入图片描述

⽬前为⽌，我们已经使⽤⾼斯过程的观点来构建数据点的集合上的联合概率分布的模型。然⽽，我们在回归问题中的⽬标是在给定⼀组训练数据的情况下，对新的输⼊变量预测⽬标变量的值。让我们假设 $\mathbf{t}_{N}=\left(t_{1}, \dots, t_{N}\right)^{\mathrm{T}}$ ，对应于输⼊值 $\mathbf{x}_{1}, \dots, \mathbf{x}_{N}$ ，组成观测训练集，并且我们的⽬标是对于新的输⼊向量 $\mathbf{x}_{N+1}$ 预测⽬标变量 $t_{N+1}$ 。这要求我们计算预测分布 $p\left(t_{N+1} | \mathbf{t}_{N}\right)$ 。注意，这个分布还要以变量 $\mathbf{x}_{1}, \dots, \mathbf{x}_{N}$ 和 $\mathbf{x}_{N+1}$ 为条件。但是为了记号的简介，我们不会显式地写出这些条件变量。 $p\left(\mathbf{t}_{N+1}\right)=\mathcal{N}\left(\mathbf{t}_{N+1} | \mathbf{0}, \mathbf{C}_{N+1}\right)$ 其中 $\mathbf{C}_{N+1}=\left(\begin{array}{cc}{\mathbf{C}_{N}} & {\mathbf{k}} \\ {\mathbf{k}^{\mathrm{T}}} & {c}\end{array}\right)$ 根据高斯分布的性质可得 $\begin{aligned} m\left(\mathbf{x}_{N+1}\right) &=\mathbf{k}^{\mathrm{T}} \mathbf{C}_{N}^{-1} \mathbf{t} \\ \sigma^{2}\left(\mathbf{x}_{N+1}\right) &=c-\mathbf{k}^{\mathrm{T}} \mathbf{C}_{N}^{-1} \mathbf{k} \end{aligned}$ 可见高斯过程需要计算一个矩阵的逆，对于大数据来说就很复杂。因此有很多近似的方式。

6.4.3 Learning the hyperparameters

⾼斯过程模型的预测部分依赖于协⽅差函数的选择。在实际应⽤中，我们不固定协⽅差函数，⽽是更喜欢使⽤⼀组带有参数的函数，然后从数据中推断参数的值。这些参数控制了相关性的长度缩放以及噪声的精度等等，对应于标准参数模型的超参数。
最直观的方法是最大似然点估计 $\ln p(\mathbf{t} | \boldsymbol{\theta})=-\frac{1}{2} \ln \left|\mathbf{C}_{N}\right|-\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}_{N}^{-1} \mathbf{t}-\frac{N}{2} \ln (2 \pi)$ 然后关于 $\boldsymbol \theta$ 进行梯度下降 $\frac{\partial}{\partial \theta_{i}} \ln p(\mathbf{t} | \boldsymbol{\theta})=-\frac{1}{2} \operatorname{Tr}\left(\mathbf{C}_{N}^{-1} \frac{\partial \mathbf{C}_{N}}{\partial \theta_{i}}\right)+\frac{1}{2} \mathbf{t}^{\mathrm{T}} \mathbf{C}_{N}^{-1} \frac{\partial \mathbf{C}_{N}}{\partial \theta_{i}} \mathbf{C}_{N}^{-1} \mathbf{t}$ 同样地，可以引入 $\boldsymbol \theta$ 的先验，然后精确求解后验是不可能的，因此可以采用一些近似的手段。一般来说，高斯过程回归中的模型噪声是一个常数 $\beta$ ，有些时候这个值与 $\mathbf x$ 有关，因此可以引入第二个高斯过程回归得到 $\beta(\mathbf x)$ 。

6.4.4 Automatic relevance determination

在前⼀节⾥，我们看到最⼤似然⽅法如何被⽤于确定⾼斯过程中的长度缩放参数的值。通过为每个输⼊变量整合⼀个单独的参数，这种⽅法可以很有⽤地推⼴（Rasmussen and Williams,2006）。正如我们将看到的那样，这样做的结果是，通过最⼤似然⽅法进⾏的参数最优化，能够将不同输⼊的相对重要性从数据中推断出来。这是⾼斯过程中的⾃动相关性确定（automatic relevance detemination）或者ARD的⼀个例⼦。它起源于神经⽹络的框架（MacKay, 1994; Neal,1996）。这种⽅法倾向于选择合适的输⼊的机理在7.2.2节讨论。
考虑⼆维输⼊空间 $\mathbf{x}=\left(x_{1}, x_{2}\right)$ ，有⼀个下⾯形式的核函数 $k\left(\mathbf{x}, \mathbf{x}^{\prime}\right)=\theta_{0} \exp \left\{-\frac{1}{2} \sum_{i=1}^{2} \eta_{i}\left(x_{i}-x_{i}^{\prime}\right)^{2}\right\}$
在这里插入图片描述
当某个维度的参数值越小，则对该维度的输入越不敏感。也就是说通过这个参数，可以对无用的参数进行删减。
图6.10使⽤⼀个具有三个输⼊ $x_{1}, x_{2}$ and $x_{3}$ 的简单⼈造数据集来说明ARD（Nabney, 2002）。⽬标变量 $t$ 的⽣成⽅式为：从⼀个⾼斯分布中采样100个 $x_{1}$ ，计算函数 $\sin \left(2 \pi x_{1}\right)$ ，然后加上添加上⾼斯噪声。 $x_2$ 的值通过复制对应的 $x_1$ 然后添加噪声的⽅式获得， $x_3$ 的值从⼀个独⽴的⾼斯分布中采样。因此， $x_1$ 很好地预测了 $t$ ， $x_2$ 对 $t$ 的预测的噪声更⼤， $x_3$ 与 $t$ 之间只有偶然的相关性。⼀个带有ARD参数 $\eta_{1}, \eta_{2}, \eta_{3}$ 的⾼斯过程的边缘似然函数使⽤放缩的共轭梯度算法进⾏最优化。从图6.10中，我们看到 $\eta_{1}$ 收敛到了⼀个相对较⼤的值， $\eta_{2}$ 收敛到了⼀个⼩得多的值， $\eta_{3}$ 变得⾮常⼩，表明 $x_3$ 与预测 $t$ ⽆关。
在这里插入图片描述
ARD框架很容易整合到指数-⼆次核中，得到下⾯形式的核函数，它对于⼀⼤类将⾼斯过程应⽤于回归问题的实际应⽤都很有帮助。
$k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right)=\theta_{0} \exp \left\{-\frac{1}{2} \sum_{i=1}^{D} \eta_{i}\left(x_{n i}-x_{m i}\right)^{2}\right\}+\theta_{2}+\theta_{3} \sum_{i=1}^{D} x_{n i} x_{m i}$

6.4.5 Gaussian processes for classification

在分类的概率⽅法中，我们的⽬标是在给定⼀组训练数据的情况下，对于⼀个新的输⼊向量，为⽬标变量的后验概率建模。这些概率⼀定位于区间 $(0, 1)$ 中，⽽⼀个⾼斯过程模型做出的预测位于整个实数轴上。然⽽，我们可以很容易地调整⾼斯过程，使其能够处理分类问题。⽅法为：使⽤⼀个恰当的⾮线性激活函数，将⾼斯过程的输出进⾏变换。
考虑一个二分类问题， $\in\{0,1\}$ ，利用定义函数 $a(\mathbf{x})$ 符合高斯过程，然后利用sigmoid函数转化为 $y=\sigma(a)$ ，此时就能符合概率区间。
在这里插入图片描述
则 $a)=\sigma(a)^{t}(1-\sigma(a))^{1-t}$ 我们的目标是在给定训练数据 $\mathbf{x}_{1}, \dots, \mathbf{x}_{N}$ 和 $\mathbf{t}=\left(t_{1}, \dots, t_{N}\right)^{\mathrm{T}}$ ，在新数据 $\mathbf{x}_{N+1}$ with target value $t_{N+1}$ 。利用训练数据预测新数据 $p\left(t_{N+1} | \mathbf{t}\right)$ ，对 $a(\mathbf x)$ 引入高斯过程先验 $p\left(\mathbf{a}_{N+1}\right)=\mathcal{N}\left(\mathbf{a}_{N+1} | \mathbf{0}, \mathbf{C}_{N+1}\right)$ 与回归的情形不同，协⽅差矩阵不再包含噪声项，因为我们假设所有的训练数据点都被正确标记。然⽽，由于数值计算的原因，更⽅便的做法是引⼊⼀个由参数 $\nu$ 控制的类似噪声的项，它确保了协⽅差矩阵是正定的。因此协⽅差矩阵 $\mathbf{C}_{N+1}$ 的元素为 $C\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right)=k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right)+\nu \delta_{n m}$ 其中 $k\left(\mathbf{x}_{n}, \mathbf{x}_{m}\right)$ 为核函数，其参数为 $\theta$ ，可以从训练数据集中训练到。而 $\nu$ 为预先给定的数。
则 $p\left(t_{N+1}=1 | \mathbf{t}_{N}\right)=\int p\left(t_{N+1}=1 | a_{N+1}\right) p\left(a_{N+1} | \mathbf{t}_{N}\right) \mathrm{d} a_{N+1}$ 其中 $p\left(t_{N+1}=1 | a_{N+1}\right)=\sigma\left(a_{N+1}\right)$ 。以上的积分是没有解析解的。只能通过近似的方法。对于sigmoid与高斯的积分，在4.5.2中有 $\int \sigma(a) \mathcal{N}\left(a | \mu, \sigma^{2}\right) \mathrm{d} a \simeq \sigma\left(\kappa\left(\sigma^{2}\right) \mu\right)$ 那么只要把后验 $p\left(a_{N+1} | \mathbf{t}_{N}\right)$ 近似为高斯即可。

6.4.6 Laplace approximation

$\begin{aligned} p\left(a_{N+1} | \mathbf{t}_{N}\right) &=\int p\left(a_{N+1}, \mathbf{a}_{N} | \mathbf{t}_{N}\right) \mathrm{d} \mathbf{a}_{N} \\ &=\frac{1}{p\left(\mathbf{t}_{N}\right)} \int p\left(a_{N+1}, \mathbf{a}_{N}\right) p\left(\mathbf{t}_{N} | a_{N+1}, \mathbf{a}_{N}\right) \mathrm{d} \mathbf{a}_{N} \\ &=\frac{1}{p\left(\mathbf{t}_{N}\right)} \int p\left(a_{N+1} | \mathbf{a}_{N}\right) p\left(\mathbf{a}_{N}\right) p\left(\mathbf{t}_{N} | \mathbf{a}_{N}\right) \mathrm{d} \mathbf{a}_{N} \\ &=\int p\left(a_{N+1} | \mathbf{a}_{N}\right) p\left(\mathbf{a}_{N} | \mathbf{t}_{N}\right) \mathrm{d} \mathbf{a}_{N} \end{aligned}$ 而 $p\left(a_{N+1} | \mathbf{a}_{N}\right)=\mathcal{N}\left(a_{N+1} | \mathbf{k}^{\mathrm{T}} \mathbf{C}_{N}^{-1} \mathbf{a}_{N}, c-\mathbf{k}^{\mathrm{T}} \mathbf{C}_{N}^{-1} \mathbf{k}\right)$ 对于 $p\left(\mathbf{a}_{N} | \mathbf{t}_{N}\right)$ 采用拉普拉斯近似。似然为 $p\left(\mathbf{t}_{N} | \mathbf{a}_{N}\right)=\prod_{n=1}^{N} \sigma\left(a_{n}\right)^{t_{n}}\left(1-\sigma\left(a_{n}\right)\right)^{1-t_{n}}=\prod_{n=1}^{N} e^{a_{n} t_{n}} \sigma\left(-a_{n}\right)$ 则寻找后验的众数 $\begin{aligned} \Psi\left(\mathbf{a}_{N}\right)=& \ln p\left(\mathbf{a}_{N}\right)+\ln p\left(\mathbf{t}_{N} | \mathbf{a}_{N}\right) \\=&-\frac{1}{2} \mathbf{a}_{N}^{\mathrm{T}} \mathbf{C}_{N}^{-1} \mathbf{a}_{N}-\frac{N}{2} \ln (2 \pi)-\frac{1}{2} \ln \left|\mathbf{C}_{N}\right|+\mathbf{t}_{N}^{\mathrm{T}} \mathbf{a}_{N} \\ &-\sum_{n=1}^{N} \ln \left(1+e^{a_{n}}\right)+\text { const. } \end{aligned}$ $\nabla \Psi\left(\mathbf{a}_{N}\right)=\mathbf{t}_{N}-\boldsymbol{\sigma}_{N}-\mathbf{C}_{N}^{-1} \mathbf{a}_{N}$ 上式令其为0，是解不出来的，其中 $\boldsymbol{\sigma}_{N}$ 为 $\sigma\left(a_{n}\right)$ 组成的向量，与 $a_n$ 有关。那么可以采用迭代的方式。我们还需要二阶导数 $\nabla \nabla \Psi\left(\mathbf{a}_{N}\right)=-\mathbf{W}_{N}-\mathbf{C}_{N}^{-1}$ 其中 $\mathbf{W}_{N}$ is a diagonal matrix with elements $\sigma\left(a_{n}\right)\left(1-\sigma\left(a_{n}\right)\right)$ 。可以证明海森矩阵 $\mathbf{A}=-\nabla \nabla \Psi\left(\mathbf{a}_{N}\right)$ 为正定的，则有唯一的众数。采用迭代算法更新 $\mathbf{w}^{(\text { new })}=\mathbf{w}^{(\text { old })}-\mathbf{H}^{-1} \nabla E(\mathbf{w})$ 则 $\mathbf{a}_{N}^{\mathrm{new}}=\mathbf{C}_{N}\left(\mathbf{I}+\mathbf{W}_{N} \mathbf{C}_{N}\right)^{-1}\left\{\mathbf{t}_{N}-\boldsymbol{\sigma}_{N}+\mathbf{W}_{N} \mathbf{a}_{N}\right\}$ 迭代至 $\boldsymbol{a}_{N}^{\star}$ ，再计算海森矩阵 $\mathbf{H}=-\nabla \nabla \Psi\left(\mathbf{a}_{N}\right)=\mathbf{W}_{N}+\mathbf{C}_{N}^{-1}$ 最后得到的近似高斯分布为 $q\left(\mathbf{a}_{N}\right)=\mathcal{N}\left(\mathbf{a}_{N} | \mathbf{a}_{N}^{\star}, \mathbf{H}^{-1}\right)$ 则最终积分后为 $\begin{aligned} \mathbb{E}\left[a_{N+1} | \mathbf{t}_{N}\right] &=\mathbf{k}^{\mathrm{T}}\left(\mathbf{t}_{N}-\boldsymbol{\sigma}_{N}\right) \\ \operatorname{var}\left[a_{N+1} | \mathbf{t}_{N}\right] &=c-\mathbf{k}^{\mathrm{T}}\left(\mathbf{W}_{N}^{-1}+\mathbf{C}_{N}\right)^{-1} \mathbf{k} \end{aligned}$ 再采用sigmoid与高斯的积分就能得到 $p\left(t_{N+1}=1 | \mathbf{t}_{N}\right)$ 的分布。
对于核函数中的参数仍然可以采用最大似然的方式去优化 $p\left(\mathbf{t}_{N} | \boldsymbol{\theta}\right)=\int p\left(\mathbf{t}_{N} | \mathbf{a}_{N}\right) p\left(\mathbf{a}_{N} | \boldsymbol{\theta}\right) \mathrm{d} \mathbf{a}_{N}$
在这里插入图片描述