PRML读书笔记——Kernel Methods

最新推荐文章于 2021-06-10 21:58:39 发布

GZGlenn

最新推荐文章于 2021-06-10 21:58:39 发布

阅读量2k

点赞数

分类专栏：机器学习文章标签：读书笔记 PRML 核函数构造核高斯过程

本文链接：https://blog.csdn.net/hubin232/article/details/70245326

版权

机器学习专栏收录该内容

13 篇文章 1 订阅

订阅专栏

本章主要介绍核方法相关的知识，包括对偶表示、构造核、常见的核函数以及将核方法应用于高斯过程

核方法介绍

许多线性参数模型可以被转化为一个等价的“对偶表示”。对偶表示中，预测的基础也是在训练数据点处计算的核函数的线性组合。对于基于固定非线性特征空间映射 $\phi (x)$ 的模型来说，核函数由下面的关系给出：

k (x, x') = ϕ (x) T ϕ (x')

$k(x,x^{'})=\phi (x)^{T} \phi (x^{'})$

根据这个定义，核函数关于它的参数是对称的。

核替换：如果我们有一个算法，它的输入向量x只以标量积的形式出现，那么我们可以用一些其他的核来替换这个标量积

线性核：当 $\phi (x)=x$ ， $k(x,x^{'})=x^{T}x^{'}$ ，此为线性核
静止核：核函数只是参数的差值的函数，即 $k(x,x^{'})=k(x-x^{'})$ ，它们对于输入空间的平移具有不变性
同质核：也被称为径向基函数，只依赖于参数间的距离大小，即 $k(x,x^{'})=k(||x-x^{'}||)$

对偶表示

对偶表示本质就是将函数中的参数用已有数据表示

比如正则化的平方和误差函数：

J (w) = 1 2 \sum n = 1 N {w T ϕ (x n) - t n} 2 + λ 2 w T w

$J(w)=\frac{1}{2}\sum_{n=1}^{N}\left \{ w^{T}\phi(x_{n})-t_{n} \right \}^{2}+\frac{\lambda }{2}w^{T}w$

求导求解最小值后，得：

w = - 1 λ \sum n = 1 N {w T ϕ (x n) - t n} ϕ (x n) = \sum n = 1 N a n ϕ (x n) = Φ T a

$w=-\frac{1}{\lambda}\sum_{n=1}^{N}\left \{ w^{T}\phi(x_{n})-t_{n} \right \}\phi(x_{n})=\sum_{n=1}^{N}a_{n}\phi(x_{n})=\Phi^{T}a$

则新的线性回归模型为：

y (x) = w T ϕ (x) = k (x) T (K + λ I N) - 1 t

$y(x)=w^{T}\phi (x)=k(x)^{T}(K+\lambda I_{N})^{-1}t$

其中， $k=\Phi \Phi^{T}$ 是Gram矩阵， $\Phi$ 是设计矩阵，第n行为 $\phi(x_{n})^{T}$ ，而k(x)就是对应的核函数

这里就消去了参数w，整个公式只用训练数据表示

对偶公式的优点是，它可以完全通过核函数来表示，于是，我们可以直接针对核函数进行计算，避免了显式引入特征向量，是的我们可以隐式地使用高位特征空间，甚至是无限维特征空间。

构造核

所谓的核替换就是考虑到目前的问题复杂，通过构造核函数取代问题中的复杂部分，形成相对简单的表达形式

为了利用核替换，我们需要构造合法的核函数。有三种方法。

方法一

第一种是选择一个特征空间映射 $\phi (x)$ ，然后使用这个映射寻找对应的核。如：

k (x, x') = Φ (x) T Φ (x') = \sum i = 1 M ϕ i (x) ϕ i (x')

$k(x,x^{'}) = \Phi(x)^{T}\Phi(x^{'})=\sum_{i=1}^{M}\phi_{i}(x)\phi_{i}(x^{'})$

方法二

第二种是直接构造核函数，一般方法是使用简单的核函数作为基本的模块来构造，它有一些基本的公式：

给定合法的核 $k_{1}(x,x^{'})$ 和 $k_{2}(x,x^{'})$ ，则下面的新核也是合法的

k (x, x') = c k 1 (x, x')

$k(x,x^{'}) = ck_{1}(x,x^{'})$

k (x, x') = f (x) k 1 (x, x') f (x')

$k(x,x^{'}) = f(x)k_{1}(x,x^{'})f(x^{'})$

k (x, x') = q (k 1 (x, x'))

$k(x,x^{'}) = q(k_{1}(x,x^{'}))$

k (x, x') = e x p (k 1 (x, x'))

$k(x,x^{'}) = exp(k_{1}(x,x^{'}))$

k (x, x') = k 1 (x, x') + k 2 (x, x')

$k(x,x^{'}) = k_{1}(x,x^{'})+k_{2}(x,x^{'})$

k (x, x') = k 1 (x, x') k 2 (x, x')

$k(x,x^{'}) = k_{1}(x,x^{'})k_{2}(x,x^{'})$

k (x, x') = k 3 (ϕ (x), ϕ (x'))

$k(x,x^{'}) = k_{3}(\phi (x), \phi (x^{'}))$

k (x, x') = x T A x'

$k(x,x^{'}) = x^{T}Ax^{'}$

k (x, x') = k a (x a, x' a) + k b (x b, x' b)

$k(x,x^{'}) = k_{a}(x_{a}, x_{a}^{'}) + k_{b}(x_{b}, x_{b}^{'})$

k (x, x') = k a (x a, x' a) k b (x b, x' b)

$k(x,x^{'}) = k_{a}(x_{a}, x_{a}^{'})k_{b}(x_{b}, x_{b}^{'})$

其中， $q(x)$ 是系数非负的多项式，A是对称半正定矩阵

方法三

第三种方法是从一个概率生成式模型开始构造，这使得我们可以在一个判别式的框架下使用生成式模型。生成式模型可以自然地处理缺失数据，并且在隐马尔科夫模型的情况下，可以处理长度变化的序列。相反，判别式模型在判别式的任务中通常会比生成式模型的表现更好。

下面举一个例子，给定一个生成式模型，可以定义一个核：

k (x, x') = p (x) p (x')

$k(x,x^{'})=p(x)p(x^{'})$

这个核函数可以看成由映射 $p(x)$ 定义的⼀维特征空间中的⼀个内积。它表明，如果两个输⼊ $x$ 和 $x^{'}$ 都具有较⾼的概率，那么它们就是相似的。

则由基本构造核的方法，有：

k (x, x') = \sum i p (x | i) p (x' | i) p (i)

$k(x,x^{'})=\sum _{i}p(x|i)p(x^{'}|i)p(i)$

k (x, x') = \int p (x | z) p (x' | z) p (z)

$k(x,x^{'})=\int p(x|z)p(x^{'}|z)p(z)$

这个核函数可以用于度量两个序列 $X$ 和 $X^{'}$ 的相似性。

提起核函数，还需要补充mercer定理：任何半正定的函数都可以作为核函数。所谓半正定的函数 $f(x_{i},x_{j})$ ，是指拥有训练数据集合 $(x_{1},x_{2},...x_{n})$ ，我们定义一个矩阵的元素 $a_{ij} = f(x_{i},x_{j})$ ，这个矩阵式 $n \times n$ 的，如果这个矩阵是半正定的，那么 $f(x_{i},x_{j})$ 就称为半正定的函数。这个mercer定理不是核函数必要条件，只是一个充分条件，即还有不满足mercer定理的函数也可以是核函数

径向基函数

径向基函数中，每个基函数只依赖于样本和中心 $u_{j}$ 之间的距离，即

ϕ j (x) = h (| | x - u j | |)

$\phi_{j}(x)=h(||x - u_{j}||)$

考虑函数内插的问题。假设给定一组输入变量 $\left \{ x_{1},x_{2},...,x_{N}\right \}$ ，以及对应的目标值 $\left \{ t_{1},t_{2},...,t_{N}\right \}$ ，目标是找到函数f(x)，能够精确你和每个目标值，即 $f(x_{n})=t_{n}$ 。可以定义这样的公式：

f (x) = \sum n = 1 N w n h (| | x - x n | |)

$f(x)=\sum_{n=1}^{N}w_{n}h(||x-x_{n}||)$

Nadaraya-Watson 模型(核回归)：

核回归不同于线性回归，不对r(x)的形式做任何假定。而是参考核密度估计
的方法，利用点x附近的Y的甲醛平均得到r(x)的结果。

回忆回归方程的定义：

r (x) = E (Y | X = x) = \int y f (y | x) d y = \int y f ( x , y ) d y f ( x , y ) d y = \int y f ( x , y ) d y f ( x )

$r(x)=E(Y|X=x)=\int yf(y|x)dy=\frac{\int yf(x,y)dy}{f(x,y)dy}=\frac{\int yf(x,y)dy}{f(x)}$

用核密度估计的方法，有：

r ˆ (x) = \sum n i = 1 K h ( x , x i ) y i \sum n j = 1 K h ( x , x j )

$\widehat{r}(x)=\frac{\sum_{i=1}^{n}K_{h}(x,x_{i})y_{i}}{\sum_{j=1}^{n}K_{h}(x,x_{j})}$

这可以被看做是对y取一个加权平均，对x附近的值给予更高的权重

这里写图片描述

高斯过程

定义：一组随机变量的集合，集合里的任意有限个随机变量都服从联合高斯分布

从贝叶斯线性回归自然引出高斯过程，线性回归方程为

y (x) = w T ϕ (x)

$y(x)=w^{T}\phi(x)$

贝叶斯方法考虑参数w上的一个先验概率分布

p (w) = N (w | 0, α - 1 I)

$p(w)=N(w|0,\alpha ^{-1}I)$

这实质上导致了函数有一个预测分布，而且是高斯分布。它对应的均值为

E (y) = Φ E (w) = 0

$E(y)=\Phi E(w)=0$

方差为

c o v [y] = E (y y T) = 1 α Φ Φ = K

$cov[y]=E(yy^{T})=\frac{1}{\alpha }\Phi \Phi=K$

这里K是gram矩阵，满足 $K_{nm}=k(x_{n},x_{m})=\frac{1}{\alpha }\phi(x_{n})^{T} \phi(x_{m})$ 。所以是一个核函数的形式。

总体而言，预测结果满足 $p(y)=N(y|0,K)$

用于回归的高斯过程

用高斯过程来做回归，则我们的观测目标值的噪声，形式为：

t n = y n + ϵ n

$t_{n}=y_{n}+\epsilon _{n}$

显然，有

p (t | y) = N (t | y, β - 1 I N)

$p(t|y)=N(t|y,\beta ^{-1}I_{N})$

因此，观测目标的边际分布为：

p (t) = \int p (t | y) p (y) d y = N (t | 0, C)

$p(t)=\int p(t|y)p(y)dy=N(t|0,C)$

其中，矩阵C的元素满足 $C(x_{n},x_{m})=k(x_{n},x_{m})+\beta ^{-1}\delta _{nm}$ ， $\delta$ 是单位矩阵。因此，本质上，估计t的值，只需要估计C的值就行，这包含了一个核矩阵。

对于⾼斯过程回归，⼀个⼴泛使⽤的核函数的形式为指数项的⼆次型加上常数和线性项，即：

k (x n, x m) = θ 0 e x p {- θ 1 2 ∥ x n - x m ∥ 2} + θ 2 + θ 3 x T n x m

$k(x_{n},x_{m})=\theta_{0}exp\left \{ -\frac{\theta_{1}}{2}\left \| x_{n}-x_{m} \right \|^2 \right \}+\theta_{2}+\theta_{3}x_{n}^{T}x_{m}$

下图给出了不同的参数 $θ_{0},...,θ_{3}$ 的情况下，这个先验的图像。

这里写图片描述

现在不难发现， $p(t_{N+1})=N(t_{N+1}|0, C_{N+1})$ ，所以现在只需要根据 $C_{N}$ 估计 $C_{N+1}$ ，推导过程省略，最终结果为：

C = (C N k T k c)

$C=\begin{pmatrix} C_{N} & k \\ k^{T} & c \end{pmatrix}$

其中， $C_{N}$ 是⼀个 $N \times N$ 的协⽅差矩阵，向量k的元素为k(xn, xN+1)，其中n = 1, … ,N，标量c = k(xN+1, xN+1) + β−1

我们最终的目的是得到 $p(t_{N+1}|t)$ ，这两个变量都是高斯分布，可以利用条件高斯分布的公式求解，最终得到的结果是这个概率分布是高斯分布，均值和协方差为：

m (x N + 1) = k T C - 1 N t

$m(x_{N+1})=k^{T}C_{N}^{-1}t$

σ 2 (x N + 1) = c - k T C - 1 N k

$\sigma ^{2}(x_{N+1})=c-k^{T}C_{N}^{-1}k$

注意，上面这两个结果对应了具有任意核函数 $k(x,x^{'})$ 的高斯过程回归。

学习超参数

⾼斯过程模型的预测部分依赖于协⽅差函数的选择。我们不固定协⽅差函数，⽽是使⽤⼀组带有参数的函数，这些参数控制了相关性的长度缩放以及噪声的精度等等，对应于标准参数模型的超参数。下面说明求解这些超参的方法。

使⽤多元⾼斯分布的标准形式，对数似然函数的形式为：

l n p (t | θ) = - 1 2 l n ∣ ∣ C N ∣ ∣ - 1 2 t T C - 1 N t - N 2 l n (2 π)

$ln\ p(t|\theta)=-\frac{1}{2}ln\ \left | C_{N} \right |-\frac{1}{2}t^{T}C_{N}^{-1}t-\frac{N}{2}ln\ (2\pi)$

直接对参数求导，取极值即可，求导结果如下：

\partial \partial θ i l n p (t | θ) = - 1 2 T r (C - 1 N \partial C N \partial θ i) + 1 2 t T C - 1 N \partial C N \partial θ i C - 1 N t

$\frac{\partial }{\partial \theta_{i}}ln\ p(t|\theta)=-\frac{1}{2}Tr\left ( C_{N}^{-1}\frac{\partial C_{N}}{\partial \theta_{i}} \right )+\frac{1}{2}t^{T}C_{N}^{-1}\frac{\partial C_{N}}{\partial \theta_{i}}C_{N}^{-1}t$