【机器学习基础】核方法

最新推荐文章于 2022-06-11 19:32:02 发布

天堂的鸽子

最新推荐文章于 2022-06-11 19:32:02 发布

阅读量859

点赞数 1

分类专栏：机器学习文章标签：机器学习

本文链接：https://blog.csdn.net/TIANTANGDEGEZI/article/details/102695267

版权

本系列为《模式识别与机器学习》的读书笔记。

一，对偶表示

有这样⼀类模式识别的技术：训练数据点或者它的⼀个⼦集在预测阶段仍然保留并且被使⽤。许多线性参数模型可以被转化为⼀个等价的“对偶表⽰”。对偶表⽰中，预测的基础也是在训练数据点处计算的核函数（kernel function）的线性组合。对于基于固定⾮线性特征空间（feature space）映射 $\boldsymbol{\phi}(\boldsymbol{x})$ 的模型来说，核函数由下⾯的关系给出。
$k(\boldsymbol{x},\boldsymbol{x}^{\prime})=\boldsymbol{\phi}(\boldsymbol{x})^{T}\boldsymbol{\phi}(\boldsymbol{x^{\prime}})\tag{6.1}$
通过考虑公式(6.1)中特征空间的恒等映射 $\boldsymbol{\phi}(\boldsymbol{x})=\boldsymbol{x}$ ，就得到了核函数的⼀个最简单的例⼦，此时 $k\boldsymbol{(x}, \boldsymbol{x}^{\prime}) =\boldsymbol{x}^{T}\boldsymbol{x}^{\prime}$ ，把这个称为线性核。

许多核函数只是参数的差值的函数，即 $k(\boldsymbol{x},\boldsymbol{x}^{\prime})=k(\boldsymbol{x}−\boldsymbol{x}^{\prime})$ ，这被称为静⽌核（stationary kernel），因为核函数对于输⼊空间的平移具有不变性。另⼀种核函数是同质核（homogeneous kernel），也被称为径向基函数（radial basis function），它只依赖于参数之间的距离（通常是欧⼏⾥得距离）的⼤⼩，即 $k(\boldsymbol{x},\boldsymbol{x}^{\prime})=k(\|\boldsymbol{x}−\boldsymbol{x}^{\prime}\|)$ 。

考虑⼀个线性模型，它的参数通过最⼩化正则化的平⽅和误差函数来确定，正则化的平⽅和误差函数为
$J(\boldsymbol{w})=\frac{1}{2}\sum_{n=1}^{N}\{\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x}_n)-t_n\}^{2}+\frac{\lambda}{2}\boldsymbol{w}^{T}\boldsymbol{w}\tag{6.2}$
其中 $\lambda\ge0$ 。如果令 $J(\boldsymbol{w})$ 关于 $\boldsymbol{w}$ 的梯度等于零，那么看到 $\boldsymbol{w}$ 的解是向量 $\boldsymbol{\phi}(\boldsymbol{x}_n)$ 的线性组合的形式，系数是 $\boldsymbol{w}$ 的函数，形式为
$\begin{aligned}\boldsymbol{w}&=-\frac{1}{\lambda}\sum_{n=1}^{N}\{\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x}_n)-t_n\}\boldsymbol{\phi}(\boldsymbol{x}_n)\\&=\sum_{n=1}^{N}a_n\boldsymbol{\phi}(\boldsymbol{x}_n)=\boldsymbol{\Phi}^{T}\boldsymbol{a}\end{aligned}\tag{6.3}$
其中 $\boldsymbol{\Phi}$ 是设计矩阵，第 $n$ ⾏为 $\boldsymbol{\phi}(\boldsymbol{x}_n)^{T}$ ，向量 $\boldsymbol{a}=(a_1,\dots,a_N)^{T}$ ，并且
$a_n=-\frac{1}{\lambda}\{\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x})-t_n\}$
现在不直接对参数向量 $\boldsymbol{w}$ 进⾏操作，⽽是使⽤参数向量 $\boldsymbol{a}$ 重新整理最⼩平⽅算法，得到⼀个对偶表⽰（dual representation）。如果将 $\boldsymbol{w}=\boldsymbol{\Phi}^{T}\boldsymbol{a}$ 代⼊ $J(\boldsymbol{w})$ ，那么可以得到
$J(\boldsymbol{a})=\frac{1}{2}\boldsymbol{a}^{T}\boldsymbol{\Phi}\boldsymbol{\Phi}^{T}\boldsymbol{\Phi}\boldsymbol{\Phi}^{T}\boldsymbol{a}-\boldsymbol{a}^{T}\boldsymbol{\Phi}\boldsymbol{\Phi}^{T}\mathbf{t}+\frac{1}{2}\mathbf{t}^{T}\mathbf{t}+\frac{\lambda}{2}\boldsymbol{a}^{T}\boldsymbol{\Phi}\boldsymbol{\Phi}^{T}\boldsymbol{a}\tag{6.4}$
其中 $\mathbf{t}=(t_1,\dots, t_N)^{T}$ 。现在定义 Gram矩阵 $\boldsymbol{K}=\boldsymbol{\Phi}\boldsymbol{\Phi}^{T}$ ，它是⼀个 $\times N$ 的对称矩阵，元素为
$K_{nm}=\boldsymbol{\phi}(\boldsymbol{x}_n)^{T}\boldsymbol{\phi}(\boldsymbol{x}_m)=k(\boldsymbol{x}_n,\boldsymbol{x}_m)$
使⽤Gram矩阵，平⽅和误差函数可以写成
$J(\boldsymbol{a})=\frac{1}{2}\boldsymbol{a}^{T}\boldsymbol{K}\boldsymbol{K}\boldsymbol{a}-\boldsymbol{a}^{T}\boldsymbol{K}\mathbf{t}+\frac{1}{2}\mathbf{t}^{T}\mathbf{t}+\frac{\lambda}{2}\boldsymbol{a}^{T}\boldsymbol{K}\boldsymbol{a}\tag{6.5}$
有，
$\boldsymbol{a}=(\boldsymbol{K}+\lambda\boldsymbol{I}_{N})^{-1}\mathbf{t}\tag{6.6}$
如果将这个代⼊线性回归模型中，对于新的输⼊ $\boldsymbol{x}$ ，得到了下⾯预测
$y(\boldsymbol{x})=\boldsymbol{w}^{T}\boldsymbol{\phi}(\boldsymbol{x})=\boldsymbol{a}^{T}\boldsymbol{\Phi}\boldsymbol{\phi}(\boldsymbol{x})=\boldsymbol{k}(\boldsymbol{x})^{T}(\boldsymbol{K}+\lambda\boldsymbol{I}_N)^{-1}\mathbf{t}\tag{6.7}$
其中定义了向量 $\boldsymbol{k}(\boldsymbol{x})$ ，它的元素为 $k_n(\boldsymbol{x})=k(\boldsymbol{x}_n,\boldsymbol{x})$ 。因此看到对偶公式使得最⼩平⽅问题的解完全通过核函数 $k(\boldsymbol{x},\boldsymbol{x}^{\prime})$ 表⽰。这被称为对偶公式，因为 $\boldsymbol{a}$ 的解可以被表⽰为 $\boldsymbol{\phi}(\boldsymbol{x})$ 的线性组合，从⽽可以使⽤参数向量 $\boldsymbol{w}$ 恢复出原始的公式。

在对偶公式中，通过对⼀个 $\times N$ 的矩阵求逆来确定参数向量 $\boldsymbol{a}$ ，⽽在原始参数空间公式中，我们要对⼀个 $\times M$ 的矩阵求逆来确定 $\boldsymbol{w}$ 。对偶公式的优点是，它可以完全通过核函数 $k(\boldsymbol{x},\boldsymbol{x}^{\prime})$ 来表⽰。于是可以直接针对核函数进⾏计算，避免了显式地引⼊特征向量 $\boldsymbol{\phi}(\boldsymbol{x})$ ，这使得可以隐式地使⽤⾼维特征空间，甚⾄⽆限维特征空间。

二，构造核

为了利⽤核替换，需要能够构造合法的核函数。⼀种⽅法是选择⼀个特征空间映射 $\boldsymbol{\phi}(\boldsymbol{x})$ ，然后使⽤这个映射寻找对应的核。⼀维空间的核函数被定义为
$k(x,x^{\prime})=\boldsymbol{\phi}(x)^{T}\boldsymbol{\phi}（x^{\prime}=\sum_{i=1}^{M}\phi_{i}(x)\phi_i(x^{\prime})\tag{6.8}$
其中 $\phi_i(x)$ 是基函数。

如图6.1～6.3，从对应的基函数集合构建核函数的例⼦。在每⼀图中，下部分给出了由公式(6.8)定义的核函数 $k(x,x^{\prime})$ ，它是 $x$ 的函数， $x^{\prime}$ 的值⽤红⾊叉号表⽰，⽽上部分给出了对应的基函数，分别是多项式基函数（图6.1）、⾼斯基函数（图6.2）、logistic sigmoid基函数（图6.3）。

logistic sigmoid基函数
另⼀种⽅法是直接构造核函数。在这种情况下，必须确保核函数是合法的，即它对应于某个（可能是⽆穷维）特征空间的标量积。考虑下⾯的核函数

$k(\boldsymbol{x},\boldsymbol{z})=(\boldsymbol{x}^{T}\boldsymbol{z})^{2}\tag{6.9}$

如果取⼆维输⼊空间 $\boldsymbol{x}=(x_1,x_2)$ 的特殊情况，那么展开这⼀项，于是得到对应的⾮线性特征映射

$\begin{aligned}k(\boldsymbol{x},\boldsymbol{z})&=(\boldsymbol{x}^{T}\boldsymbol{z})^{2}\\&=(x_1z_1+x_2z_2)^{2}\\&=x_1^2z_1^2+2x_1z_1x_2z_2+x_2^2z_2^2\\&=(x_1^2,\sqrt{2}x_1x_2,x_2^2)(z_1^2,\sqrt{2}z_1z_2,z_2^2)^{T}\\&=\boldsymbol{\phi}(\boldsymbol{x})^{T}\boldsymbol{\phi}(\boldsymbol{z})\end{aligned}$

更⼀般地，需要找到⼀种更简单的⽅法检验⼀个函数是否是⼀个合法的核函数，⽽不需要显⽰地构造函数 $\boldsymbol{\phi}(\boldsymbol{x})$ 。核函数 $k(\boldsymbol{x},\boldsymbol{x}^{\prime})$ 是⼀个合法的核函数的充分必要条件是Gram矩阵（元素由 $k(\boldsymbol{x}_n,\boldsymbol{x}_m)$ 给出）在所有的集合 ${\boldsymbol{x}_n}$ 的选择下都是半正定的（Shawe-Taylor and Cristianini, 2004）。

构造新的核函数的⼀个强⼤的⽅法是使⽤简单的核函数作为基本的模块来构造。给定合法的核 $k_1(\boldsymbol{x},\boldsymbol{x}^{\prime})$ 和 $k_2(\boldsymbol{x},\boldsymbol{x}^{\prime})$ ，下⾯的新核也是合法的
$k(\boldsymbol{x},\boldsymbol{x}^{\prime})=ck_1(\boldsymbol{x},\boldsymbol{x}^{\prime})\\ k(\boldsymbol{x},\boldsymbol{x}^{\prime})=f(\boldsymbol{x})k_1(\boldsymbol{x},\boldsymbol{x}^{\prime})f(\boldsymbol{x}^{\prime})\\ k(\boldsymbol{x},\boldsymbol{x}^{\prime})=q(k_1(\boldsymbol{x},\boldsymbol{x}^{\prime}))\\ k(\boldsymbol{x},\boldsymbol{x}^{\prime})=\exp(k_1(\boldsymbol{x},\boldsymbol{x}^{\prime}))\\ k(\boldsymbol{x},\boldsymbol{x}^{\prime})=k_1(\boldsymbol{x},\boldsymbol{x}^{\prime})+k_2(\boldsymbol{x},\boldsymbol{x}^{\prime})\\ k(\boldsymbol{x},\boldsymbol{x}^{\prime})=k_1(\boldsymbol{x},\boldsymbol{x}^{\prime})k_2(\boldsymbol{x},\boldsymbol{x}^{\prime})\\ k(\boldsymbol{x},\boldsymbol{x}^{\prime})=k_3(\boldsymbol{\phi}(\boldsymbol{x}),\boldsymbol{\phi}(\boldsymbol{x}^{\prime}))\\ k(\boldsymbol{x},\boldsymbol{x}^{\prime})=\boldsymbol{x}^{T}\boldsymbol{A}\boldsymbol{x}^{\prime}\\ k(\boldsymbol{x},\boldsymbol{x}^{\prime})=k_a(\boldsymbol{x}_a,\boldsymbol{x}_a^{\prime})+k_b(\boldsymbol{x}_b,\boldsymbol{x}_b^{\prime})\\ k(\boldsymbol{x},\boldsymbol{x}^{\prime})=k_a(\boldsymbol{x}_a,\boldsymbol{x}_a^{\prime})k_n(\boldsymbol{x}_n,\boldsymbol{x}_n^{\prime})\tag{*}\\$