核方法总结————（一）

reept

已于 2024-04-30 20:23:49 修改

阅读量652

点赞数 21

分类专栏：机器学习算法文章标签：人工智能

于 2024-04-30 20:22:08 首次发布

本文链接：https://blog.csdn.net/reept/article/details/138220827

版权

机器学习算法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

一、问题的起由

在线性回归模型 t = Wx + ε 。如果x和t之间有明显的线性关系，则该模型可以取得较好的效果。如果两者线性关系不显著，则模型会出现较大的偏差。对于近似线性分类模型 $y = \sigma (w^{T}x)$ ,

如果x是线性可分的，则该模型可得到较好的分类效果，否则该模型将不再适用。

为解决上述问题，一种方法是对x做非线性映射，得到特征Φ(x),如果Φ(x)和目标变量t之间存在线性关系（回归任务），或Φ(x)本身线性可分（分类任务）,则可以在特征空间建立线性回归模型或近线性分类模型，简介实现复杂数据的线性建模。例如，在二维空间的两类点事线性不可分的，但当用一个非线性函数将数据映射到三维特征空间后，则可实现号的线性分类。

图 1-1 利用非线性映射将二维空间中线性不可分的数据（左图）映射到三维特征空间（右图）变得线性可分

设计一个合理的映射函数φ 并不容易。可以通过参数化的神经网络来学习这一映射，也称为特征学习。但该方法存在几个缺点：

1、特征学习需要对原始数据有很明确的向量表达，否则无法开始学习。在一些实际应用中，将对象表达成数值向量并不容易。

2、特征学习对特征空间的维度由严格限制，维度过高会导致学习困难，然而一些复杂数据必须在较高维的特征空间中才能表现出线性，特征学习在这类任务上无法应用。

3、特征学习特别是基于复杂函数的特征学习是非凸问题，训练容易进入局部最优。

由此，引出另一种对映射函数φ进行设计的方法，也就是核方法。核方法不对φ做显示的表示或学习，而是通过数据间的相关性函数k(x,x')对φ进行隐式定义。

$k(x,x') =\Phi (x)^{T}\Phi (x')$ ----------（1）

有了核函数，我们只需要计算k(x,x') 即可在特征空间中完成拟合或分类任务，而不需要φ的显示表示。优点：

1、该方法只关注数据之间的关系，而不是数据本身，因此特别适合数据对象难以用向量明确表达的任务。

2、由k(x,x')引导出来的φ可能有非常高的维度，甚至是无限维，因此可以满足复杂数据在特征空间线性化的要求。

3、最后特征空间的模型是线性的，因此模型训练是一个凸优化问题，可保证得到全局最优解。

以上只是从方法上概略的引出了核函数和核方法，并没有在在具体的机器学习模型中推导，因此下文就以简单的线性回归任务为例，进行具体的推导，从而可以更具体的理解核方法。

二、从线性回归到核方法

线性回归模型可以定义如下：

$y(x;w) = \Phi (x)^{T}w$ -----(2-1)

其中 $\Phi$ (x) 是线性回归模型的通用映射，以兼顾y与x不直接呈线性情况，也就是 $\Phi$ (x)后，与y呈线性关系。当 $\Phi$ (x) = x 就是一般情况。给定一组训练数据 $\{{(x_{n},t_{n}): n = 1,2,...,N}\}$ ,则该模型可以写成如下矩阵形式的回归：

$\mathbf{y} = \Phi ^{T}w$ ------(2-2)

其中， $\Phi =[\phi (x_{1}),...,\phi (x_{N})]$ 是一个m*N矩阵。 $\phi (x_{1}) = [\phi_{0} (x_{1}),...,\phi_{m} (x_{1})]^{T}$ 对x1做的m类映射，代表了一个样本。因此 $\Phi^{T} =[\phi (x_{1})^{T},...,\phi (x_{N})^{T}]^{T}$ ---(2-2-1)。如果上述回归模型引入L2正则约束，定义目标函数，通过目标函数最优化求解，可以最终得到权重公式：

$w = (\Phi \Phi ^{T} + \lambda I)^{-1}\Phi t$ -------(2-3)

其中， $t = [t_{1},...,t_{N}]^{T}$ 是目标变量的观察值。

以上是w的一种解法，可以选择另一种方法对上述回归模型求解，就是将参数理解为由已知的训练集进行加权运算得到，即：

$w = \Phi \alpha$ -------(2-4)

$\alpha \in R^{N}$ 是每个样本的权重，如果求得了α，也就求得了w。

$y = \Phi ^{T}w = \Phi ^{T}\Phi \alpha$ ------(2-5)

其中 $K \in R^{N\times N}$ 定义了训练集中中任意一对数据样本之间的内积，称为Gram矩阵，其元素 $k_{ij}$ 定义为：

$k_{ij} = \phi (x_{i})^{T}\phi (x_{j}) = k(x_{i},x_{j})$ --------(2-6)

即可用一个二元的k函数运算来代替映射函数的内积，而不需要知道 $\phi$ 的具体形式。

（2）式同样引入L2正则优化后可以得出解：

$\alpha = (K + \lambda I)^{-1} t$ -------------(2-7)

将（7）式和（4）式代入（1）式可得：

$y(x_{*}) = \phi (x_{*})^{T}w = \phi (x_{*})^{T}\Phi \alpha = \phi (x_{*})^{T}\Phi (K+\lambda I)^{-1}t = k (x_{*})^{T}(K+\lambda I)^{-1}t$ -------(2-8)

$k(x_{*}) = \Phi ^{T}\phi (x_{*}) = [\phi (x_{1})^{T}\phi (x_{*}),...,\phi (x_{N})^{T}\phi (x_{*})]^{T}$ ------------(2-9)

观察（2-8）式可见，线性回归存在另一种不同的解法，在这一解法中，不需要显式地求出模型参数w,也不需要明确定义 $\phi$ 映射函数，只需要训练数据之间的关系K和测试数据与训练数据的关系 $k(x_{*})$ K和 $k(x_{*})$ 都基于（2-6）所定义的关系函数K(. , .)。而这个函数k就称为和函数，相应的方法为核方法。

由上可见，这一方法提供了一种全新的学习思路，在这种学习中，用训练数据集合代替参数模型，用数据间的关系代替数据本身，后面我们会看到，描述数据关系的核函数k,事实上隐形定义了映射函数，而且这一映射的复杂度可能远远超过人为定义的映射，因而可以用于在复杂映射 $\phi$ 函数条件下才有线性关系的数据学习。

三、再生核希尔伯特空间与Mercer定理

根据（1）式，已知映射函数 $\phi$ ，可以通过 $\phi$ (x) 和 $\phi$ (z) 的内积求得对称半正定的核函数K(x,z)。反过来，如果已知一个二元函数K(x,z)，能否找到一个特征变换 $\phi$ ，使得（1）式成立，或者说K满足什么条件才能找到特征变换 $\phi$ ，满足（1）式而成为核函数。

问题涉及到希尔伯特空间和再生核希尔伯特空间，希尔伯特空间是一个内积空间，当这个内积空间作为一个赋范向量空间完备化后，就成为希尔伯特空间。再生核希尔伯特空间是指根据一个实值函数构成的希尔伯特空间，且满足如下条件：对在此空间上的任一函数 $f$ ,都可以通过如下方式生成：

$f(x) = <f,K_{x}>$ --------------（3-1）

（即 $f$ 可以通过自身与定义在希尔伯特空间H中的一个函数的内积再生成。满足这个条件的希尔伯特空间称之为再生核希尔伯特空间，这个函数 $K_{x}$ 称之为再生核。）

（公式 3-1 注解：其中x是定义域X中的任一取值， $K_{x}$ 是被x定义希尔伯特空间H上的一个函数（实际上就是一个再生核，根据3-1式，如果不是再生核则不能任意生成f）。同理，x' 对另一取值所定义的函数 $K_{x^{'}}$ ,也可以用上述方式生成。用 $K_{x^{'}}$ 代替上式的 $f$ ，则有：

$K_{x^{'}}(x) = <K_{x^{'}},K_{x^{}}>$ ---------------（3-2)

依内积的对称性，显然有 $K_{x^{'}}(x) = K_{x^{}}(x)$ 。由此，该RKHS中的所有函数可以有下列二元函数生成：

$k(x,x^{'})= <K_{x^{'}},K_{x^{}}>$ -----------------（3-3）

由于 $K(x,x^{'})$ 由内积定义，因此是对称半正定的，这意味着每个RKHS空间至少对应一个对称半正定的二元函数(可以由这个二元函数生成)，这说明如果已知一个函数m是核函数即满足定义（1）（可以由希尔伯特空间上的两个函数内积生成），通过该函数构成的再生核希尔伯特空间，在此空间可以找到一个对称半正定二元函数来生成（内积）此空间的所有函数，因此也可以用该函数来生成在此空间上的m函数，所以这个核函数m一定是对称半正定的。