SVM（三）：非线性支持向量机

最新推荐文章于 2022-05-27 14:26:46 发布

隐私无忧

最新推荐文章于 2022-05-27 14:26:46 发布

阅读量2.1k

点赞数 2

分类专栏： # 机器学习文章标签： svm

本文链接：https://blog.csdn.net/apr15/article/details/104809041

版权

机器学习专栏收录该内容

30 篇文章 9 订阅

订阅专栏

3. 非线性SVM

- 3.1 问题定义
- 3.2 核函数

3.1 问题定义

现实任务中，训练样本经常不是线性可分的，即原始样本空间中并不存在一个能正确划分两类样本的超平面。
在这里插入图片描述
对于这样的问题，基于Mercer核展开定理，通过内积函数定义的非线性变换，将样本从原始空间映射到一个高维特征空间（Hibbert空间），使得样本在这个高维特征空间内线性可分（升维线性化）。

令 $\phi(\boldsymbol x)$ 表示将 $\boldsymbol x$ 映射后的特征向量，在特征空间中划分超平面对应的模型可表示为
$f(\boldsymbol x) = \boldsymbol w^T \phi(\boldsymbol x) + b$ 优化目标为
$\begin{aligned} & \min \; \frac{1}{2}||\boldsymbol w||^2 \\ & s.t. \;\; y_i(\boldsymbol w^T \phi(\boldsymbol x_i) + b) \geq 1,i =1,2,...m \end{aligned}$ 其对偶问题为
$\begin{aligned} \max_{\alpha} & \sum\limits_{i=1}^{m}\alpha_i - \frac{1}{2}\sum\limits_{i=1,j=1}^{m}\alpha_i\alpha_jy_iy_j\phi(\boldsymbol x_i)^T \phi(\boldsymbol x_j) \\ s.t. \; & \sum\limits_{i=1}^{m}\alpha_iy_i = 0, \\ & \alpha_i \geq 0, \; i=1,2,...m \end{aligned}$

该问题和线性可分SVM的优化目标函数的区别仅仅是将内积 $\boldsymbol x_i \boldsymbol x_j$ 替换为 $\phi (\boldsymbol x_i)^T \phi(\boldsymbol x_j)$ 。

$\phi (\boldsymbol x_i)^T \phi(\boldsymbol x_j)$ 是 $\boldsymbol x_i$ 与 $\boldsymbol x_j$ 映射到特征空间后的内积，由于特征空间维数很高，甚至是无穷维，因此直接计算 $\phi (\boldsymbol x_i)^T \phi(\boldsymbol x_j)$ 通常是困难的。

如对于一个2维特征的数据 $x_1,x_2)$ ，需要将其映射到5维 $1, x_1, x_2, x_{1}^2, x_{2}^2, x_{1}x_2)$ 来做特征的内积。

3.2 核函数

假设 $\phi$ 是一个从低维的输入空间 $\chi$ （欧式空间的子集或者离散集合）到高维的希尔伯特空间 $\mathcal{H}$ 的映射。如果存在函数 $\boldsymbol K( ,)$ 对于任意 $\boldsymbol x_i, \boldsymbol x_j \in \chi$ 都有：

$\boldsymbol K(x_i,x_j) = <\phi(\boldsymbol x_i),\phi(\boldsymbol x_j)> = \phi(\boldsymbol x_i)^T\phi(\boldsymbol x_j)$

即 $\boldsymbol x_i$ 与 $\boldsymbol x_j$ 在特征空间的内积等于它们在原始样本空间中通过函数 $\boldsymbol K( , )$ 计算的结果，则称 $\boldsymbol K( , )$ 为核函数。
核函数使得计算在低维特征空间中进行，避免了高维特征空间中的巨大计算量，同时还利用了高维空间线性可分的特性。

凡是满足Mercer定理的函数都可以作为支持向量机的核函数。
一般所说核函数为正定核函数（正定核比Mercer更具一般性），一个函数为正定核函数的充分必要条件是如下：

对于任意 $x_i \in \chi, i=1,2,3...m$ ， $\boldsymbol K(\cdot , \cdot )$ 是正定核函数，当且仅当 $\boldsymbol K(x_i,x_j)$ 对应的Gram矩阵 $\boldsymbol K = \bigg[ K(x_i, x_j )\bigg]$ 为半正定矩阵。