SVM——（五）线性不可分之核函数

最新推荐文章于 2024-08-16 14:42:50 发布

空字符（公众号：月来客栈）

最新推荐文章于 2024-08-16 14:42:50 发布

阅读量5k

点赞数 8

分类专栏：机器学习文章标签：函数 svm 核函数

本文链接：https://blog.csdn.net/the_lastest/article/details/78569217

版权

本文探讨了支持向量机（SVM）在面对线性不可分数据时，如何通过映射到高维空间并利用核函数解决分类问题。介绍了将低维特征映射到高维空间的概念，以及核函数的有效性和一些常见的核函数类型，如线性、多项式、高斯和拉普拉斯核等。

摘要由CSDN通过智能技术生成

本文主要包含以下内容：

1.从线性不可分谈起
2.将低维特征映射到高维空间
3.核函数的有效性
4.常用核函数

1.从线性不可分谈起

我们之前谈到的情况都是线性可分的，也就是说总能找到一个超平面将数据集分开。但现实总是那么不完美，大多情况都是线性不可分的。如下图所示：

这里写图片描述

我们应该怎么才能将其分开呢？有人说用曲线能将其分开；对，曲线确实能将数据集分开，但如果用曲线，那还能叫支持向量机么。那到底又该怎么弄？你说！不慌，请看下图：

这里写图片描述

看到没，现在我们已经用一个平面完美的将其分开了。不过此时可能传来这么一个声音“我瞎啊，这是刚刚的数据集么？明明刚刚在二维平面，现在却跑到三维平面去了，靠谱点好不？”对，数据集确确实实不是同一个数据集，但是：每个数据集所对应的类别依旧和原来的一样，只不过现在我给它穿上了一件“马甲”。也就是说，假如 $x^i$ 是正样本，那么它穿上马甲变成 $\hat{x}{^i}$ 之后仍然属于正样本。正如那句：你大妈 （数据集）已经不是 你原来的（数据集）大妈了，但（每个样本点所对应的类别）你大爷仍旧（和先前一样） 是你大爷。

一句话：将低维数据集映射到高维空间中去，这样就一定能找到一个平面将其分开。

2.将低维特征映射到高维空间

所谓将低维特征映射到高维空间指的是用一定的映射关系，将其映射到更高维度的空间。比如通过函数 $\phi(x)$ 将一维 $x$ 映射到三维 $x,x^2,x^3$ 。

相信大家应该还记得SVM求解中，最小化目标函数后的结果吧：
$w=\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}\tag{2.1}$
假设 $\alpha_i$ 和 $b$ 已知；此时若对一个新的样本点进行预测，则其预测结果为：

$\begin{aligned} y^{(i)}&=w^Tx+b\\[1ex] &=\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}x+b\\[1ex] &=\sum_{i=1}^m\alpha_iy^{(i)}\langle x^{(i)},x\rangle+b\tag{2.2} \end{aligned}$

其中 $x^{(i)}$ 表示训练集中的样本点（其实只是支持向量）， $x$ 测试集的样本点； $\langle a,b\rangle$ 表示 $a, b$ 之间的点积（数量积）。

按照我们上面提到的通过函数 $\phi(x)$ ，将低维映射到高维的思想，那么此时只需要将之前的 $x$ ，全部替换成 $\phi(x)$ 即可：
$\begin{aligned} y^{(i)}&=\sum_{i=1}^m\alpha_iy^{(i)}\langle x^{(i)},x\rangle+b\\[1ex] &=\sum_{i=1}^m\alpha_iy^{(i)}\langle \phi(x),\phi(z)\rangle+b\tag{2.3} \end{aligned}$

其中 $\phi(x)$ 表示训练集映射之后的结果， $\phi(z)表示测试集映射之后的结果$ ，用不同字母只是为了区分。

但是这样一来虽然解决了线性不可分的困难，但是又出现了一个新的问题“维度爆炸”，如下：

现有数据集 $\chi$ ，其样本点 $x^i$ 有3个维度，分别为 $x^i_1,x^i_2,x^i_3$ (下面简写为 $x_1,x_2,x_3$ )，现通过函数 $\phi(x)$ 将其映射到某个9维空间中，其分别为( $x_1x_1,x_1x_2,x_1x_3,x_2x_1,x_2x_2,x_2x_3,x_3x_1,x_3x_2,x_3x_3$ )（至于为啥这样映射，往下看你就知道了）。如果此时进行预测则先要进行计算 $\langle \phi(x),\phi(z)\rangle$ :