【吃瓜教程】第六章支持向量机

最新推荐文章于 2024-07-22 15:38:59 发布

数据框

最新推荐文章于 2024-07-22 15:38:59 发布

阅读量173

点赞数

文章标签：支持向量机机器学习算法

本文链接：https://blog.csdn.net/kkz2756275580/article/details/127115805

版权

第六章支持向量机

6.1 间隔与支持向量

支持向量机是一种分类学习的思想，想象在一个平面上分布着一些样本，我们划一条线，就能将不同的样本分开
在这里插入图片描述

上面只是对于部分数据而言，划出的一些能够将他们分开的线，但是对于一些线来讲，可能不能很好的划分新的数据，所以我们要计算这个线应该如何去划分。得到一条最好的线，称之为超平面

假设这条线形式如下 $w^Tx+b=0$
那么任意点到该线的距离为 $r=\frac{|w^Tx+b|}{||w||}$
单拿上图的纵坐标 $x_2$ ，横坐标 $x_1$ ，可以视作一条数据的两个特征，两个特征可以在坐标轴上表示出一个点来，我们用下面的公式来表示
$\begin{cases} w^Tx_i+b\geq+1,y_i=+1\\ w^Tx_i+b\leq+1,y_i=-1\\ \end{cases}$
为何 $y_i$ 是正负1呢？

因为对于上面这个任务来讲，就是一个二分类任务， $y_i$ 的意义只是标签，不代表其他数值，所以对于上面这个方程组来讲，你不觉得它更像是一个决策树的结点吗， $w^Tx_i+b\geq+1$ 的数据，让其标签 $y_i=+1$ ,反之则是 $y_i=-1$ ,至于中间 $-1\sim+1$ 的点，下面来解释

我们知道根据上面的方程组，离超平面最近的平行线到超平面的距离应当是
$\frac{1}{||w||}$
我们称之为支持向量

计算涉及到高中知识，也就是计算两条平行线之间的距离（ $w^Tx_i+b=1$ 到 $w^Tx_i+b=0$ 的距离）

那么两侧距离加起来就是间隔的距离，是上面的两倍 $\frac{2}{||w||}$

显然这两条支持向量到超平面的距离应该是相等的，并且间隔距离要最大化，这延伸为一个优化问题
$\frac{1}{2}||w||^2$
$y_i(w^Tx_i+b)\geq1.i=1,2...$

6.2 对偶问题

使用拉格朗日乘子法来得到优化问题的对偶问题，求解对偶问题来得到原问题的解。

具体就是，对上面这个优化问题函数添加拉格朗日乘子 $\alpha_i\geq 0$ ,那么拉格朗日问题就可以表示如下 $L(w,b,\alpha) = \frac{1}{2}||\alpha||^2+\sum_{i=1}^m\alpha_i(1-y_i(w^Tx_i+b))$
对 $w$ 和 $b$ 求偏导得 $w=\sum_{i=1}^m\alpha_iy_ix_i$
$0=\sum_{i=1}^m\alpha_iy_i$
代入解出 $\alpha$ ，求出 $w 、 b$ 即可得到模型

著名算法有SMO，通过固定其他参数后，仅仅优化两个参数，来减小计算量，使得算法高效

6.3 核函数

上面讨论的问题是线性可分的，然而现实问题中大多都不是线性可分，可以将远始样本映射到更高维的空间，进而可以进行分类，比如二维的点映射到三维
在这里插入图片描述

如果样本属性有限，那么一定存在一个高维特征空间使得样本可分

首先来一个映射 $\phi(x)$ 将x映射到高维，那么高维空间中的超平面可表示如下 $f(x)=w^T\phi(x)+b$
类似低维的优化问题一样，只是把 $x$ 变为 $\phi(x)$ ，这样最后得到优化问题的对偶问题
$\max_{\alpha}\sum_{i=1}^m\alpha_i-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_j\phi(x_i)^T\phi(x_j)$
$s.t.\sum_{i=1}^m\alpha_iy_i=0$
上面这个式子涉及到高维特征空间的内积运算，由于维数可能很高，所以计算很难，因此引入了核函数，这个函数使得 $\phi(x_i)^T\phi(x_j)$ 变为 $k(x_i,x_j)$ ，也就是说不用先去计算高维空间的特征函数了