支持向量机(SVM)推导

最新推荐文章于 2022-01-23 21:05:54 发布

预知梦_

最新推荐文章于 2022-01-23 21:05:54 发布

阅读量1.2k

点赞数

分类专栏：机器学习知识回顾文章标签：支持向量机分类算法机器学习深度学习

本文链接：https://blog.csdn.net/Im_Chenxi/article/details/80367354

版权

机器学习知识回顾专栏收录该内容

12 篇文章 0 订阅

订阅专栏

一、硬间隔支持向量机

1.基于线性可分训练集D找到一个划分超平面 $w^T x+b=0$ ，使超平面能够将不同类别样本分开。

2.对于不同类别样本，令 $\left\{\begin{matrix} w^T x_i +b\geq +1,y_i=+1\\ w^T x_i +b\leq -1,y_i=-1 \end{matrix}\right.$ ，仅有几个距离超平面最近的点使得等号成立。通过先调整b能使得超平面恰好在两个异类支持向量各产生一个平行超平面中间。取 $\pm 1$ 只是为了后面方便计算，其他常量也可以，只是相当于按比例放缩w和b，因为是依据w、b优化间隔最大，所以w、b的放缩对整体不影响。

于是两个异类支持向量到超平面的距离之和为 $\gamma=\frac{2}{||w||}$ ，被称为间隔。

3.目标：最大化间隔，目标函数： $\left\{\begin{matrix} \underset{w,b}{max} \frac{2}{||w||}\\ s.t.y_i(w^T x_i+b)\geq 1,i=1,2,...,m \end{matrix}\right.$ ,等价于 $\left\{\begin{matrix} \underset{w,b}{min} \frac{1}{2}||w||^2\\ s.t.y_i(w^T x_i+b)\geq 1,i=1,2,...,m \end{matrix}\right.$ 。

这就是SVM原始问题。

4.对基本型使用拉格朗日乘子法：得到拉格朗日函数： $L(w,b,\alpha )=\frac{1}{2}||w||^2+\sum_{i=1}^{m}\alpha _i(1-y_i(w^Tx_i+ b))$ 。

该拉格朗日函数对w和b进行求导并等于0，得到： $w=\sum_{i=1}^{m}\alpha_i y_i x_i$ ， $\sum_{i=1}^{m}\alpha_i y_i=0$ 。

对偶问题就是(根据拉格朗日对偶性)： $\underset{\alpha}{max} \underset{w,b}{min}L(w,b,\alpha)$ 。

再将上面求导结果带入，可得对偶问题： $\underset{\alpha}{max}\sum_{i=1}^{m}\alpha_i-\frac{1}{2}\sum_{i=1}^{m} \sum_{j=1}^{m}\alpha_i \alpha_j y_i y_j x_{i}^{T}x_j$ ， $s.t.\sum_{i=1}^{m}\alpha_i y_i = 0,\alpha_i\geq 0,i=1,2,...,m$

5.解出 $\alpha$ 后，求出w和b即可得到模型： $f(x)=w^Tx+b=\sum_{i=1}^{m}\alpha_iy_i x_{i}^{T}x+b$

根据拉格朗日对偶性定理，对满足原始问题和对偶问题中的 $\alpha$ 和x，需要满足KKT条件：

$\left\{\begin{matrix} \alpha_i\geq 0\\ y_if(x_i)-1\geq 0\\ \alpha_i(y_if(x_i)-1)=0 \end{matrix}\right.$

可以发现：对任意的训练样本 $(x_i,y_i)$ ，总有 $\alpha_i=0$ 或 $y_if(x_i)=1$ ，若 $\alpha_i=0$ ，则不会在求和求w中出现，也就不会对 $f(x)$ 有任何影响，若 $\alpha_i>0$ ，则必有 $y_if(x_i)=1$ ，所对应的样本点在最大间隔上，是一个支持向量。这显示支持向量机的一个重要属性：训练完成后，大部分的训练样本都不需保留，最终模型仅与支持向量有关。（此步和求解最终结果无关）

6.具体求解对偶问题。这是一个二次规划问题，使用SMO高效算法来求解。

SMO不断执行如下两个步骤直至收敛：

1.选取一对需要更新的变量 $\alpha_i,\alpha_j$

2.固定 $\alpha_i,\alpha_j$ 以外的参数，求解4中对偶问题等式方程。

选取 $\alpha_i,\alpha_j$ 时的技巧：使选取两变量所对应样本之间的间隔最大，这样的两个变量有很大的差别，与对两个相似的变量进行更新相比，对它们更新会带给目标函数更大的变化。

具体：约束可重写为： $\alpha_i y_i+ \alpha_jy_j=c,\alpha_i\geq 0,\alpha_j\geq 0$ ，其中 $c=-\sum_{k\neq i,j}\alpha_k y_k$

再用 $\alpha_i y_i+ \alpha_jy_j=c,\alpha_i\geq 0,\alpha_j\geq 0$ 消去对偶问题方程中的 $\alpha_j$ ，则得到一个关于变量 $\alpha_i$ 的单变量二次规划问题，这样的二次规划具有闭式解，可高效计算出更新后的 $\alpha_i,\alpha_j$ 。

7.w的确定：把求出的 $\alpha$ 带入可求出

b的确定：注意到对任意的支持向量 $(x_s,y_s )$ 都有 $y_s f(x_s)=1$ ，即 $y_s (\sum_{i\in S}\alpha_i y_i x_{i}^{T}x_s+b)=1$ ，其中S为支持向量集。可根据使用所有支持向量求解平均值： $b=\frac{1}{|S|}\sum_{s\in S}(\frac{1}{y_s}- \sum_{i\in S}\alpha_i y_i x_{i}^{T}x_s)=1$ 。

二、核函数

前面的求解基于一个最基本的条件：训练数据集线性可分。

但当数据集并非线性可分时，可将样本从原始空间映射到一个更高维的特征空间，使得样本在这个特征空间中线性可分。根据定理：如果原始空间是有限维，那么一定存在一个高维空间使得样本可分。

令 $\Phi (x)$ 表示将x映射后的特征向量，则在特征空间中划分超平面所对应的模型表示为： $f(x)=w^T\Phi (x)+b$

类似地，SVM基本型问题： $\underset{w,b}{min}\frac{1}{2}||w||^2,s.t.y_i(w^T\Phi (x_i)+b)\geq 1,i=1,2,..,m$

对偶问题： $\underset{\alpha}{max}\sum_{i=1}^{m}\alpha_i -\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i \alpha_j y_i y_j {\Phi (x_i)}^T\Phi (x_j)$

$s.t.\sum_{i=1}^{m}\sum_{i=1}^{m} \alpha_iy_i = 0,\alpha_i\geq 0,i=1,2,...,m$

直接计算 $\Phi (x_i)^T\Phi (x_j)$ 通常比较困难，可设想这样一个函数： $k(x_i,x_j)=\Phi (x_i)^T\Phi (x_j)$ ，这个函数就是核函数，这种处理叫做核技巧。将向量内积的计算转换为一个函数式的计算，简化计算复杂性。

求解后可得到： $f(x)=w^T\Phi (x)+b=\sum_{i=1}^{m}\alpha_i y_i \Phi (x_i)^T\Phi (x)+b=\sum_{i=1}^{m}\alpha_iy_ik(x,x_i)+b$

下面核函数的选择成为了支持向量机的最大变数，常用的核函数有：

高斯核也称为RBF核函数(径向基和函数)

此外，核函数也可以通过组合得到：

1.若 $k_1,k_2$ 是核函数，则对于任意的正数 $\gamma _1,\gamma _2$ ，其线性组合： $\gamma _1 k_1+\gamma _2k_2$ 也是核函数。

2.若 $k_1,k_2$ 是核函数，则核函数的直积 $k_1\bigotimes k_2(x,z)=k_1(x,z)k_2(x,z)$ 也是核函数。

3.若 $k_1$ 是核函数，则对于任意的函数 $g(x)$ , $k(x,z)=g(x)k_1(x,z)g(z)$ 也是核函数。

三、软间隔支持向量机

在现实任务中往往很难弄确定合适的核函数使得训练样本在特征空间中线性可分，即是确定了某个核函数，也很难确定这个线性可分的结果是否是由于过拟合造成的，因此：允许支持向量机在一些样本上出错，即引入软间隔，使得某些样本不满足约束： $y_i(w^Tx_i+b)\geq 1$ .

注：软支持向量机使用的是hinge损失： $l_{hinge}(z)=max(0,1-z)$

1.即可引入一个松弛变量 $\xi _i\geq 0$ ，使得函数间隔加上松弛变量大于等于1，约束条件就变为 $y_i(w\cdot x_i+b)\geq 1-\xi _i$

同时对每个松弛变量 $\xi _i$ ，要支付一定的代价，SVM原始问题就变为：

$\underset{w,b,\xi }{min}\frac{1}{2}||w||^2+C\sum_{i=1}^{N}\xi _i$

$s.t.y_i(w\cdot x_i + b)\geq 1-\xi _i,\xi _i\geq 0,i=1,2,...,m$

2.将原始问题转化为拉格朗日函数：

$L(w,b,\alpha ,\xi ,\mu )=\frac{1}{2}||w||^2+C\sum_{i=1}^{m}\xi _i+\sum_{i=1}^{m}\alpha _i(1-\xi _i-y_i(w^Tx_i+b))-\sum_{i=1}^{m}\mu _i\xi _i$

其中 $\alpha_i\geq 0, \mu_i\geq 0$ 是拉格朗日乘子。

拉格朗日函数对 $w,b,\xi _i$ 求偏导得零，可得：

$\left\{\begin{matrix} w=\sum_{i=1}^{m}\alpha_i y_i x_i\\ 0=\sum_{i=1}^{m}\alpha_iy_i\\ C=\alpha_i + \mu_i \end{matrix}\right.$

3.将上述偏导为0的条件带入拉格朗日函数中，即可得到对偶问题：

$\underset{\alpha}{max}\sum_{i=1}^{m}\alpha_i-\frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha_i \alpha_jy_i y_j x_i^Tx_j$

$s.t.\sum_{i=1}^{m}\alpha_iy_i=0,0\leq \alpha_i\leq C$

注：小于等于C是从求偏导第三个式子和 $\mu_i\geq 0$ 得到。

4.对于软间隔支持向量机，KKT条件为：

$\left\{\begin{matrix} \alpha_i\geq 0, \mu _i\geq 0\\ y_if(x_i)-1+\xi _i\geq 0\\ \alpha _i(y_if(x_i)-1+\xi _i)=0\\ \xi _i\geq 0,\mu_i\xi _i=0 \end{matrix}\right.$