SVM支持向量机模型

最新推荐文章于 2024-08-08 10:33:25 发布

WenjunDing

最新推荐文章于 2024-08-08 10:33:25 发布

阅读量2.7w

点赞数 7

分类专栏：模式识别文章标签： svm

本文链接：https://blog.csdn.net/WenjunDing/article/details/78837251

版权

模式识别专栏收录该内容

3 篇文章 0 订阅

订阅专栏

1.1SVM模型

和感知机模型一样，SVM（支持向量机模型）也是旨在求出n维空间的最优超平面将正负类分开。这里的达到的最优是指在两类样本点距离超平面的最近距离达到最大，间隔最大使得它区别于感知机学习，SVM中还有核技巧，这样SVM就是实际上的非线性分类器函数。

1.2线性可分支持向量机

跟前面定义的问题一样，假设给定一个特征空间上的训练数据集

T = {(x 1, y 1), (x 2, y 2), (x 3, y 3), \dots, (x 1, y 1)}

$T=\{(x_1,y_1),(x_2,y_2),(x_3,y_3),\cdots,(x_1,y_1)\}$

xi∈X=Rn，yi∈Y={+1,−1}，i=1,2,3,⋯,N，表示N个样本实例，xi为第i个特征向量（实例），yi为xi的类标记。 $x_i\in X=R^n，y_i\in Y=\{+1,-1\}，i=1,2,3,\cdots,N，表示N个样本实例，x_i为第i个特征向量（实例），y_i为x_i的类标记。$
目标是找到一个分离超平面，将正负类分别分到平面的两侧。分离超平面对应方程

w⋅x+b=0 $w\cdot x+b=0$ ，当数据集是线性可分的时候，这样的超平面存在无数个，感知机利用误分类的点来求解，有无数个解。SVM利用间隔最大化求得最优超平面，解唯一。设分类决策函数为

f (x) = s i g n (w \cdot x + b) (1)

$f(x)=sign(w\cdot x+b)\tag{1}$

1.2.1函数间隔和几何间隔

这里写图片描述
上图中有A,B,C三个点，其中A点离超平面较远，将其决策为正类的确信度比较高，C点预测为正类的置信度就不是很高，相同的，B位于A,C之间，所以将其预测为正类的置信度也在点A和点C之间。一般来说，一个点距离超平面的远近决定了其分类结果的置信度，所以最优的平面即为离超平面最近的样本点到其的距离最大的时候。
给定样本点（ $x_i,y_i$ ）,超平面（w,b）,超平面关于该样本点的函数间隔即为 $y_i(w\cdot x_i+b)$ ，定义超平面关于整个数据集T的超平面的函数间隔为为超平面关于所有样本点的函数间隔最小值。函数间隔能有效表示分类预测的正确性及确信度。
但是，对于一个超平面（w，x）来说，通过缩放变换（成倍的放大缩小w，b），超平面并没有改变，但是函数间隔却改变了。所以可以通过对超平面的法向量w加以约束，如规范化令||w||=1，这样间隔就是确定的，这时候的函数间隔即为几何间隔，即为点（ $x_i,y_i$ ）到超平面（w,b）的距离

w \cdot x i + b | | w | | (2)

$\frac{w\cdot x_i+b}{||w||}\tag{2}$
这里写图片描述

因为y只取+1，-1，只影响符号，不影响数值。 但是几何间隔一般是指带符号的距离（李航老师书）上图中两条虚线之间的距离即为间隔
所以当||w||=1时，函数间隔和几何间隔相等，当w和b成倍放大缩小的时候，函数间隔也会按照比例改变，几何间隔是不变的。
总结一下：函数间隔即为即为

yi(w⋅xi+b) $y_i(w\cdot x_i+b)$ ，但是在w,b成倍缩放情况下，超平面不变，函数间隔不稳定，加个约束，几何上的点到直线的距离

w⋅xi+b||w|| $\frac{w\cdot x_i+b}{||w||}$ 加上符号以后：

yi(w⋅xi+b)||w|| $\frac{y_i(w\cdot x_i+b)}{||w||}$ 为几何间隔，为了便于求得最优解，我们通常通过缩放变换使得函数间隔为1。所以SVM求解的目标函数为函数间隔为1情况下的几何间隔。

1.2.2 SVM学习算法

支持向量机的目的在于求得最优的即几何间隔最大的超平面，在样本数据是线性可分的时候，这里的间隔最大化又叫硬间隔最大化（训练数据近似可分的话就叫软间隔）
支持向量机的学习算法可以表示为下面的约束最优化问题：

m a x w, b Υ = w \cdot x i + b | | w | |

$\mathop {max}_{w,b}\Upsilon=\frac{w\cdot x_i+b}{||w||}$

s . t . y i (w \cdot x + b) \geq 1, i = 1, 2, 3, \dots, N

$s.t.\ y_i(w\cdot x+b)\geq1,i=1,2,3,\cdots,N$
前面有提到，可以通过缩放变换（w,b）改变函数间隔的大小，但是超平面不改变，这里我们可以使函数间隔为1，这样问题变为

m a x w, b Υ = 1 | | w | |

$\mathop {max}_{w,b}\Upsilon=\frac{1}{||w||}$

s . t . y i (w \cdot x + b) \geq 1, i = 1, 2, 3, \dots, N

$s.t.\ y_i(w\cdot x+b)\geq1,i=1,2,3,\cdots,N$
很多书的分子是2， 训练集样本点中距离超平面最近的样本称为支持向量，因为存在正负类的支持向量，所以double一下，这里对求得最后最优解并不影响。 值得指出的是，决定分离超平面的时候只有支持向量起作用，因为他们决定了函数间隔和几何间隔，其他点不起作用。
求解

maxw,b1||w|| $\mathop{max}_{w,b}\frac{1}{||w||}$ ,既是求

m i n w, b 1 2 | | w | | 2 (3)

$\mathop{min}_{w,b}\frac{1}{2}{||w||}^2\tag{3}$

s . t . y i (w \cdot x + b) \geq 1, i = 1, 2, 3, \dots, N

$s.t.\ y_i(w\cdot x+b)\geq1,i=1,2,3,\cdots,N$
这就是支持向量机的目标函数，这是一个 凸二次规划问题，所以支持向量机的学习算法又叫 最大间隔法。那么该如何求得在约束条件下最优的超平面的参数(w,b)呢？

1.2.3 SVM对偶算法

SVM通过对其对偶问题的求解求得最优的超平面参数(w,b)，对于目标函数(12)，目标函数是二次的，约束条件是线性的，是一个标准的QP问题，但是可以通过拉格朗日对偶性求得对偶问题的最优解，一者，这样更高效，二者还可以自然引入核函数，推广到非线性的分类问题。
首先构建拉格朗日函数，对每一个约束条件引进拉格朗日乘子 $\alpha_i\ge0,i=1,2,3,\cdots,N$ ，定义拉格朗日函数：

L (w, b, α) = 1 2 | | w | | 2 + \sum i = 1 N α i (1 - y i (w \cdot x i + b)) (4)

$L(w,b,\alpha)=\frac{1}{2}||w||^2+\sum_{i=1}^{N}\alpha_i(1-y_i(w\cdot x_i+b))\tag{4}$
其中的

α=α1,α2,⋯,αn $\alpha={\alpha_1,\alpha_2,\cdots,\alpha_n}$ 为拉格朗日乘子向量。我们令：

θ (w) = m a x α i \geq 0 L (w, b, α)

$\theta(w)=\mathop{max}_{\alpha_i\ge0}L(w,b,\alpha)$
对于式子(4)来说，要是存在某个样本不满足条件

yi(w⋅x+b)≥1 $y_i(w\cdot x+b)\geq1$ ，那么

θ=∞ $\theta=\infty$ ,(只要令

αi=∞ $\alpha_i=\infty$ 就可以)，若是所有条件都满足，则有

θ(w,b)=12||w2|| $\theta(w,b)=\frac{1}{2}||w^2||$ ，即令后面减掉的数为零即可获得最大值。保证减号后面的数字为0，当

1−yi(w⋅xi+b)=0 $1-y_i(w\cdot x_i+b)=0$ ，即为点为支持向量(最靠近超平面的点)时，

/alphai $/alpha_i$ 可以为任意值，当

1−yi(w⋅xi+b)>0 $1-y_i(w\cdot x_i+b)\gt0$ 时，非支持向量时，

/alphai=0 $/alpha_i=0$ ，这里可以解释为什么SVM只跟支持向量有关。这样我们的目标函数变成了：

m i n w, b θ (w, b) = m i n w, b m a x α i \geq 0 L (w, b, α) = p *

$\mathop{min}_{w,b}\theta(w,b)=\mathop{min}_{w,b}\mathop{max}_{\alpha_i\ge0}L(w,b,\alpha)=p^*$

p∗ $p^*$ 表示要求的最优解，和我们最初要求的问题是等价的。交换一下最大最小的位置：

m a x α i \geq 0 m i n w, b L (w, b, α) = d *

$\mathop{max}_{\alpha_i\ge0}\mathop{min}_{w,b}L(w,b,\alpha)=d_*$
交换之后的解

d∗ $d_*$ 不等价于原问题，和

p∗ $p^*$ 是对偶问题，并且有

d∗≤p∗ $d_*\le p^*$ ，直观解释就是最大值中最小的总比最小值中的最大值要大，在满足某些条件的时候，两者相等，这里的条件即为 KKT条件。

将公式（4）后面括号展开，就得到

L (w, b, α) = 1 2 | | w | | 2 - \sum i = 1 N α i y i (w \cdot x i + b) + \sum i = 1 N α i (5)

$L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum_{i=1}^{N}\alpha_i y_i(w\cdot x_i+b)+\sum_{i=1}^{N}\alpha_i\tag{5}$
对w,b分别求导,

\partial L \partial w = w - \sum N i = 1 α i x i y i

$\frac{\partial L}{\partial w}=w-\sum^{i=1}_{N}\alpha_ix_iy_i$

\partial L \partial b = \sum N i = 1 α i y i

$\frac{\partial L}{\partial b}=\sum^{i=1}_{N}\alpha_iy_i$
并令其等于0：

w = \sum N i = 1 α i y i x i

$w=\sum^{i=1}_{N}\alpha_iy_ix_i$

\sum N i = 1 α i y i = 0

$\sum^{i=1}_{N}\alpha_iy_i=0$
带入公式5，得：

L (w, b, α) = \sum i = 1 N α i - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j x T i x j (6)

$L(w,b,\alpha)=\sum^{N}_{i=1}\alpha_i-\frac{1}{2}\sum^{N}_{i=1}\sum^{N}_{j=1}\alpha_i\alpha_jy_iy_jx_i^Tx_j\tag{6}$
这样，所求目标函数变为：

m a x α i (\sum i = 1 N α i - 1 2 \sum i = 1 N \sum j = 1 N α i α j y i y j x T i x j) (7)

$\mathop{max}_{\alpha_i}(\sum_{i=1}^{N}\alpha_i-\frac{1}{2}\sum_{i=1}^{N}\sum_{j=1}^{N}\alpha_i\alpha_jy_iy_jx_i^Tx_j)\tag{7}$

s . t . \sum i = 1 N α i j i = 0

$s.t. \sum_{i=1}^{N}\alpha_ij_i=0$

α i \geq 0

$\alpha_i\ge0$
对于上式，可以看出，求出

α $\alpha$ 便求出了超平面w,b：

w = \sum i = 1 N α i y i x i

$w=\sum_{i=1}^{N}\alpha_iy_ix_i$

b = m a x i : y i = - 1 w \cdot x i + m i n i : y = + 1 w \cdot x i 2

$b=\frac{max_{i:y_i=-1}w\cdot x_i+min_{i:y=+1}w\cdot x_i}{2}$
求解公式7中的

α $\alpha$ ，可以用著名的 SMO算法。

2.核函数

上文提到，在求解出 $w=\sum_{i=1}^{N}\alpha_iy_ix_i$ 后，对于一个新的点x，带入超平面方程，得

y = (\sum i = 1 N α i y i x i) \cdot x + b = \sum i = 1 N α i j i < x i ， x > + b (8)

$y=\left ( \sum_{i=1}^{N}\alpha_iy_ix_i\right) \cdot x+b=\sum_{i=1}^{N}\alpha_ij_i<x_i，x>+b\tag{8}$
这样每预测一个新的点x时，只需要计算它与训练样本中的点的内积，这是引入核函数的重要前提。这里与之求内积的就是支持向量，非支持向量的

α $\alpha$ 系数为0。

2.1.非线性分类问题

这里写图片描述
上图所示，在左边低维度上，只能靠一个非线性平面（椭圆）将正负类分开，映射到高维(右图)，可以看到在高维度下可以找到这样一个超平面。这就是非线性可分的。也就意味着，在我们遇到核函数之前，面对这类问题，需要完成两步：1.首先使用一个非线性映射将数据变换到一个特征空间F，2. 然后在特征空间使用线性学习器分类。分类决策函数如下：