SVM分类器

最新推荐文章于 2023-02-13 16:33:23 发布

believe0ne

最新推荐文章于 2023-02-13 16:33:23 发布

阅读量537

点赞数

分类专栏：机器学习文章标签： svm

本文链接：https://blog.csdn.net/believe0ne/article/details/52863309

版权

机器学习专栏收录该内容

9 篇文章 0 订阅

订阅专栏

本文介绍了支持向量机（SVM）的基本概念，包括最大化几何间隔的分割超平面，以及从硬间隔到软间隔的转换。SVM的目标函数和拉格朗日乘子法在解决线性分类问题中的作用被详细阐述，同时讨论了参数C对决策超平面的影响和支持向量的角色。通过实验展示了不同C值下SVM的行为，并分析了对偶问题中解αi对分类结果的贡献。

摘要由CSDN通过智能技术生成

支持向量机的目的是为了找到分类间隔最大的分割超平面。
分割超平面即距离所有样本最小距离的值最大的超平面。
一般是通过最大化几何间隔实现。
几何间隔：

y(wx+b)||w|| $\frac{{y(wx + b)}}{{||w||}}$

由于通过按照一定的比例缩放，我们总可以另 $y(wx+1)$ 为1,从而最大化几何间隔就等价于求解 $\frac{1}{||w||}$ 的最大值。

将其转化为求最小值的问题，可得目标函数：

minw,b12||w||2 $\mathop {\min }\limits_{w,b} \frac{1}{2}||w|{|^2}$ s.t

y(wx+b)≥1 $y(wx+b)\ge 1$
其lagrange函数为

L(w,b,α)=12||w||2+∑iαi(1−yi(wxi+b)) $L(w,b,\alpha ) = \frac{1}{2}||w|{|^2} + \sum\limits_i {{\alpha _i}(1 - {y_i}(w{x_i} + b))}$

一、求解线性SVM分类器
原始问题是一个极小极大问题，即先求 $\alpha$ 再求 $\omega$ 和b，其对偶问题为一个极大极小问题（这里的原因在于原始问题为一个凸二次优化问题，因为满足KKT条件C.1）。而且Lagrange函数是一个凸函数，即存在极小值，通过对该函数求导，可以得到对应的极小值点的解。

∇wL(w,b,α)=0 ${\nabla _w}L(w,b,\alpha ) = 0$

∇bL(w,b,α)=0 ${\nabla _b}L(w,b,\alpha ) = 0$

αi(yi(wx+b)−1)=0 $\alpha_i(y_i(wx+b)-1)=0$

yi(wx+b)−1≥0 $y_i(wx+b)-1 \ge 0$

αi≥0 $\alpha_i \ge 0$
从而求解该函数的步骤如下：
(1)求解

minw,bL(w,b,a) $\mathop {\min }\limits_{w,b} L(w,b,a)$
由于Lagrange函数为凸函数，所以存在极值点，对

ω $\omega$ 和b求导，并令偏导为0
可以得到

w=∑αiyixi $w = \sum {{\alpha _i}y_ix_i}$ ,

∑αiyi=0 ${\sum}{\alpha_iy_i}=0$
(2)将上述式子带入原始问题，原始问题转化为

maxw,bL(ω,b,α)=−12∑∑αiαjyiyjxixj+∑αi $\mathop {\max}\limits_{w,b} L(\omega,b,\alpha)=-\frac{1}{2}\sum\sum{\alpha_i\alpha_jy_iy_jx_ix_j}+\sum{\alpha_i}$
s.t.

∑αiyi=0 $\sum{\alpha_iy_i}=0$

αi≥0 $\alpha_i\ge0$
(3)将原始问题由求极大转变为求极小，可以得到下面的对偶优化问题

minw,bL(ω,b,α)=12∑∑αiαjyiyjxixj−∑αi $\mathop {\min}\limits_{w,b} L(\omega,b,\alpha)=\frac{1}{2}\sum\sum{\alpha_i\alpha_jy_iy_jx_ix_j}-\sum{\alpha_i}$
s.t.

∑αiyi=0 $\sum{\alpha_iy_i}=0$

αi≥0 $\alpha_i\ge0$
(4)从而可以得到

ω $\omega$ 和b的值，及得到最大超平面，从而分类结果为

f(x)=sign(∑α∗iyi(x⋅xi)+b∗ $f(x)=sign(\sum\alpha_i^*y_i(x·x_i)+b^*$
其中

ω∗=∑α∗iyixi $\omega^*={\sum}{\alpha_i^*y_ix_i}$ 和

b∗=yi−∑α∗jyj(xj⋅xi) $b^*=y_i-\sum{\alpha_j^*y_j(x_j·x_i)}$

二、软间隔线性分类器
考虑到噪声的存在，提高目标函数的泛化能力，提出了软间隔最大化。
引进一个松弛变量ξ，使得函数间隔加上松弛变量之后可以大于等于1，目标函数转变为

min12||ω||2+C∑ξi $\mathop{min{ \frac{1}{2}||\omega||^2+C\sum{\xi_i}}}$
s.t

yi(ω⋅xi+b)≥1−ξi $y_i(\omega·x_i+b) \ge 1-\xi_i$

ξi≥0 $\xi_i \ge 0$
从而实现在间隔最大的同时保证错误点最少。其中C是惩罚因子，C大时对误差的惩罚增大，即尽可能避免误分类。当C足够大时，所学习到的分类超平面可以被等价为一个线性分类器。

软间隔分类器的对偶问题是

min12∑∑αiαjyiyjxixj−∑αi $\mathop{min{ \frac{1}{2}\sum\sum{\alpha_i\alpha_jy_iy_jx_ix_j}-\sum{\alpha_i}}}$
s.t

∑αiyi=0 $\sum\alpha_iy_i = 0$

0≤α≤C $0 \le \alpha \le C$
其满足的KKT条件为

∇wL(w,b,α,ξ)=0 ${\nabla _w}L(w,b,\alpha,\xi ) = 0$

∇bL(w,b,α,ξ)=0 ${\nabla _b}L(w,b,\alpha,\xi ) = 0$

∇ξL(w,b,α,ξ)=0 ${\nabla _\xi}L(w,b,\alpha,\xi ) = 0$

αi(yi(wx+b)−1+ξ)=0 $\alpha_i(y_i(wx+b)-1+\xi)=0$

uiξi=0 $u_i\xi_i = 0$

yi(wx+b)≥1−ξ $y_i(wx+b) \ge 1-\xi$

αi≥0 $\alpha_i \ge 0$

ξi≥0 $\xi_i \ge 0$

ui≥0 $u_i \ge 0$

支持向量的概念：
在线性不可分的情况下，对偶问题的解 $\alpha^*=(\alpha_1^*,\alpha_2^*, ...\alpha_n^*)^T$ 中对应 $\alpha_i^*>0$ 的实例被称作支持向量

软间隔线性分类器中的参数变化对决策超平面的影响
下面基于libsvm-3.20进行了一个简单的小实验
1、基于线性核的svm，参数主要有惩罚因子C
1.1、设置C很大，此时近似于一个不带松弛变量的线性svm分类器，可以发现支持向量围绕分割超平面对称分布，在支持向量之外增加同类型样本对分割超平面无影响，在决策边界内部增加样本点会导致分割超平面改变，一般情况下，新增加的样本的会变成支持向量。
1.2、设置C略小，此时SVM对噪点增加了一下容错能力，此时在决策边界内部新增加的样本点距离分割超平面的距离若小于 $\frac{\xi_i}{||\omega||}$ ，则对分割超平面无影响。
2、对偶问题的解 $\alpha_i^*$ 对分类结果的影响。这里因为支持向量满足 $0<\alpha \le C$ ，又因为在软间隔最大化支持向量机的对偶算法求解过程中有一组约束