支持向量机(SVM)(一)

最新推荐文章于 2024-05-29 21:17:05 发布

bubble_story

最新推荐文章于 2024-05-29 21:17:05 发布

阅读量292

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/bubble_story/article/details/79872683

版权

机器学习专栏收录该内容

7 篇文章 1 订阅

订阅专栏

支持向量机(SVM)(一)

SVM是机器学习中常见的分类方法之一，其本质为一个二类分类器，目的是寻找一个分界超平面（对于二维，所以只是一条线，如果数据是三维的就是平面，如果是三维以上就是超平面）把这两类完全分开。而所谓的Support vector就是这些离分界线最近的『点』。如果去掉这些点，直线多半是要改变位置的。再加入新的样本点时，预测可能出现偏差。

支持向量机是机器学习中处理二类分类问题的一种模型，根据数据是完全线性可分还是近似线性可分，分为线性可分SVM和线性SVM，后者包含前者，适用范围更广。如果数据不能线性可分，可以通过核技巧，把原特征映射到更高维度度的特征空间，再在新的特征空间上用线性SVM的方法学习非线性SVM。因为有些分类是可以在高维是可以很好分别出来的。
SVM可以分别下面三种

利用硬间隔最大化学习的线性可分支持向量机（linear support vector machine in linearly separable case），
利用软间隔最大化学习的线性支持向量机（linear support vector machine）
利用核技巧和软间隔最大化学习的非线性支持向量机（nonlinear support vector machine）。

这次讲解的就是最普通的SVM，对于复杂的SVM将在以后讲到

1.定义

opencv对SVM的定义是这样的

A Support Vector Machine (SVM) is a discriminative classifier formally defined by a separating hyperplane. In other words, given labeled training data (supervised learning), the algorithm outputs an optimal hyperplane which categorizes new examples.

对于只有两个labels的分类，我们可以利用简单的直线进行分割，但是我们看出下图实际上有很多直线是可以很好的把两种类别分出来的，我们没有办法判断哪一种最好，应此有必要引入判断标准：当线很接近点时我们就认为这条线不太好，因为这样的线范化能力极差，为了找到范化能力极好的，我们自然而然想到了找一条线使得其距离两边的点最远。好了，这样我们就可以进行数学计算了。

A seperation example

2.推导

我们的目的现在就是找到离训练集最远的hyperplane，而平面可以用 $f(x) =\omega^{T} x +b$ 来表示，

训练集上的点 $x_0$ 到超平面的距离可以定义为:

d i s t a n c e = | ω T x + b | | | ω | |

$\mathrm{distance} = \frac{|\omega^{T} x+ b|}{||\omega||}$
这里需要注意的是这个距离是高维度的，不是简单的欧式距离，考虑到为二分类器，结果只能为-1和1，我们先考虑一侧，可以做如下简化：

d i s t a n c e v c = | ω T x + b | | | ω | | = 1 | | ω | |

$\mathrm{distance}_{vc} = \frac{|\omega^{T} x+ b|}{||\omega||}= \frac{1}{||\omega||}$
另外一侧也是一样的结果，这样

r $r$ 间隔（margin）就是

r = 2 | | ω | |

$r=\frac{2}{||\omega||}$
我们可以把方程倒一下，从求解最大值变成求解最小值问题，即我们的目标函数为：

min ω, b L (ω) = 1 2 | | ω | | 2 subject to y i (ω T x i + b) \geq 1 \forall i,

$\min_{\omega, b} L(\omega) = \frac{1}{2}||\omega||^{2} \text{ subject to } y_{i}(\omega^{T} x_{i} +b) \geq 1 \text{ } \forall i,$

yi $y_i$ 指的是训练样本的 labels.

The Optimal hyperplane

要求解目标函数，可以引入拉格朗日乘子法 $\alpha_i$ (method of lagrange multiplier)，利用求导可以对我们的方程进行简化，

L = 1 2 | | w | | 2 - \sum n = 1 N α i \times (y n (w T x n + b) - 1)

$L=\frac{1}{2}||w||^2-\sum_{n=1}^{N}{\alpha_i\times \Big( y_n\left( w^Tx_n+b \right)-1 \Big) }$
这个方程等价于之前的目标函数，也就是说方程要满足两个 约束条件

最小化L
最大化拉氏乘子

下一步需要求解方程出参数使得L最小了，做法很简单，对 $\omega$ 和b求导，令导数等于0:

w = \sum i = 1 N a i y i x i 0 = \sum i = 1 N a i y i

$w=\sum_{i=1}^{N}{a_iy_ix_i}\\ 0=\sum_{i=1}^{N}{a_iy_i}$
求导相信大家都没有问题吧！算完后带入拉氏方程，可以得到：

max a l l α i L (α) = \sum i = 1 m α i - 1 2 \sum i = 1 m \sum j = 1 m a i a j y i y j x T i x j s u b j e c t t o \forall i \sum i = 1 m a i y i = 0, a i \geq 0 (1)

$\max_{all\ \alpha_i} L(\alpha)=\sum_{i=1}^{m}{\alpha_i} -\frac{1}{2}\sum_{i=1}^{m}{\sum_{j=1}^{m}{a_ia_jy_iy_jx_i^Tx_j} }\\ subject \,\,to\,\, \forall i\sum_{i=1}^{m}{a_iy_i}=0,a_i \ge0\tag{1}$
上述过程需满足KKT(Karush-Kuhn-Tucker) 条件，式(1)为二次规划问题，可利用SMO算法进行求解，具体证明见 SVM支持向量机二

参考：

[1].机器学习, 周志华著.

[2].支持向量机(SVM)是什么意思？

[3].Introduction to Support Vector Machines

bubble_story

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
支持向量机(SVM)(一)

支持向量机(SVM)(一)SVM是机器学习中常见的分类方法之一，其本质为一个二类分类器，目的是寻找一个分界超平面（对于二维，所以只是一条线，如果数据是三维的就是平面，如果是三维以上就是超平面）把这两类完全分开。而所谓的Support vector就是这些离分界线最近的『点』。如果去掉这些点，直线多半是要改变位置的。再加入新的样本点时，预测可能出现偏差。支持向量机是机器学习中处理二类分类问题...
复制链接

扫一扫

专栏目录