分类算法 - 支持向量机

最新推荐文章于 2022-08-02 18:14:21 发布

qq602683200

最新推荐文章于 2022-08-02 18:14:21 发布

阅读量1.1k

点赞数 1

分类专栏：机器学习算法文章标签：机器学习

本文链接：https://blog.csdn.net/qq602683200/article/details/109718720

版权

机器学习算法专栏收录该内容

6 篇文章 0 订阅

订阅专栏

这里写目录标题

1. 简介
2. 线性可分支持向量机
3. 线性不可分支持向量机
4. 软间隔支持向量机与松弛变量
- 4.1 目标函数
- 4.2 目标求解
5. 总结
- 5.1 优缺点
- 5.1 与其他分类算法的对比

1. 简介

支持向量机(support vector machine, svm)是一种二分类模型，它是定义在特征空间上的间隔最大的线性分类器，目的是寻找一个超平面对样本进行划分，其学习的策略是间隔最大化，可转换为求解一个凸二次规划问题，主要有以下三种类型：

训练样本线性可分：硬间隔最大化学习一个线性可分svm
训练样本近似线性可分：软间隔最大化学习一个线性可分svm
训练样本线性不可分：核函数+软间隔最大化学习非线性svm

2. 线性可分支持向量机

对于线性可分的数据集来说，存在无数个超平面可以对数据集进行二分，但几何间隔最大的超平面却是唯一的。
在这里插入图片描述

2.1 支持向量与间隔

在样本空间中，划分的超平面可通过一下线性方程来描述：
$w^{T}x + b = 0$
$w = (w_1;w2;...;w_d), b$ 为位移项，记该平面为 $(w, b)$ ，那么样本空间中，任意点 $x$ 到超平面 $(w, b)$ 的距离为
$\frac{|w^Tx + b|}{||w||}$

假设超平面 $(w, b)$ n能将训练样本正确分类，即若 $w^Tx_i+b>0$ 时，有 $y_i = +1$ ，若 $w^Tx_i+b<0$ ,有 $y_i = -1$ ，
在这里插入图片描述
针对所有训练数据，svm希望
$\begin{aligned} w^Tx_++b &\ge1\\ w^Tx_-+b &\le -1 \end{aligned}$

这里体现了最大分类间隔的思想， $\pm1$ 是为了方便计算，无论间隔多少，都可以通过缩放将其转换为上式。[2]

2.2 目标函数

那么，为了找到具有最大间隔的划分超平面，需要解决满足以下两个关系的最优解，即
$\begin{cases} \underset{w,b}{max}\frac{2}{||w||}\\ y_i(w^Tx_i+b) \ge 1, i = 1,2,...,m\\ \end{cases}$
等价于
$\begin{cases} \underset{w,b}{min}\frac{1}{2}||w||^2 \\ y_i(w^Tx_i+b) \ge 1, i = 1,2,...,m\\ \end{cases}$

2.3 对偶问题

我们希望通过求解
$\begin{cases} \underset{w,b}{min}\frac{1}{2}||w||^2 \\ y_i(w^Tx_i+b) \ge 1, i = 1,2,...,m\\ \end{cases}$
得到最大间隔划分平面所对应的模型 $f(x) = w^Tx+b$ , 这是一个凸二次规划问题。

对上式使用拉格朗日乘子法可以将其转换为其对偶问题

拉格朗日函数对偶问题
主问题：
$\begin{aligned} \underset{x}{min} &f(x) \\ s.t. g_i(x) &\le 0 \\ h_j(x) &=0 \end{aligned}$
其拉格朗日函数为：
$L(x,\alpha,\beta) = f(x) + \sum_{i=1}^m\alpha_ih_i(x)+\sum_{j=1}^n\beta_jg_j(x)$
其中， $\beta_j\ge0$

主问题的等价问题：
$\begin{aligned} \underset{x}{min} &\underset{\alpha;\beta}{max} L(x,\alpha,\beta)\\ &s.t.\beta_j \ge0 \end{aligned}$
证明：由于主问题满足等式约束，因此，拉格朗日函数的第二项为0，第三项的系数 $\beta_j\ge0$ ，因此有 $\sum_{j=1}^n\beta_jg_j(x) \le0$ , 对于拉格朗日函数而言，第三项为0时，拉格朗日函数取到最大值，即
$\underset{\alpha_i;\beta_j \ge0}{max} L(x,\alpha,\beta)$
那么，得到主问题的对偶问题 $\underset{x}{min} \underset{\alpha_i;\beta_j \ge0}{max} L(x,\alpha,\beta)$

对偶问题：
$\begin{aligned} \underset{\alpha;\beta}{max} &\underset{x}{min} L(x,\alpha,\beta) \\ &s.t.\beta_j \ge0 \end{aligned}$
对偶问题是原始问题的下界,即 $\underset{\alpha;\beta}{max} \underset{x}{min} L(x,\alpha,\beta) \le \underset{x}{min} \underset{\alpha;\beta}{max} L(x,\alpha,\beta)$ , 证明:

参考：从放弃到再入门之拉格朗日对偶问题推导

对偶函数与原始问题的形式非常类似，只是把min和max交换了一下

记原始问题的解为 $p^{*}$ ,对偶问题的解为 $d^{*}$ ,对偶问题和原始问题的最优解并不相等，如果 $p^{*} \le d^{*}$ ，则称满足弱对偶性，如果 $p^{*} =d^{*}$ ，称满足强对偶性。

强对偶是一个非常好的性质，在强对偶成立的情况下，可以通过求解对偶问题来得到原始问题的解。但需要满足KKT条件：
$\begin{cases} 1. \nabla L(x,\alpha,\beta) = 0,i = 1,2,...,m\\ 2. g_i(x) \le 0 \\ 3. h_j(x) =0 \\ 4. \beta_i \ge 0 \\ 5. \beta_ig_i(x) = 0 \\ \end{cases}$
关于kkt条件，可以参考：真正理解拉格朗日乘子法和kkt条件

对于SVM而言，其拉格朗日函数可以写为：
$L(w,b,\alpha) = \frac{1}{2}||w||^2 + \sum_{i=1}^m\alpha_i(1 - y_i(w^Tx_i+b))$

令 $L(w,b,\alpha)$ 对 $w$ 和 $b$ 求导为0，可得：
$\sum_{i=1}^m \alpha_iy_ix_i \\ 0 = \sum_{i=1}^m \alpha_iy_i$
带回拉格朗日函数，得到
$\underset{w,b}{min} L(w,b,\alpha) = \sum_{i=1}^m \alpha_i - \frac12 \sum_{i=1}^m \sum_{j=1}^m \alpha_i \alpha_j y_i y_j x_i^Tx_j$

对偶问题为求 $\underset{w,b}{min} L(w,b,\alpha)$ 的极大值，即
$\begin{aligned} \underset{\alpha}{max} &\sum_{i=1}^m \alpha_i - \frac12 \sum_{i=1}^m \sum_{j=1}^m \alpha_i \alpha_j y_i y_j x_i^Tx_j \\ s.t. &\sum_{i=1}^m a_iy_i = 0 \\ & \alpha_i \ge 0 \end{aligned}$
由于还存在不等式约束，因此还需要满足KKT条件:
$\begin{cases} \alpha_i \ge 0 \\ 1 - y_if(x_i) \le 0 \\ \alpha_i(1 - y_if(x_i)) = 0 \end{cases}$
得到的超平面方程为：
$w^Tx+b=\sum_{i=1}^m\alpha_iy_ix_i^Tx_i+b$

观察KKT条件，对于任意样本 $x_i,y_i)$ ,总有 $\alpha_i = 0$ 或 $y_if(x_i) = 1$

若 $\alpha_i = 0$ , 该样本在超平面方程的求和项中为0，对f(x)无影响
若 $\alpha_i > 0$ ,则 $y_if(x_i) = 1$ ,则该样本为支持向量

这里显示了支持向量的重要性质，大部分的训练样本都不需要保留最终的模型仅与支持向量有关

2.3 实例求解

在这里插入图片描述

3. 线性不可分支持向量机

在现实任务中，原始样本空间也许并不存在一个划分超平面能将样本正确分类，如下图：
在这里插入图片描述
对于这样的问题，SVM升维的方法，其主要基于：在低维空间中线性不可分的数据集，通过特征映射 $\Phi$ 映射到到高维的空间中，将会以更高的概率可以线性划分。

以上图的“异或”问题为例，空间中的四个样本点
$x_1 = \begin{bmatrix} 0 \\ 0 \end{bmatrix} \in C_1, x_2 = \begin{bmatrix} 1\\ 1 \end{bmatrix} \in C_1 \\ x_3 = \begin{bmatrix} 1 \\ 0 \end{bmatrix} \in C_2, x_4 = \begin{bmatrix} 0 \\ 1 \end{bmatrix} \in C_2 \\$
定义变换 $\Phi(x): x = \begin{bmatrix} a \\ b \end{bmatrix} \to \Phi(x) = \begin{bmatrix} a \\ ab \\b \end{bmatrix}$

变换后，得到的4个点为(0,0,0),(1,1,1),(1,0,0),(0,0,1)，点在空间中的位置如上面的右图，变换后，可以找到一个平面将两类样本进行正确划分。

由于特征空间的维度可能很高，甚至是无穷维，直接进行计算通常会有困难。我们可以不知道无限维映射 $\Phi(x)$ 的显示表达式，我们只要知道一个核函数
$\kappa(x_1,x_2) = \Phi (x_1)^T \Phi (x_2)$
即 $\Phi(x_1)$ 和 $\Phi(x_2)$ 的内积，那么核函数 $\kappa(x_1,x_2)$ 将会得到一个常数

为了对核函数有一个更深入的理解，看李航的《统计学习方法》的这个例题：
在这里插入图片描述
要注意，核函数和映射没有关系，核函数只是用来计算映射到高维空间之后内积的结果。通常我们不知道高维映射 $\Phi(\cdot)$ 的具体形式，那么合适的核函数是否一定存在呢。Scholkopf and Smola证明了以下定理：
在这里插入图片描述

常用的核函数：

RBF的推导可以参考：透彻形象理解核函数

对于svm，优化函数变为：
$\begin{cases} \underset{w,b}{min}\frac{1}{2}||w||^2 \\ y_i(w^T\Phi(x_i+b)) \ge 1, i = 1,2,...,m\\ \end{cases}$
对偶问题变为：
$\begin{aligned} \underset{\alpha}{max} &\sum_{i=1}^m \alpha_i - \frac12 \sum_{i=1}^m \sum_{j=1}^m \alpha_i \alpha_j y_i y_j \Phi(x_i)^T\Phi(x_j) \\ s.t. &\sum_{i=1}^m a_iy_i = 0 \\ & \alpha_i \ge 0 \end{aligned}$
对偶问题等价于
$\begin{aligned} \underset{\alpha}{max} &\sum_{i=1}^m \alpha_i - \frac12 \sum_{i=1}^m \sum_{j=1}^m \alpha_i \alpha_j y_i y_j \kappa(x_1,x_2) \\ s.t. &\sum_{i=1}^m a_iy_i = 0 \\ & \alpha_i \ge 0 \end{aligned}$

对应的超平面为
$\begin{aligned} f(x) &= w^Tx+b \\ &=\sum_{i=1}^m\alpha_iy_i\Phi(x_i)^T\Phi(x)+b \\ &= \sum_{i=1}^m\alpha_iy_i\kappa(x_i,x)+b \end{aligned}$

4. 软间隔支持向量机与松弛变量

4.1 目标函数

以上的讨论是基于存在一个超平面能将原始空间或升维后的特征空间准确划分成两类，但将训练样本精确分类并不是一件十全十美的事情，因为这样的模型可能鲁棒性并不高，可能还有会过拟合的风险，因此，我们引入“软间隔”和“松弛向量”的概念，允许出现一定的误差，来避免上述情况。

在这里插入图片描述
如上图，正负样本并没有被两条虚线完全分开，从数学上来说，存在部分样本 $x_i,y_i)$ 满足 $y_i(w^Tx_i+b) \le 1$ , 将原来的条件放宽，降低模型的过拟合风险。

我们引入松弛变量 $\xi_i$ ,使得上述关系变为
$y_i(w^Tx_i+b) \ge 1 - \xi_i$

我们也不希望 $\xi_i$ 过大，因此我们需要解决的优化问题变为
$\begin{cases} \underset{w,b,\xi}{min}\frac{1}{2}||w||^2 + C\sum_{i=1}^n\xi_i\\ y_i(w^Tx_i+b) \ge 1 - \xi_i, i = 1,2,...,m\\ \xi_i \ge 0,i = 1,2,...,m \end{cases}$

对应求解
$\underset{w,b,\xi}{min} \underset{\alpha,\mu}{max} L(w,a,b,\xi,\mu)$

在满足KKT的条件下求解其对偶问题
$\underset{\alpha,\mu}{max} \underset{w,b,\xi}{min} L(w,a,b,\xi,\mu)$

其中，拉格朗日函数
$L(w,a,b,\xi,\mu) = \frac{||w||^2}{2} + C\sum_{i=1}^n\xi_i +\sum_{i=1}^n\alpha_i(1-\xi_i-y_i(w^Tx_i+b)) + \sum_{i=1}^n\mu_i\xi_i$
KKT条件为：
$\begin{cases} 1 - \xi_i - y_i(w^Tx_i+b) \le 0 \\ - \xi_i \le 0\\ \alpha_i(1-\xi_i-y_i(w^Tx_i+b)) = 0 \\ \alpha_i \ge 0 \\ \mu_i \ge 0 \end{cases}$

4.2 目标求解

为求 $\underset{w,b,\xi}{min} L(w,a,b,\xi,\mu)$ ，对拉格朗日函数求梯度，并令其为0，得到
$\begin{aligned} \frac{\partial L}{\partial w} &= w - \sum_{i=1}^n\alpha_iy_ix_i = 0 \implies w = \sum_{i=1}^n\alpha_iy_ix_i \\ \frac{\partial L}{\partial b} &= - \sum_{i=1}^n\alpha_iy_i= 0 \implies \sum_{i=1}^n\alpha_iy_i= 0 \\ \frac{\partial L}{\partial \xi_i} &= C - \alpha_i - \mu_i =0 \implies C = \alpha_i +\mu_i \end{aligned}$
拉格朗日函数的最小值和硬间隔时一样
$\underset{w,b,\xi}{min} L(w,\alpha,b,\xi,\mu) = \sum_{i=1}^m \alpha_i - \frac12 \sum_{i=1}^m \sum_{j=1}^m \alpha_i \alpha_j y_i y_j x_i^Tx_j$

所以对偶问题为
$\begin{aligned} \underset{\alpha,\mu}{max} & \sum_{i=1}^m \alpha_i - \frac12 \sum_{i=1}^m \sum_{j=1}^m \alpha_i \alpha_j y_i y_j x_i^Tx_j\\ s.t. &\sum_{i=1}^m a_iy_i = 0 \\ &0 \le \alpha_i \le C \end{aligned}$
因为 $\alpha_i \ge 0$ 并且 $C=\alpha_i+\mu_i$ ,此时再去用二次规划的方法求解。

5. 总结

5.1 优缺点

在集成学习和神经网络表现出其优势以前，svm在分类算法中几乎占据着统治地位，现在也是经典的分类算法，主要有以下优缺点：

优点

svm将原始空间映射到更高维空间，利用核函数简化计算，灵活有效解决了非线性可分数据的分类问题
分类思想简单，模型可解释性强，分类效果好，泛化能力强
仅依赖于少数支持向量，无需依赖所有样本数据
无局部极小值问题

缺点

由于svm部分参数的求解与样本量有关，在处理大规模数据没有优势
对核函数的选择没有通用的方法，有时候不一能选取到合适的核函数
常规SVM只能解决二分类问题
对缺失值和参数选择敏感

5.1 与其他分类算法的对比

参考：逻辑回归 vs 决策树 vs 支持向量机

[1]周志华的西瓜书
[2] 学习SVM（二）如何理解支持向量机的最大分类间隔
[3] 拉格朗日对偶问题
[4]拉格朗日乘子法 - KKT条件 - 对偶问题
[5] 机器学习算法整理（七）支持向量机以及SMO算法实现
[6]软间隔SVM与核函数
[7]支持向量机总结

qq602683200

关注

1
点赞
踩
4

收藏

觉得还不错? 一键收藏
0
评论
分类算法 - 支持向量机

这里写目录标题1. 简介2. 线性可分支持向量机2.1 支持向量与间隔2.2 目标函数2.3 对偶问题2.3 实例求解3. 线性不可分支持向量机4. 软间隔支持向量机与松弛向量5. 总结1. 简介支持向量机(support vector machine, svm)是一种二分类模型，它是定义在特征空间上的间隔最大的线性分类器，目的是寻找一个超平面对样本进行划分，其学习的策略是间隔最大化，可转换为求解一个凸二次规划问题，主要有以下三种类型：训练样本线性可分：硬间隔最大化学习一个线性可分svm训练样本近
复制链接

扫一扫