SVM（基于李航统计学习方法，包含SMO）

rd142857

于 2023-05-06 21:33:21 发布

阅读量901

点赞数

文章标签：支持向量机学习方法机器学习

本文链接：https://blog.csdn.net/rd142857/article/details/130535790

版权

本文详细介绍了支持向量机(SVM)的概念，包括线性可分SVM的硬间隔最大化，函数间隔与几何间隔的区别，以及间隔最大化的优化问题。讨论了对偶算法在SVM学习中的应用，指出在非线性情况下如何通过核函数处理。此外，还提及了SMO算法用于解决二次规划问题的选择变量策略。

摘要由CSDN通过智能技术生成

文章目录

线性可分SVM和硬间隔最大化
线性SVM和软间隔最大化
- 支持向量
非线性SVM和核函数
SMO算法

线性可分SVM和硬间隔最大化

函数间隔和几何间隔

用 $y (w x + b)$ 表示分类的正确性和确信度

函数间隔

样本点的函数间隔

$\hat\gamma_i=y_i(wx_i+b)$

数据集的函数间隔：所有样本点的函数间隔最小值

$\hat\gamma = \min_{i=1,\cdots, N}\hat\gamma_i$
几何间隔：只要成比例地改变 w, b ，函数间隔就会改变。因此规范化，样本点的几何间隔

$\gamma_i = y_i(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||})$

这刚好是点到直线的距离

数据集的几何间隔为

$\gamma = \min_{i=1,\cdots, N}\gamma_i$

可得函数间隔和几何间隔的关系

$\gamma =\frac{\hat\gamma}{||w||}$

间隔最大化

SVM学习的基本思想：求解能正确划分训练集并且几何间隔最大的分离超平面

原最优化问题

$\max_{w, b}\quad \gamma \\ {\rm s.t.}\quad y_i(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||})\geq \gamma,\quad i = 1,2,\cdots, N$

改写为函数间隔的形式

$\max_{w, b}\quad \frac{\hat\gamma}{||w||} \\ {\rm s.t.}\quad y_i({w}\cdot x_i+{b})\geq \hat\gamma,\quad i = 1,2,\cdots, N$

而函数间隔的取值并不影响最优化问题的解，因此取 1 ，并转换成最小化凸函数的形式（凸优化问题，局部最优解就是全局最优解）

$\min_{w, b}\quad \frac{1}{2}||w||^2 \\ {\rm s.t.}\quad y_i({w}\cdot x_i+{b})-1\geq 0,\quad i = 1,2,\cdots, N$

支持向量

在线性可分的情况下，训练数据集的样本点中与分离超平面距离最近的样本点的实例称为支持向量，也就是使约束条件等号成立的向量

$y_i({w}\cdot x_i+{b})-1 = 0$

在这里插入图片描述

H1与H2之间的距离成为间隔，H1, H2称为间隔边界。决定分离超平面时，只有支持向量起作用。移动其他的样本点并不改变所求的解，因此SVM由很少的“重要的”训练样本决定。

学习的对偶算法

有关对偶问题和KKT条件的前导知识可见此篇
简单地说，

原始问题：先求关于算子的极大，再求关于参数的极小
对偶问题：先求关于参数的极小，再求关于算子的极大

线性可分SVM的拉格朗日函数

$L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum_{i=1}^N \alpha_i y_i(wx_i+b)+\sum_{i=1}^N \alpha_i$

对偶问题

$\max_{\alpha}\min_{w,b} L(w,b,\alpha)$

求 $\min_{w,b} L(w,b,\alpha)$

对 $w, b$ 求偏导，得到约束

$w=\sum_{i=1}^N \alpha_i y_i x_i\\ \sum_{i=1}^N \alpha_i y_i=0$

代入原式即可。
求极大（线性可分SVM算法）

$\max_{\alpha}\quad -\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i\alpha_j y_iy_j(x_i\cdot x_j)+\sum_{i=1}^N\alpha_i \\ {\rm s.t.}\quad \begin{aligned} & \sum_{i=1}^N\alpha_iy_i=0 \\ & \alpha_i\geq 0 \end{aligned}$

由于原始问题满足C.2的条件，原始问题可以转换为对偶问题

提炼一下，

$L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum_{i=1}^N \alpha_i y_i(wx_i+b)+\sum_{i=1}^N \alpha_i$

原始问题

$\min_{w, b}\quad \frac{1}{2}||w||^2 \\ {\rm s.t.}\quad y_i({w}\cdot x_i+{b})-1\geq 0,\quad i = 1,2,\cdots, N$

对偶问题

$\min_{\alpha}\quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i\alpha_j y_iy_j(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i \\ {\rm s.t.}\quad \begin{aligned} & \sum_{i=1}^N\alpha_iy_i=0 \\ & \alpha_i\geq 0 \end{aligned}$

带入得到原始最优化问题的解

$w^*=\sum_{i=1}^N \alpha_i^* y_i x_i \\ b^*=y_j-\sum_{i=1}^N \alpha_i^*y_i(x_i\cdot x_j)$

其中， $j$ 满足 $\alpha_j^*>0$ ，事实上也就是支持向量。

线性SVM和软间隔最大化

假设训练数据集不是线性可分的，通常情况是有一些特异点，去除了这些特异点之后数据集就线性可分了。引入一个松弛变量，使得函数间隔加上松弛变量大于等于1

$y_i(wx_i+b)\geq 1-\xi_i$

改变目标函数
提炼一下，

$\frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i$

$L(w,b,\xi,\alpha,\mu)=\frac{1}{2}||w||^2+C\sum_{i=1}^N\xi_i-\sum_{i=1}^N \alpha_i (y_i(wx_i+b)-1+\xi_i)-\sum_{i=1}^N \mu_i\xi_i$

原始问题

$\min_{w, b}\quad \frac{1}{2}|| w||^2+C\sum_{i=1}^N\xi_i \\ {\rm s.t.}\quad \begin{aligned} & y_i({w}\cdot x_i+{b})\geq 1-\xi_i,\quad i = 1,2,\cdots, N \\ & \xi_i\geq 0, \quad i = 1,2,\cdots, N \end{aligned}$

对偶问题

线性SVM的对偶问题和线性可分SVM的对偶问题差不多，只在最后一条约束里有改动，这是在对参数求 $\min$ 时 $\xi_i$ 那项带来的。

$w, b$ 的计算过程和线性可分SVM的一样。

支持向量

在线性不可分的情况下，将对偶问题的解中对应 $\alpha_i^*>0$ 的样本点的实例作为支持向量

在这里插入图片描述

$\alpha_i^*<C$ ：由KKT条件，此时 $\xi_i=0$ ，支持向量恰好落在间隔边界上

（ $\mu_i^*=C-\alpha_i^*>0, \mu_i^*\xi_i=0$ ）
$\alpha_i^*=C$ ：由KKT条件， $\xi_i>0$
- $0<\xi_i<1$ ：支持向量落在间隔边界和超平面之间，分类正确
- $\xi_i=1$ ：支持向量落在超平面上
- $\xi_i>1$ ：支持向量落在误分类一侧

上述关系可由线性SVM的KKT条件得到，

非线性SVM和核函数

采取非线性变换，将非线性问题转化为线性问题

核函数的大义

$\phi(x)=\mathcal{X}\to\mathcal{H},\ K(x,z)=\phi(x)\cdot\phi(z)$

对于给定的核 $K$ ，特征空间 $\mathcal{H}$ 和映射 $\phi$ 的取法不唯一

因为特征向量 $x$ 可能有很多维，可以修改线性SVM的对偶问题

$W(\alpha)=\frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i\alpha_j y_iy_jK(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i$

分类决策函数中的内积也可以换

$f(x)={\rm sign}(\sum_{i=1}^N \alpha_i^*y_iK(x_i, x)+b^*)\\ b^*=y_j-\sum_{i=1}^N \alpha_i^*y_iK(x_i, x)$
提炼一下，

$\min_{\alpha}\quad \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N \alpha_i\alpha_j y_iy_jK(x_i\cdot x_j)-\sum_{i=1}^N\alpha_i \\ {\rm s.t.}\quad \begin{aligned} & \sum_{i=1}^N\alpha_iy_i=0 \\ & 0\leq\alpha_i\leq C,\quad i = 1,2,\cdots, N \end{aligned}$

常用的核函数

SMO算法

求解这个对偶问题

变量有 $N$ 个，太多了。如果每个变量都满足KKT就好了，所以每次选取两个变量去让它们接近于满足KKT条件

求解二次规划

启发算法，一次选择两个变量，固定其他变量，求解二次规划子问题，这个二次规划问题关于这两个变量的解应该更接近原始二次规划问题的解。
选取一个违反KKT条件最严重的变量，另一个自动确定（因为在固定 $n - 2$ 个变量之后，也就固定了 $y_1\alpha_1+y_2\alpha_2$ 的值，那么 $\alpha_1$ 确定时 $\alpha_2$ 也确定了）

从原始对偶问题中抽出和选出变量 $\alpha_1, \alpha_2$ 相关的部分，可以得到子问题

$\min_{\alpha}\quad \frac{1}{2}K_{11}\alpha_{1}^2+\frac{1}{2}K_{22}\alpha_2^2+y_1y_2K_{12}\alpha_1\alpha_2-(\alpha_1+\alpha_2)+y_1\alpha_1\sum_{i=3}^N \alpha_i y_iK_{i1}-y_2\alpha_2\sum_{i=3}^N \alpha_i y_iK_{i2} \\ \begin{aligned} {\rm s.t.}\quad& y_1\alpha_1+y_2\alpha_2=-\sum_{i=3}^N\alpha_iy_i=\varsigma \\ & 0\leq\alpha_i\leq C,\quad i = 1,2 \end{aligned}$

在这里插入图片描述
该二次规划问题又可以转换为单变量优化问题，因为 $y_i$ 的取值只能是 $\pm1$ 。
$\begin{aligned} {\rm s.t.}\quad& y_1\alpha_1+y_2\alpha_2=-\sum_{i=3}^N\alpha_iy_i=\varsigma \\ & 0\leq\alpha_i\leq C,\quad i = 1,2 \end{aligned}$

那么固定 $\alpha_1^{new}$ ，限定 $\alpha_2^{new}$ 的取值范围为 $L\leq\alpha_2^{new}\leq H$ ，其中

$y_1\neq y_2$
- $\alpha_2^{old}-\alpha_1^{old}\leq0$ ： $H=C+\alpha_2^{old}-\alpha_1^{old}$
- $\alpha_2^{old}-\alpha_1^{old}>0$ ： $L=\alpha_2^{old}-\alpha_1^{old}, H=C$
$y_1=y_2$
- $\alpha_1^{old}+\alpha_2^{old}\leq C$ ： $H=\alpha_1^{old}+\alpha_2^{old}$
- $\alpha_1^{old}+\alpha_2^{old}> C$ ： $L=\alpha_1^{old}+\alpha_2^{old}-C, H=C$

在这里插入图片描述

子问题沿着约束方向未经剪辑（指没考虑7.103，最后一行）的解是

$\alpha_2^{new, unc}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{\eta}\tag{7.106}\\ \eta=K_{11}+K_{22}-2K_{12}=||\phi(x_1)-\phi(x_2)||^2$

可以根据此得到 $\alpha_1^{new}, \alpha_2^{new}$ 。

如果 $\alpha_2^{new, unc}$ 夹在 $L, H$ 的范围内，就直接那它作为 $\alpha_2^{new}$ 的值，否则就按需取 $L$ 或 $H$ 。

根据 $y_1\alpha_1+y_2\alpha_2=-\sum_{i=3}^N\alpha_iy_i=\varsigma$ ，可以得到如下等式

$y_1\alpha_1^{old}+y_2\alpha_2^{old}=y_1\alpha_1^{new}+y_2\alpha_2^{new}$

由于 $y_1\cdot y_1=1$ ，等式两边同乘 $y_1$ , $\alpha_1^{new} = \alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})$

选择变量

第一个变量

外层循环，选择违反KKT条件最严重的样本点 $\alpha_1$ 。首先遍历间隔边界上（ $0<\alpha_i<C$ ）的支持向量点，如果这些点都满足KKT条件，就遍历整个训练集。

由KKT条件（线性SVM的KKT条件在支持向量小节的图片中有列出），可知 $0<\alpha_i<C$ 时 $\mu_i>0$ ，则松弛变量 $\xi_i=0$ ，所以 $0<\alpha_i<C$ 意味着该点在间隔边界上

KKT条件如下

$\begin{aligned} \alpha_i=0 &\Leftrightarrow y_ig(x_i)\geq 1 \\ 0<\alpha_i<C &\Leftrightarrow y_ig(x_i)= 1 \\ \alpha_i=C &\Leftrightarrow y_ig(x_i)\leq 1 \\ \end{aligned}$

由于 $E_i=g(x_i)-y_i$ ，上式可以改写为

$\begin{aligned} \alpha_i=0 &\Leftrightarrow y_iE_i\geq 0 \\ 0<\alpha_i<C &\Leftrightarrow y_iE_i= 0 \\ \alpha_i=C &\Leftrightarrow y_iE_i\leq 0 \\ \end{aligned}$

违反KKT条件的检验应在 $\varepsilon$ 范围内进行，

$\begin{aligned} \alpha_i<C\Leftrightarrow y_iE_i\geq 0\Leftrightarrow y_iE_i<\epsilon则违反KKT条件\\ \alpha_i>0\Leftrightarrow y_iE_i\leq 0\Leftrightarrow y_iE_i>\epsilon则违反KKT条件 \end{aligned}$

第二个变量

内层循环，选择能发生足够大变化的 $\alpha_2$ 。由(7.106)知 $\alpha_2^{new}$ 依赖于 $E_1-E_2|$ ，

直观做法，由于 $\alpha_1, E_1$ 确定，直接选和 $E_1$ 相差最远的 $E_i$ 作为 $E_2$
启发方法，如果变化不够大，就随机用间隔边界上的支持向量
还不行就从整个训练集里挑一个

计算 $b$ 和 $E_i$

在这里插入图片描述

rd142857

关注

0
点赞
踩
1

收藏

觉得还不错? 一键收藏
1
评论
SVM（基于李航统计学习方法，包含SMO）

里有改动，这是在对参数求。
复制链接

扫一扫

SVM（基于李航统计学习方法，包含SMO）

文章目录

线性可分SVM和硬间隔最大化

函数间隔和几何间隔

间隔最大化

支持向量

学习的对偶算法

线性SVM和软间隔最大化

支持向量

非线性SVM和核函数

SMO算法

求解二次规划

选择变量

第一个变量

第二个变量

计算 b b b 和 E i E_i Ei​

计算 $b$ 和 $E_i$