【机器学习】SVM关键点解析

flying_rabbit01

已于 2023-09-30 14:57:50 修改

阅读量336

点赞数 1

分类专栏：机器学习文章标签：支持向量机机器学习 svm

于 2021-10-05 16:42:29 首次发布

本文链接：https://blog.csdn.net/flying_rabbit01/article/details/120615379

版权

机器学习专栏收录该内容

1 篇文章 0 订阅

订阅专栏

给定训练样本集 $D=\{(x_1, y_1), (x_2, y_2), ..., (x_m, y_m)\},y_i \in \{-1, 1\}$ 。

y只是一个label，标记{-1,1}来区分正类和负类。

当然也可以标记为{0,300}，只不过此时分正类的标准变为(y-150)*f(x)>0。

超平面方程

$f(x) = w^Tx+b$

f(x)=0，超平面上的点。
f(x)>0，分类为1的点。
f(x)<0，分类为-1的点。

任意点到超平面的距离为
$\frac{|w^Tx_i+b|}{||w||}$
实际上，对于 $f(x)=w^Tx+b$ 这个超平面，我们可以等比例的放大/缩小w和b，其分类结果不变。因此，我们可以约束距离超平面最近的点满足
$w^Tx_i+b=±1，$
即
$y_i(w^Tx_i+b) \geq 1$

也可以用函数间隔和几何间隔来理解。

因此，为了使超平面的抗扰动效果最好，即超平面离两边的数据间隔最大，目标为
$\max \frac{2}{||w||} \\ s.t. \quad y_i(w^Tx_i+b) \geq 1$

SVM的基本型

$\min \frac{1}{2}||w||^2 \\ s.t. \quad y_i(w^Tx_i+b) \geq 1$

凸二次规划

这个问题可以用现成的QP (Quadratic Programming) 优化包进行求解。

但若利用“对偶问题”来求解会更高效；而且可以自然地引入核函数，进而推广到非线性分类问题。

目标函数	约束条件	问题分类
线性函数	线性约束	线性规划
二次函数	线性约束	二次规划
非线性函数	非线性约束	非线性规划

对偶问题

拉格朗日乘子法

用于解决有等式约束的优化问题。
$\min f \\ s.t. g=0$
引入 $\lambda \geq 0$ ，定义 $F=f+\lambda g$ ，求解
$\begin{cases} \frac{\delta F}{\delta x_i} &= 0 \\ \frac{\delta F}{\delta \lambda} &= 0 \end{cases}$

KKT条件

用于解决有不等式约束的优化问题。
$\min f \\ s.t. g=0,h\leq 0$
引入 $\lambda, \mu \geq 0$ ，定义 $L=f+\lambda g + \mu h$ ，求解
$\begin{cases} \frac{\delta L}{\delta x_i} &= 0 \\ \frac{\delta L}{\delta \lambda} &= 0 \\ \sum \mu·h &= 0 \end{cases}$

SVM的拉格朗日函数

$\alpha)=\frac{1}{2}\|w\|^{2}+\sum_{i=1}^{m} \alpha_{i}\left(1-y_{i}\left(w^{T} x_{i}+b\right)\right)$

目标函数表示为
$\min_{w,b} \max_{\alpha_i \geq 0} L$

$y_i(w^Tx_i+b)<1$ ，即不满足约束时， $\max L \rightarrow \infin$ 。
$y_i(w^Tx_i + b) \geq 1$ ，即满足约束时， $\max L = \frac{1}{2}||w||^2$ 。

因此转化后的问题包含了原优化问题。

进一步，当满足KKT条件时，我们得到SVM的对偶问题：
$\max_{\alpha_i \geq 0} \min_{w,b} L$
因此，下面我们计算KKT条件约束。
$\begin{cases} \frac{\delta L}{\delta w} &= 0 \\ \frac{\delta L}{\delta b} &= 0 \\ \sum \alpha_i(1-y_i(w^Tx_i+b)) &= 0 \end{cases}$
化简可得
$\begin{cases} w &= \sum \alpha_iy_ix_i \\ 0 &= \sum \alpha_iy_i \end{cases}$
代入L可得
$\max_{\alpha_i \geq 0}\{\sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j}\}$
且满足约束
$\begin{cases} \alpha_i &\geq 0 \\ 1-y_i(w^Tx_i+b) &\leq 0 \\ \alpha_i(1-y_i(w^Tx_i+b)) &= 0 \end{cases}$

$\alpha_i=0$ ， $\alpha_i(1-y_i(w^Tx_i+b))=0$ 必然成立；
$\alpha_i>0$ ，则要求 $1-y_i(w^Tx_i+b)=0$ ，此时 $\alpha_i$ 对应的向量在最大间隔的边缘上，即是支持向量。

面对线性不可分问题，可加入松弛因子 $\epsilon_i \geq 0$ 。

原始目标函数变为
$\min \frac{1}{2}||w||^2+C\sum\epsilon_i$
经KKT条件转变过的对偶问题的目标函数仍为
$\max_{\alpha_i \geq 0}\{\sum_{i=1}^{m} \alpha_{i}-\frac{1}{2} \sum_{i, j=1}^{m} \alpha_{i} \alpha_{j} y_{i} y_{j} x_{i}^{T} x_{j}\}$
同时第一个约束条件变为 $0<\alpha_i<C$ 。

如何求解 $\alpha$

SMO算法

SMO 算法的基本思想是将原问题求解 $(\alpha_1, \alpha_2,..., \alpha_N)$ 这 N 个参数的问题分解成多个子二次规划的问题分别求解，每个子问题只需要求解其中的 2 个参数，每次通过启发式选择两个变量进行优化，不断循环，直到达到函数的最优值。

为什么不能仅将一个作为参数？因为 $\alpha_i$ 之间满足约束 $\sum\alpha_iy_i=0$ ，一旦其他 $\alpha$ 确定，最后剩下的 $\alpha$ 也将唯一确定。

化简对偶问题的目标函数

将 $\alpha_1, \alpha_2$ 视作变量，
$\begin{aligned} \min \Psi\left(\alpha_{1}, \alpha_{2}\right)=& \frac{1}{2} K_{11} \alpha_{1}^{2} y_{1}^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2} y_{2}^{2} \\ &+\frac{1}{2} K_{12} \alpha_{1} \alpha_{2} y_{1} y_{2}+\frac{1}{2} K_{21} \alpha_{2} \alpha_{1} y_{2} y_{1} \\ &-\left(\alpha_{1}+\alpha_{2}\right)+y_{1} v_{1} \alpha_{1}+y_{2} v_{2} \alpha_{2}+P \end{aligned}$
由于， $y^2=1, K_{ij}=K_{ji}$ ，化简可得：
$\begin{aligned} \min \Psi\left(\alpha_{1}, \alpha_{2}\right)=& \frac{1}{2} K_{11} \alpha_{1}^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+K_{12} \alpha_{1} \alpha_{2} y_{1} y_{2} \\ &-\left(\alpha_{1}+\alpha_{2}\right)+y_{1} v_{1} \alpha_{1}+y_{2} v_{2} \alpha_{2}+P \end{aligned}$
其中， $K_{ij}$ 为核函数， $v_{i}=\sum_{j=3}^{N} \alpha_{j} y_{j} K_{i j}=0$ ， $P$ 为常数。

用 $\alpha_2表示\alpha_1$

由 $∑\alpha_iy_i=0$ 得：
$\alpha_{1} y_{1}+\alpha_{2} y_{2}=-\sum_{i=3}^{N} \alpha_{i} y_{i}=\zeta$
等式两边同乘 $y_1$ （ $y_i^2=1$ ）可得：
$\alpha_{1}=\left(\zeta-y_{2} \alpha_{2}\right) y_{1}$
代入目标函数消去 $\alpha_1$ 可得：
$\begin{aligned} \Psi\left(\alpha_{2}\right)=& \frac{1}{2} K_{11}\left(\zeta-\alpha_{2} y_{2}\right)^{2} y_{1}^{2}+\frac{1}{2} K_{22} \alpha_{2}^{2}+K_{12}\left(\zeta-\alpha_{2} y_{2}\right) \alpha_{2} y_{1}^{2} y_{2} \\ &-\left(\zeta-\alpha_{2} y_{2}\right) y_{1}-\alpha_{2}+v_{1}\left(\zeta-\alpha_{2} y_{2}\right) y_{1}^{2}+y_{2} v_{2} \alpha_{2}+P \end{aligned}$

对 $\alpha_2$ 求极值

$\begin{aligned} \frac{\partial \Psi\left(\alpha_{2}\right)}{\partial \alpha_{2}}=&\left(K_{11}+K_{22}-2 K_{12}\right) \alpha_{2}-K_{11} \zeta y_{2}+K_{12} \zeta y_{2} +y_{1} y_{2}-1-v_{1} y_{2}+v_{2} y_{2} = 0 \end{aligned}$

SMO 的思想是一个迭代求解的思想，所以必须构造出 $\alpha_{new}$ 与 $\alpha_{old}$ 之间的关系：
$\alpha_{1}^{n e w} y_{1}+\alpha_{2}^{\text {new }} y_{2}=\alpha_{1}^{\text {old }} y_{1}+\alpha_{2}^{\text {old }} y_{2}=\zeta$
最终化简可得
$\alpha_{2}^{\text {new }}=\alpha_{2}^{o l d}+\frac{y_{2}\left(E_{1}-E_{2}\right)}{\eta}$
其中，

$\alpha_{new}$ 表示本次迭代的计算值， $\alpha_{old}$ 为上次的迭代值。
$E_{i}=f\left(x_{i}\right)-y_{i}$ 表示预测值与真实值的差。
$\eta=K_{11}+K_{22}-2 K_{12}$ 。

$\alpha_2^{new}$ 的约束

上面通过求导的方式计算出的 $\alpha_{new}$ 是未经过约束的，即计算出来的值可能不满足约定的条件
$\left\{\begin{array}{l} 0 \leq \alpha_{i} \leq C \\ \alpha_{1} y_{1}+\alpha_{2} y_{2}=\zeta \end{array}\right.$
这两个约束条件可以在二维平面上进行直观的展示

$\alpha_{new}$ 必须要在方框内和斜线上取值，其最大最小值一定是其交点，所以有 $\leq \alpha_{2}^{\text {new }} \leq H$ 。

当 $y_{1} \neq y_{2}$ 时, $L=\max \left(0, \alpha_{2}^{\text {old }}-\alpha_{1}^{\text {old }}\right) ; H=\min \left(C, C+\alpha_{2}^{\text {old }}-\alpha_{1}^{\text {old }}\right)$
当 $y_{1}=y_{2}$ 时, $L=\max \left(0, \alpha_{1}^{\text {old }}+\alpha_{2}^{\text {old }}-C\right) ; H=\min \left(C, \alpha_{2}^{\text {old }}+\alpha_{1}^{\text {old }}\right)$

$\alpha_{2}^{\text {new }}=\left\{\begin{array}{l} H, \alpha_{2}^{n e w, u n c}>H \\ \alpha_{2}^{\text {new }, u n c}, L \leq \alpha_{2}^{\text {new }, u n c} \leq H \\ L, \alpha_{2}^{\text {new }, u n c}<L \end{array}\right.$

其中， $\alpha_{new,unc}$ 表示 $\alpha_{new}$ 未经约束的结果（上述通过求导的结果）。

求解 $\alpha_1^{new}$

$\alpha_{1}^{n e w}=\alpha_{1}^{o l d}+y_{1} y_{2}\left(\alpha_{2}^{o l d}-\alpha_{2}^{n e w}\right)$

SMO变量的选取

第一个变量的选择称为外循环，首先遍历整个样本然后选择违反 KKT 条件的 $\alpha_i$ 作为第一个变量，其 KKT 条件如下：
$\begin{array}{r} \alpha_{i}=0 \Rightarrow y_{i}\left(w^{T} x_{i}+b\right) \geq 1 \\ \alpha_{i}=C \Rightarrow y_{i}\left(w^{T} x_{i}+b\right) \leq 1 \\ 0<\alpha_{i}<C \Rightarrow y_{i}\left(w^{T} x_{i}+b\right)=1 \end{array}$

一般而言，首选选择违反 $0<\alpha_i<C⇒y_i(w^Tx_i+b)=1$ 这个条件点。

如果支持向量都满足 KKT 条件，再选择 $\alpha_i=0⇒y_i(w^Tx_i+b)≥1$ 和 $\alpha_i=C⇒y_i(w^Tx_i+b)≤1$ 这两个条件点。

第二个变量选择的过程为内循环，选择 $E_1−E_2|$ 取得最大值的 $\alpha_2$ 。

如果内循环中找不到点能够使目标函数有足够的下降，则可遍历支持向量来做 $\alpha_2$ ；

如果所有支持向量均不能使得目标函数有足够的下降，则跳出循环，重新选择 $\alpha_1$ 。

SMO 阈值 b 的计算

若 $0<\alpha_{1}^{\text {new }}<C$ , 则

由 $y_{1}=\left(\omega^{T} x_{1}+b\right)=\sum_{i=1}^{N} K_{i 1} \alpha_{i} y_{i}+b$ 得:
$b_{1}^{n e w}=y_{1}-\sum_{i=3}^{N} K_{i 1} \alpha_{i} y_{i}-K_{11} \alpha_{1}^{n e w} y_{1}-K_{21} \alpha_{2}^{n e w} y_{2}$
而
$y_{1}-\sum_{i=3}^{N} K_{i 1} \alpha_{i} y_{i}=y_{1}-f\left(x_{1}\right)+K_{11} \alpha_{1}^{o l d} y_{1}+K_{21} \alpha_{2}^{o l d} y_{2}+b^{o l d}$
代入可得:
$\begin{gathered} b_{1}^{n e w}=y_{1}-f\left(x_{1}\right)+K_{11} \alpha_{1}^{\text {old }} y_{1}+K_{21} \alpha_{2}^{\text {old }} y_{2}+b^{\text {old }} -\alpha_{1}^{\text {new }} y_{1} K_{11}-\alpha_{2}^{\text {new }} y_{2} K_{21} \end{gathered}$
由 $E_{i}=f\left(x_{i}\right)-y_{i}$ 化简可得:
$b^{\text {new }}=b_{1}^{\text {new }}=-E_{1}-y_{1} K_{11}\left(\alpha_{1}^{n e w}-\alpha_{1}^{o l d}\right)-y_{2} K_{21}\left(\alpha_{2}^{\text {new }}-\alpha_{2}^{\text {old }}\right)+b^{o l d}$

若 $0<\alpha_{2}^{n e w}<C$ , 则
$b^{\text {new }}=b_{2}^{\text {new }}=-E_{2}-y_{1} K_{12}\left(\alpha_{1}^{\text {new }}-\alpha_{1}^{\text {old }}\right)-y_{2} K_{22}\left(\alpha_{2}^{\text {new }}-\alpha_{2}^{\text {old }}\right)+b^{o l d}$
若同时满足 $0<\alpha_{i}^{n e w}<C$ , 则
$b^{n e w}=b_{1}^{n e w}=b_{2}^{n e w}$
若不同时满足 $0<\alpha_{i}^{n e w}<C$ , 则
$b^{\text {new }}=\frac{b_{1}^{\text {new }}+b_{2}^{\text {new }}}{2}$

总结

求解步骤:

取初值 $\alpha=0, t=0$
选择变量 $\alpha_{1}^{t}$ 和 $\alpha_{2}^{t}$ , 根据公式求解出 $\alpha_{2}^{t+1}$
利用 $\alpha_{1}^{t+1}$ 和 $\alpha_{1}^{t}, \alpha_{2}^{t}, \alpha_{2}^{t+1}$ 的关系求解出 $\alpha_{1}^{t+1}$
通过 $\alpha_{1}^{t+1}$ 和 $\alpha_{2}^{t+1}$ 的满足的 $\mathrm{KKT}$ 条件关系求出 $b^{t+1}$
检查 $E_{i}$ 是否在允许的精度 $e$ 之内
检查求出的 $\alpha_{1}^{t+1}$ 和 $\alpha_{2}^{t+1}$ 是否满足 $\mathrm{KKT}$ 条件
如果上面两个条件都满足则返回 $\alpha_{1}^{t+1}$ 和 $\alpha_{2}^{t+1}$ , 否则跳转到第 2 步

参考文献：

【ML】支持向量机（SVM）从入门到放弃再到掌握

支持向量机SVM通俗理解（python代码实现）

支持向量机通俗导论（理解SVM的三层境界）

学习SVM，这篇文章就够了！（附详细代码）

SMO 算法超详细解析

SMO 算法的代码实现

flying_rabbit01

关注

1
点赞
踩
0

收藏

觉得还不错? 一键收藏
1
评论
【机器学习】SVM关键点解析

SVM给定训练样本集D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈{−1,1}D=\{(x_1, y_1), (x_2, y_2), ..., (x_m, y_m)\},y_i \in \{-1, 1\}D={(x1,y1),(x2,y2),...,(xm,ym)},yi∈{−1,1}。y只是一个label，标记{-1,1}来区分正类和负类。当然也可以标记为{0,300}，只不过此时分正类的标准变为(y-150)*f(x)>0。超平面方程f(x)=w
复制链接

扫一扫