机器学习——软间隔SVM

最新推荐文章于 2024-04-29 23:45:04 发布

菜到怀疑人生

最新推荐文章于 2024-04-29 23:45:04 发布

阅读量6.1k

点赞数 2

分类专栏：机器学习

本文链接：https://blog.csdn.net/dhaiuda/article/details/86615812

版权

机器学习专栏收录该内容

18 篇文章 5 订阅

订阅专栏

以下内容均为个人理解，如有错误，欢迎指出

文章目录

硬间隔SVM的问题
软间隔SVM
- - 什么是软间隔SVM
  - 软间隔SVM的数学表达式
软间隔SVM的求解
- - SMO算法求解软间隔SVM
  - 选择两个α的方法(未解释原因，只阐明步骤)

硬间隔SVM的问题

硬间隔要求间隔之间不存在任何点，这点要求非常苛刻，这也导致了硬间隔SVM对于异常点非常敏感，由于噪声的因素，可能属于A类的点分布在B类中（异常点），此时硬间隔将无法找到一个划分超平面，因此，我们导出了软间隔SVM。

软间隔SVM

什么是软间隔SVM

软间隔SVM允许部分点分布在间隔内部，此时可以解决硬间隔SVM的问题（只需将异常点放到间隔内部即可），因为间隔内部的点对于SVM的思想来说是一种错误，所以我们希望位于间隔内部的点尽可能少，其实是一种折中，即在错误较少的情况下获得不错的划分超平面

软间隔SVM的数学表达式

回顾一下硬间隔SVM的数学表达式为
$\begin{aligned} & \min \limits_{w,b} \frac{||w||^2}{2} \\ \\ &s.t.\ y_i(w^Tx_i+b)\geq1,i=1,2.....m \end{aligned}$

位于间隔内部的点满足 $y_i(w^Tx_i+b)<1$ ，我们为每个点 $x_i,y_i)$ 引入一个松弛变量 $\varepsilon_i$ ，对于间隔内部的点，满足
$\begin{aligned} & \varepsilon_i>0 \\ \\ & y_i(w^Tx_i+b)+\varepsilon_i\geq 1 \end{aligned}$
而间隔外的点和支持向量，只需满足 $\varepsilon_i=0$ 即可，综上，对于软间隔SVM，我们的约束条件变为
$\begin{aligned} & \varepsilon_i\geq0 \\ \\ & y_i(w^Tx_i+b)+\varepsilon_i\geq 1 \ \ i=1,2.....m \end{aligned}$

由于我们希望位于间隔内的点尽可能少，为了体现这个特点，我们将优化目标变为
$\begin{aligned} &\min \frac{||w||^2}{2}+C\sum_{i=1}^m\varepsilon_i\\ &s.t \ \varepsilon_i\geq0 \\ \\ &y_i(w^Tx_i+b)+\varepsilon_i\geq 1 \ \ i=1,2.....m \tag{式1.0} \end{aligned}$

其中，C>0为惩罚参数，为我们事先指定，C越大，位于间隔内部的点越少，感性一点的解释是， $\frac{||w||^2}{2}+C\sum_{i=1}^m\varepsilon_i$ 由两部分组成， $\frac{||w||^2}{2}$ 和 $C\sum_{i=1}^m\varepsilon_i$ ，C越大，则 $C\sum_{i=1}^m\varepsilon_i$ 对于取值的占比越大，此时为了让式子取最小，则会有尽可能多的 $\varepsilon_i$ 趋近于0

软间隔SVM的求解

由于 $\varepsilon_i \ (i=1,2.....m)$ 为仿射函数，因此，我们仍然可以对式1.0使用拉格朗日对偶，则有下列过程
$\begin{aligned} L(w,b,\alpha,\beta,\varepsilon)=\frac{||w||^2}{2}+C\sum_{i=1}^m\varepsilon_i+\sum_{i=1}^m\alpha_i(1-\varepsilon_i-y_i(w^Tx_i+b))-\sum_{i=1}^m \beta_i\varepsilon_i \tag{式1.1} \end{aligned}$

拉格朗日对偶函数为 $\max \limits_{\alpha,\beta} \min \limits_{w,b,\varepsilon}L(w,b,\alpha,\beta,\varepsilon)$ ，若固定 $\alpha,\beta$ ，式1.1为 $w,b,\varepsilon$ 的凸函数，对 $w,b,\varepsilon$ 求导得
$\frac{\partial L(w,b,\alpha,\beta,\varepsilon)}{\partial w}= \left\{ \begin{matrix} & w_1-\sum_{i=1}^m \alpha_iy_ix_{i1} \\ & w_2-\sum_{i=1}^m \alpha_iy_ix_{i2} \\ & .....\\ & w_n-\sum_{i=1}^m \alpha_iy_ix_{i1} \end{matrix} \right\}=w-\sum_{i=1}^m\alpha_iy_ix_i =0\\$
$\frac{\partial L(w,b,\alpha,\beta,\varepsilon)}{\partial b}=\sum_{i=1}^m \alpha_iy_i=0$
$\alpha_i+\beta_i=C \ \ (i=1,2,...,m)$

将上述式子代入式1.0，可得
$\begin{aligned} & \min \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j-\sum_{i=1}^m\alpha_i\\ \\ & s.t \ \alpha_i\geq0\\ \\ & \ \ \ \ \ \beta_i\geq0 \ (i=1,2,...,m)\\ \\ & \ \ \ \ \ \ \alpha_i+\beta_i=C \end{aligned}$
由于 $\beta_i=C-\alpha_i$ ，所以有 $C-\alpha_i\geq0$ ，即 $C\geq\alpha_i$ ，则最终的优化对象为

$\begin{aligned} & \min \frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy_iy_jx_i^Tx_j-\sum_{i=1}^m\alpha_i\\ \\ & s.t \ 0 \leq \alpha_i\leq C (i=1,2,...,m) \end{aligned}\tag{式1.2}$

接下来，我们使用SMO算法对其进行优化，我们将展现SMO算法的具体细节

SMO算法求解软间隔SVM

我们选择 $\alpha_1,\alpha_2$ 作为可变元，剩下的 $\alpha_i (i=3,....m)$ 不变，式1.3的原型为
$\begin{aligned} &\frac{1}{2}\sum_{i=1}^m\alpha_iy_ix_i \sum_{j=1}^m\alpha_jy_jx_j -\sum_{i=1}^m\alpha_i\\ =&\frac{1}{2}(\alpha_1y_1x_1+\alpha_2y_2x_2+....+\alpha_my_mx_m)(\alpha_1y_1x_1+\alpha_2y_2x_2+....+\alpha_my_mx_m)-\sum_{i=1}^m\alpha_i\\ =&\frac{1}{2}\alpha_1^2y_1^2x_1^Tx_1+\frac{1}{2}\alpha_2^2y_2^2x_2^Tx_2+\alpha_1\alpha_2y_1y_2x_1^Tx_2+\alpha_1y_1x_1^T\sum_{i=3}^m\alpha_iy_ix_i+ \\ &\alpha_2y_2x_2^T\sum_{i=3}^m\alpha_iy_ix_i-\alpha_1-\alpha_2+H+K（式1.3） \end{aligned}$
其中
$\begin{aligned} &H=\frac{1}{2}\sum_{i=3}^m\sum_{j=3}^m\alpha_iy_i\alpha_jy_jx_i^Tx_j\\ &K=-\sum_{i=3}^m\alpha_i \end{aligned}$

设 $k_{ij}=x_i^Tx_j$ ，则式1.3变为
$\frac{1}{2}k_{11}\alpha_1^2+\frac{1}{2}k_{22}\alpha_2^2+\alpha_1\alpha_2y_1y_2k_{12}+\alpha_1y_1\sum_{i=3}^m\alpha_iy_ik_{i1}\\ +\alpha_2y_2\sum_{i=3}^m\alpha_iy_ik_{i2}+H+K-\alpha_1-\alpha_2\tag{式1.4}$

由于 $\alpha_1y_1+\alpha_2y_2+\sum_{i=3}^m\alpha_iy_i=0$ ，所以有 $\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^m\alpha_iy_i$ ，令 $\xi=-\sum_{i=3}^m\alpha_iy_i$ ，则 $\alpha_1=\xi y_1-\alpha_2y_1y_2$ ，将其代入式1.3可得
$\frac{1}{2}k_{11}(\xi-\alpha_2y_2)^2+\frac{1}{2}k_{22}\alpha_2^2+\alpha_2y_2k_{12}(\xi-\alpha_2y_2)+\alpha_2y_2v_2+(\xi-\alpha_2y_2)v_1\\ -(\alpha_1+\xi y_1-\alpha_2y_1y_2)\tag{式1.5}$
其中 $v_1=\sum_{i=3}^m\alpha_iy_ik_{i1}\\ v_2=\sum_{i=3}^m\alpha_iy_ik_{i2}$
式1.5是一个二次函数，其二次项系数为 $\frac{1}{2}k_{11}+\frac{1}{2}k_{22}-k_{12}$ ，到这里其实就是一个高中数学题了，我们将问题重新表述一遍，即
$\begin{aligned} \min \ & \frac{1}{2}k_{11}(\xi-\alpha_2y_2)^2+\frac{1}{2}k_{22}\alpha_2^2+\alpha_2y_2k_{12}(\xi-\alpha_2y_2)+\alpha_2y_2v_2+(\xi-\alpha_2y_2)v_1-(\alpha_1+\xi y_1-\alpha_2y_1y_2)\\ \\ s.t \ & 0 \leq \alpha_1\leq C \Longrightarrow 0 \leq \xi y_1-\alpha_2y_1y_2 \leq C\\ \\ &0 \leq \alpha_2\leq C \end{aligned}$
其二次项系数为 $\frac{1}{2}k_{11}+\frac{1}{2}k_{22}-k_{12}$ ，即在定义域内求二次函数极值的问题
我们对二次项次数进行分类讨论（绝大多数资料都会画图，这里我们直接用解高中题的思路就可以求解了）

1. $\frac{1}{2}k_{11}+\frac{1}{2}k_{22}-k_{12}>0$ ,式1.5为开口向上的二次函数

此时对式1.5求导置0可得 $\alpha_2$ 的新值为：
$\alpha_2^{new}=\frac{y_2(-k_{12}\xi+k_{11}\xi-v_1+v_2+y_2-y_1)}{k_{11}+k_{22}-2k_{12}}$
由于 $v_1=\sum_{i=3}^m\alpha_iy_ik_{i1},v_2=\sum_{i=3}^m\alpha_iy_ik_{i2},\xi=\alpha_1y_1+\alpha_2y_2$ ，设 $g(x_i)=\sum_{j=1}^m\alpha_jy_jk_{ji}+b$ 故有
$\begin{aligned} &y_2(-k_{12}\xi+k_{11}\xi-v_1+v_2+y_2-y_1)\\ =&y_2(y_2-y_1+g(x_1)-g_(x_2)+\sum_{j=1}^2y_j\alpha_jk_{j1}-\sum_{j=1}^2y_j\alpha_jk_{j2}+(k_{11}-k_{12})(\alpha_1y_1+\alpha_2y_2))\\ =&y_2(y_2-y_1+g(x_1)+g(x_2)+\sum_{j=1}^2\alpha_jy_jk_{j2}-\sum_{j=1}^2\alpha_jy_jk_{j1}+\alpha_1y_1k_{11}-\alpha_jy_1k_{12}+\alpha_2y_2k_{11}-\alpha_2y_2k_{12})\\ =&y_2(y_2-y_1+g(x_1)-g(x_2)+\alpha_2y_2k_{22}+\alpha_2y_2k_{11}-2\alpha_2y_2k_{12}) \end{aligned}$
所以有
$\begin{aligned} \alpha_2^{new}=&\frac{y_2(y_2-y_1+g(x_1)-g(x_2)+\alpha_2y_2k_{22}+\alpha_2y_2k_{11}-2\alpha_2y_2k_{12})}{k_{11}+k_{22}-2k_{12}}\\ =&\frac{y_2(E_1-E_2)}{k_{11}+k_{22}-2k_{12}}+\alpha_2 \end{aligned}$
其中， $E_i=g(x_i)-y_i$
由于大部分求解思路
$当y_1=1,y_2=1$ ，首先先确定定义域，我们有 $\begin{aligned} &\xi-C\leq\alpha_2\leq\xi \\ & 0\leq \alpha_2\leq C \end{aligned}$
定义域为 $[\max(0,\xi-C),\min(C,\xi)]$ ，因此，我们有
$\alpha_2^{new}=\left\{ \begin{aligned} &\max(0,\xi-C) \ \ \frac{y_2(E_1-E_2)}{k_{11}+k_{22}-2k_{12}}+\alpha_2<\max(0,\xi-C)\\ &\frac{y_2(E_1-E_2)}{k_{11}+k_{22}-2k_{12}}+\alpha_2 \ \ \ \max(0,\xi-C)\leq\frac{y_2(E_1-E_2)}{k_{11}+k_{22}-2k_{12}}+\alpha_2\leq\max(0,\xi-C)\\ &\min(C,\xi)\ \ \ \frac{y_2(E_1-E_2)}{k_{11}+k_{22}-2k_{12}}+\alpha_2>\min(C,\xi) \end{aligned} \right.$
当 $y_1,y_2$ 取其他值时，也具有类似的结构，在此不赘述

2. $\frac{1}{2}k_{11}+\frac{1}{2}k_{22}-k_{12}=0$ ，此时式1.5为一个一次函数，依据斜率取对应的定义域边界值

3. $\frac{1}{2}k_{11}+\frac{1}{2}k_{22}-k_{12}<0$ ，此时式1.5为一个开口向下的二次函数，求解思路与 $\frac{1}{2}k_{11}+\frac{1}{2}k_{22}-k_{12}>0$ 一致，在此不赘述

选择两个α的方法(未解释原因，只阐明步骤)

以下内容摘自关于SVM数学细节逻辑的个人理解（三）：SMO算法理解
找第一个参数的具体过程是这样的：

①遍历一遍整个数据集，对每个不满足KKT条件的参数，选作第一个待修改参数
②在上面对整个数据集遍历一遍后，选择那些参数满足的子集，开始遍历，如果发现一个不满足KKT条件的，作为第一个待修改参数，然后找到第二个待修改的参数并修改，修改完后，重新开始遍历这个子集
③遍历完子集后，重新开始①②，直到在执行①和②时没有任何修改就结束

找第二个参数的过程是这样的：

①启发式找，找能让 $E_1-E_2|$ 最大的 $\alpha_2$