SVM

最新推荐文章于 2024-09-13 16:27:15 发布

炼丹师v1

最新推荐文章于 2024-09-13 16:27:15 发布

阅读量165

点赞数

分类专栏：机器学习文章标签：算法机器学习支持向量机 svm 人工智能

本文链接：https://blog.csdn.net/weixin_37884412/article/details/106581819

版权

机器学习专栏收录该内容

3 篇文章 0 订阅

订阅专栏

SVM（线性模型）数学推导

在这里插入图片描述

学习路线：先线性二分类解释清楚，再加入核方法扩展至非线性二分类

几个重要的概念

训练样本集

$(\boldsymbol{x}_i,y_i)$ ，其中 $\boldsymbol{x_i}$ 为 $n$ 维列向量，表示 $n$ 维特征； $y_i$ 为标签，当 $y_i=+1$ 时为正样本， $y_i=-1$ 时为负样本。

则训练样本集为： $\boldsymbol{x}_{\boldsymbol{1}},y_1 ) ,( \boldsymbol{x}_2,y_2 ) ,\cdots ,( \boldsymbol{x}_m,y_m ) } , y\in {-1,+1 }$
什么叫超平面

如上图，若在二维空间内（两个特征），若数据为线性可分，则可以用一条直线将正负样本区分开来（2分类问题）；若在三维空间则为一个平面；三维空间以上无法想象统称为超平面。

但上图中区分正负样本肯定又不止一种划分方法，何者为最优？最优者才叫做SVM的超平面。

最优的判断标准则是，若对数据样本加以扰动（可以理解为采样样本总有误差），那么SVM超平面具有最佳的鲁棒性。从几何上来看，在上图中，若将超平面左右平移，直至触碰到最近的样本，那么这个被界定的范围记为 $d$ ，则SVM的超平面是有最大 $d$ 的那个超平面。
什么叫支持向量

SVM超平面左右平移最先触碰到的为支持向量
超平面的方程
$\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+b=0$
其中： $\boldsymbol{w}$ 和 $\boldsymbol{x}$ 都是 $n\times 1$ 的列向量， $n$ 是特征维数。 $b$ 为标量； $\boldsymbol{w}$ 还是超平面的法向量， $b$ 控制了超平面到原点的距离。确定了 $\boldsymbol{w}$ 和 $b$ ，超平面就被完全确定了。

那么在超平面上方数据 $\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+b>0$ ；在超平面下方数据 $\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+b<0$ ；
$\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+b=0$ 与 $\zeta\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+\zeta b=0$ 表示的是同一个超平面

如： $4 x + 4 y = 0$ 和 $ x+y=0$是同一个平面， $4 x + 4 y = 4$ 和$ x+y=1$也是同一个平面
线性可分数据集的定义

在数据集 $\boldsymbol{x}_i,y_i ) } _{i=1\sim m}$ 中， $\exists ( \boldsymbol{w},b )$ ，使得对于 $\forall i=1 \sim m$ ，有：
$\begin{cases} \text{若}y_i=+1, \text{则}\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}_{\boldsymbol{i}}+b> 0\\ \text{若}y_i=-1, \text{则}\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}_{\boldsymbol{i}}+b< 0\\ \end{cases}$
即正样本全部分到上方，负样本全部分到下方

等价于 $y_i(\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}_{\boldsymbol{i}}+b)> 0$
点到平面距离公式

点 $x_0,y_0)$ 到平面 $w_1x+w_2y+b=0$ 的距离表示为：
$d=\frac{\left| w_1x_0+w_2y_0+b \right|}{\sqrt{w_{1}^{2}+w_{2}^{2}}}$
则样本点到超平面的距离表示为：
$d=\frac{\left| \boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}_{\boldsymbol{i}}+b \right|}{\lVert \boldsymbol{w} \rVert}$
若假设支持向量过超平面的平行线为 $\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+b=1$ 和 $\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+b=-1$ （如上图所示），那么可求得

支持向量到超平面的距离为:
$d=\frac{1}{\lVert \boldsymbol{w} \rVert}$
那么超平面左右平移被限制的范围（即两个异类支持向量到超平面的距离之和）为：
$\varUpsilon =\frac{2}{\lVert \boldsymbol{w} \rVert}$
$\varUpsilon$ 被称为SVM的“间隔”（margin）

为什么可以假设支持向量过超平面的平行线为 $\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+b=1$ 和 $\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+b=-1$ 呢？正如上面第5点所述，由于 $\boldsymbol{W}$ 和 $b$ 可以整体缩放倍数，超平面不变。那么总可以通过 $\zeta \cdot ( \boldsymbol{w},b ) \rightarrow ( \boldsymbol{w'},b' )$ ，使 $\left| \boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}+b \right|=1$ 。归一化的操作为我们带来便利

求解超平面转化为下列优化问题

在限制条件 $y_i(w^Tx_i+b)\geqslant 1,i=1\sim m$ 下，最小化 $\frac{1}{2}\lVert \boldsymbol{w} \rVert ^2$ 的问题

即：
$\begin{aligned} &\underset{\boldsymbol{w},b}{\min}\,\,\frac{1}{2}\lVert \boldsymbol{w} \rVert ^2 \\ &s.t.\quad y_i(\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}_{\boldsymbol{i}}+b)\geqslant 1,i=1\sim m \end{aligned}$

最大化 $\varUpsilon =\frac{2}{\lVert \boldsymbol{w} \rVert}$ 等价于最小化 $\frac{1}{2}\lVert \boldsymbol{w} \rVert ^2$ ，而限制条件 $y_i(w^Tx_i+b)\geqslant 1,i=1\sim m$ 表示求解超平面的前提条件是所有样本都被正确分类的情况下

这样就把支持向量机的求解转化为凸优化问题中的二次规划问题

二次规划（Quadratic Programming）

目标函数（Objective Function）为二次项
限制条件为一次项

要么无解，要么只有一个极值

SVM（非线性模型）数学推导

若数据集非线性可分，那么线性SVM的优化问题会变得无解。通过加入正则项，可以使SVM应用于非线性可分的数据集。

改写优化目标函数和限制条件

$\begin{aligned} &\underset{\boldsymbol{w},b}{\min}\,\,\frac{1}{2}\lVert \boldsymbol{w} \rVert ^2+C\sum_{i=1}^m{\xi _i}\\ &s.t.\quad \begin{cases} y_i( \boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}_{\boldsymbol{i}}+b ) \geqslant 1-\xi _i\\ \xi _i\geqslant 0\\ \end{cases},i=1\sim m\\ \end{aligned} \tag{1}$

其中： $\xi_i$ 称为松弛变量（Slack Variable）， $\sum_{i=1}^m{\xi _i}$ 称为正则项

若 $\xi_i$ 足够大，则限制条件可以被轻易满足（即为限制条件加入了容忍度）。但 $\xi_i$ 又不能太大，那么限制条件就失去了意义。因此在优化目标函数里需要添加 $\xi_i$ ，并用一个超参数 $C$ 来权衡最小化 $\frac{1}{2}\lVert \boldsymbol{w} \rVert ^2$ 与最小化 $\sum_{i=1}^m{\xi _i}$ 之间的关系

低维到高维的映射

改写优化目标函数和限制条件后的SVM可以应用于非线性可分的数据集中。但是这样的SVM仍然是在试图寻找一条直线将正负样本划分，在某些情况下这仍然不够好，例如：

不同于其他机器学习算法，SVM试图通过高维映射，使低维空间的线性不可分问题变成高维空间中的线性可分问题，从而在高维空间中画出超平面对数据集进行划分。

我们定义高维映射 $\varphi (\boldsymbol{x})$ ：
$\boldsymbol{x}\xrightarrow{\varphi }\varphi ( \boldsymbol{x} )$

其中 $\boldsymbol{x}$ 是低维向量，而 $\varphi (\boldsymbol{x})$ 为高维向量

那么SVM的优化条件变为：
$\begin{aligned} &\underset{\boldsymbol{w},b}{\min}\,\,\frac{1}{2}\lVert \boldsymbol{w} \rVert ^2 +C\sum_{i=1}^m{\xi _i} \\ &s.t.\quad \begin{cases} y_i(\boldsymbol{w}^{\boldsymbol{T}}\varphi (\boldsymbol{x}_{\boldsymbol{i}})+b) \geqslant 1-\xi _i\\ \xi _i\geqslant 0\\ \end{cases},i=1\sim m \end{aligned}$

此时 $\boldsymbol{w}$ 的维度也升高了，与 $\varphi (\boldsymbol{x})$ 的维度相同

例子：

在这里插入图片描述

对于这么一个异或问题，我们有：
$\begin{aligned} &\boldsymbol{x}_{\boldsymbol{1}}=\left[ \begin{array}{c} 0\\ 0\\ \end{array} \right] \in C_1,\quad \boldsymbol{x}_{\boldsymbol{2}}=\left[ \begin{array}{c} 1\\ 1\\ \end{array} \right] \in C_1,\quad \\ &\boldsymbol{x}_{\boldsymbol{3}}=\left[ \begin{array}{c} 1\\ 0\\ \end{array} \right] \in C_2,\quad \boldsymbol{x}_{\boldsymbol{4}}=\left[ \begin{array}{c} 0\\ 1\\ \end{array} \right] \in C_2 \end{aligned}$
定义映射关系：
$\boldsymbol{x}=\left[ \begin{array}{c} a\\ b\\ \end{array} \right] \xrightarrow{\varphi }\varphi ( \boldsymbol{x} ) =\left[ \begin{array}{c} a^2\\ b^2\\ a\\ \begin{array}{c} b\\ ab\\ \end{array}\\ \end{array} \right]$
则升维后的样本为

$\begin{aligned} &\varphi ( \boldsymbol{x}_{\boldsymbol{1}} ) =\left[ \begin{array}{c} \begin{array}{c} 0\\ 0\\ \end{array}\\ \begin{array}{c} 0\\ 0\\ 0\\ \end{array}\\ \end{array} \right] \in C_1,\quad \varphi ( \boldsymbol{x}_{\boldsymbol{2}} ) =\left[ \begin{array}{c} \begin{array}{c} 1\\ 1\\ \end{array}\\ \begin{array}{c} 1\\ 1\\ 1\\ \end{array}\\ \end{array} \right] \in C_1,\quad \\ &\varphi ( \boldsymbol{x}_{\boldsymbol{3}} ) =\left[ \begin{array}{c} \begin{array}{c} 1\\ 0\\ \end{array}\\ \begin{array}{c} 1\\ 0\\ 0\\ \end{array}\\ \end{array} \right] \in C_2,\quad \varphi ( \boldsymbol{x}_{\boldsymbol{4}} ) =\left[ \begin{array}{c} \begin{array}{c} 0\\ 1\\ \end{array}\\ \begin{array}{c} 0\\ 1\\ 0\\ \end{array}\\ \end{array} \right] \in C_2 \end{aligned}$

求得 $\boldsymbol{w}$ 为：
$\boldsymbol{w}=\left[ \begin{array}{c} \begin{array}{c} -1\\ -1\\ \end{array}\\ \begin{array}{c} -1\\ -1\\ 6\\ \end{array}\\ \end{array} \right] ,\quad b=1$
则
$\begin{aligned} \widehat{y}_1&=\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}_{\boldsymbol{1}}+b\,\,=\,\,1>0\\\widehat{y}_2&=\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}_{\boldsymbol{2}}+b\,\,=\,\,3>0\\\widehat{y}_3&=\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}_{\boldsymbol{3}}+b\,\,=\,\,-1<0\\\widehat{y}_4&=\boldsymbol{w}^{\boldsymbol{T}}\boldsymbol{x}_{\boldsymbol{4}}+b\,\,=\,\,-1<0 \end{aligned}$
可见的确通过升维，在高维空间划分了超平面，实现了非线性可分数据的分类问题。

核函数

可以证明：若升的维度越高，则数据集越有可能在高维空间被线性划分。可以猜想，若 $\varphi (\boldsymbol{x})$ 为无限维度，则必定可以在无限高维空间划分任意数据集。但这样，会使得 $\boldsymbol{w}$ 也变为无限维度，使优化问题 $(1)$ 变得不可解（因为 $\boldsymbol{w}$ 是代求参数）。

定理：我们可以不知道无限维映射 $\varphi (\boldsymbol{x})$ 的显式表达，我们只要知道一个核函数（Kernel Function）
$\boldsymbol{x}_{\boldsymbol{1}},\boldsymbol{x}_{\boldsymbol{2}} ) \,\,=\,\,\varphi ( \boldsymbol{x}_{\boldsymbol{1}} ) ^T\cdot \varphi ( \boldsymbol{x}_{\boldsymbol{2}} )$
则 $(1)$ 这个优化式仍然可解。

常用核函数：

高斯核
$\boldsymbol{x}_{\boldsymbol{1}},\boldsymbol{x}_{\boldsymbol{2}} ) \,\,=\,\,e^{-\frac{\lVert x_1-x_2 \rVert ^2}{2\sigma ^2}}$
多项式核

$\boldsymbol{x}_{\boldsymbol{1}},\boldsymbol{x}_{\boldsymbol{2}} ) \,\,=\,\,( \boldsymbol{x}_{\boldsymbol{1}}^{\boldsymbol{T}}\boldsymbol{x}_{\boldsymbol{2}}+1 ) ^d$

我们知道核 $\boldsymbol{x}_{\boldsymbol{1}},\boldsymbol{x}_{\boldsymbol{2}} )$ 的表达式，且知道 $\boldsymbol{x}_{\boldsymbol{1}},\boldsymbol{x}_{\boldsymbol{2}} )$ 可以表示为 $\varphi ( \boldsymbol{x}_{\boldsymbol{1}} ) ^T \varphi ( \boldsymbol{x}_{\boldsymbol{2}} )$ ，并且 $\varphi (\boldsymbol{x})$ 是无限维的（不需要知道 $\varphi (\boldsymbol{x})$ 的显示表达）。

$\boldsymbol{x}_{\boldsymbol{1}},\boldsymbol{x}_{\boldsymbol{2}} )$ 能写成 $\varphi ( \boldsymbol{x}_{\boldsymbol{1}} ) ^T \varphi ( \boldsymbol{x}_{\boldsymbol{2}} )$ 的充要条件为（Mercer’s Theorem）：

$\boldsymbol{x}_{\boldsymbol{1}},\boldsymbol{x}_{\boldsymbol{2}} ) = K( \boldsymbol{x}_{\boldsymbol{2}},\boldsymbol{x}_{\boldsymbol{1}} )$ （交换性）
$\forall C_i, \,\, \boldsymbol{x_i}(i=1\sim N)$ ，有 $\sum_{i=1}^N{\sum_{j=1}^N{C_iC_jK( \boldsymbol{x}_{\boldsymbol{1}},\boldsymbol{x}_{\boldsymbol{2}} ) \geqslant 0}}\,\,$ 成立（半正定性）

原问题和对偶问题

现在我们要在只知道 $\boldsymbol{x}_{\boldsymbol{1}},\boldsymbol{x}_{\boldsymbol{2}} )$ 不知道 $\varphi (\boldsymbol{x})$ 的情况下，解优化问题 $(1)$ ，因此我们需要一些理论知识铺垫。

这是优化理论的内容，用到就学一下吧

原问题（Prime Problem）：

最小化：
$f(\boldsymbol{\omega})$
限制条件：
$g_i( \boldsymbol{\omega} ) \leqslant 0 ( i=1\sim K ) \\ h_i( \boldsymbol{\omega} ) =0 ( i=1\sim M )$
则其对偶问题（Dual Problem）为：

最大化：
$\varTheta ( \boldsymbol{\alpha} ,\boldsymbol{\beta}) \,\,=\,\,\underset{for\,\,all\,\,\boldsymbol{\omega}}{inf}{L( \boldsymbol{\omega} ,\boldsymbol{\alpha} ,\boldsymbol{\beta} ) }$

限制条件：

$\boldsymbol{\alpha }\geqslant 0$

其中 $\boldsymbol{\omega} ,\boldsymbol{\alpha },\boldsymbol{\beta } )$ 为：
$\begin{aligned} L( \boldsymbol{\omega} ,\boldsymbol{\alpha },\boldsymbol{\beta } ) \,\,&=\,\,f( \boldsymbol{\omega} ) +\sum_{i=1}^K{\alpha _ig_i( \boldsymbol{\omega} )}+\sum_{i=1}^M{\beta _ih_i( \boldsymbol{\boldsymbol{\omega}} )}\,\, \\ &=\,\,f( \boldsymbol{\omega} ) +\boldsymbol{\alpha }^{\boldsymbol{T}}g( \boldsymbol{\omega} ) +\boldsymbol{\beta }^{\boldsymbol{T}}h( \boldsymbol{\omega} ) \end{aligned}$

$\underset{for\,\,all\,\,\boldsymbol{\omega}}{inf}$ 的意思是，在所有 $\boldsymbol{\omega}$ 取值上取得的最小值

原问题和对偶问题的关系：如果 $\boldsymbol{\omega}^*$ 是原问题的解，而 $\boldsymbol{\alpha}^*,\boldsymbol{\beta}^*$ 是对偶问题的解，则有：
$\boldsymbol{\omega} ^* ) \geqslant \theta ( \boldsymbol{\alpha} ^*,\boldsymbol{\beta} ^* )$

proof:
$\begin{aligned} \theta ( \boldsymbol{\alpha }^*,\boldsymbol{\beta }^* ) \,\,&=\,\,\underset{for\,\,all\,\,\omega}{inf}{L( \boldsymbol{\omega },\boldsymbol{\alpha }^*,\boldsymbol{\beta }^* ) } \leqslant L( \boldsymbol{\omega }^*,\boldsymbol{\alpha }^*,\boldsymbol{\beta }^* ) \\ &=\,\,f( \boldsymbol{\omega }^* ) +\sum_{i=1}^K{\boldsymbol{\alpha }_{i}^{*}g_i( \boldsymbol{\omega }^* )}+\sum_{i=1}^M{\boldsymbol{\beta }_{i}^{*}h_i( \boldsymbol{\omega }^* )}\leqslant \,\,f( \boldsymbol{\omega }^* ) \end{aligned}$
因为其中 $\boldsymbol{\alpha^* }\geqslant 0$ , $g_i( \boldsymbol{\omega ^*} ) \leqslant 0$ ， $h_i( \boldsymbol{\omega^* } ) =0$

强对偶定理

若 $f(\boldsymbol{\omega})$ 为凸函数，且 $g(\boldsymbol{\omega}) = \boldsymbol{A\omega} + b$ ， $h(\boldsymbol{\omega}) = \boldsymbol{C\omega} + d$ ，则优化问题的原问题与对偶问题间距为0，即：
$\boldsymbol{\omega} ^* ) = \theta ( \boldsymbol{\alpha} ^*,\boldsymbol{\beta} ^* )$
再观察上面的proof过程，可以立即得出：

对 $\forall i=1 \sim K$ ，有 $\boldsymbol{\alpha^*_i }=0$ 或者 $g_i( \boldsymbol{\omega ^*} ) =0$

以上称为KKT条件

将SVM原问题转化为对偶问题

核函数SVM优化目标可以改写为（为了使形式上靠近优化理论，将 $\xi _i\geqslant 0\rightarrow \xi _i\leqslant 0$ ）

最小化：
$\underset{\boldsymbol{w},b}{\min}\,\,\frac{1}{2}\lVert \boldsymbol{w} \rVert ^2+C\sum_{i=1}^m{\xi _i}\rightarrow \underset{\boldsymbol{w},b}{\min}\,\,\frac{1}{2}\lVert \boldsymbol{w} \rVert ^2-C\sum_{i=1}^m{\xi _i}$

限制条件：
$\begin{aligned} y_i( \boldsymbol{w}^{\boldsymbol{T}}\varphi \boldsymbol{(x}_{\boldsymbol{i}}\text{)}+b ) \geqslant 1-\xi _i\,\,&\rightarrow \,\,y_i( \boldsymbol{w}^{\boldsymbol{T}}\varphi \boldsymbol{(x}_{\boldsymbol{i}}\text{)}+b ) \geqslant 1+\xi _i\,\, \\ &\rightarrow \,\,1+\xi _i-y_i( \boldsymbol{w}^{\boldsymbol{T}}\varphi \boldsymbol{(x}_{\boldsymbol{i}}\text{)}+b ) \leqslant 0 \\ \xi _i\geqslant 0&\rightarrow \xi _i\leqslant 0 \end{aligned}$

1. 原问题	1.核函数SVM原问题
最小化： $f(\boldsymbol{\omega})$	最小化： $\frac{1}{2}\lVert \boldsymbol{w} \rVert ^2-C\sum_{i=1}^m{\xi _i}$
限制条件： $g_i( \boldsymbol{\omega} ) \leqslant 0 ( i=1\sim K ) \\h_i( \boldsymbol{\omega} ) =0 ( i=1\sim M )$	限制条件： $\,1+\xi _i-y_i( \boldsymbol{w}^{\boldsymbol{T}}\varphi \boldsymbol{(x}_{\boldsymbol{i}}\text{)}+b ) \leqslant 0 \\ \xi _i\leqslant 0$

从限制条件可知，左边的不等式限制条件 $g_i( \boldsymbol{\omega} ) \leqslant 0$ 对应右边的 $1+\xi _i-y_i( \boldsymbol{w}^{\boldsymbol{T}}\varphi \boldsymbol{(x}_{\boldsymbol{i}})+b ) \leqslant 0$ 和 $\xi _i\leqslant 0$ ；而没有等式限制条。

优化目标函数 $f(\boldsymbol{\omega})$ 对应 $\frac{1}{2}\lVert \boldsymbol{w} \rVert ^2+C\sum_{i=1}^m{\xi _i}$

左边只有一个变量 $\boldsymbol{\omega}$ ，而右边对应有三个变量 $\boldsymbol{\omega}，\xi _i， b$

因此可以推导出核函数SVM的对偶问题：

2. 对偶问题	2. 核函数SVM对偶问题
最大化： $\varTheta ( \boldsymbol{\alpha} ,\boldsymbol{\beta}) \,=\,\underset{for\,\,all\,\,\boldsymbol{\omega}}{inf}{L( \boldsymbol{\omega} ,\boldsymbol{\alpha} ,\boldsymbol{\beta} ) }$	最大化： $\begin{aligned}\varTheta ( \boldsymbol{\alpha },\boldsymbol{\beta } ) \,=\,\underset{for\,\,all\,( \,\boldsymbol{\omega },\xi _i,b )}{inf}{\frac{1}{2}\lVert \boldsymbol{w} \rVert ^2-C\sum_{i=1}^m{\xi _i}+\sum_{i=1}^m{\alpha _i}\,( 1+\xi _i-y_i( \boldsymbol{w}^{\boldsymbol{T}}\varphi \boldsymbol{(x}_{\boldsymbol{i}}\text{)}+b ) ) +\sum_{i=1}^m{\beta _i\xi _i} }\end{aligned}$
限制条件： $\alpha_i\geqslant 0 \quad (i=1 \sim K)$	限制条件： $\alpha_i\geqslant 0 , \beta_i \geqslant 0 \quad(i=1 \sim m)$
$\boldsymbol{\omega },\boldsymbol{\alpha },\boldsymbol{\beta } ) \,\,=\,\,f( \boldsymbol{\omega } ) +\sum_{i=1}^K{\alpha _ig_i( \boldsymbol{\omega } )}+\sum_{i=1}^M{\beta _ih_i( \boldsymbol{\omega } )}\,\,$

注意，由于SVM中的不等式限制条件有 $\alpha_i$ 和 $\beta_i$ 两个，因此实际上左边的 $\alpha_i$ 对应右边的 $\alpha_i$ 和 $\beta_i$

现在我们来求解下式的具体表达式
$\begin{aligned} \varTheta ( \boldsymbol{\alpha },\boldsymbol{\beta } ) \,&=\underset{for\,\,all\,( \,\boldsymbol{\omega },\xi _i,b )}{inf}{L( \boldsymbol{\omega },\boldsymbol{\xi },b ) } \, \\ &=\underset{for\,\,all\,( \,\boldsymbol{\omega },\boldsymbol{\xi },b )}{inf}{\frac{1}{2}\lVert \boldsymbol{w} \rVert ^2-C\sum_{i=1}^m{\xi _i}+\sum_{i=1}^m{\alpha _i}\,( 1+\xi _i-y_i( \boldsymbol{w}^{\boldsymbol{T}}\varphi \boldsymbol{(x}_{\boldsymbol{i}}\text{)}+b ) ) +\sum_{i=1}^m{\beta _i\xi _i} } \end{aligned}$
$\underset{for\,\,all\,( \,\boldsymbol{\omega },\xi _i,b )}{inf}$ 表示求关于 $\,\boldsymbol{\omega },\xi _i,b )$ 的最小值，即求 $\frac{\partial}{\partial \boldsymbol{\omega }}L( \boldsymbol{\omega },\xi _i,b )$ ， $\frac{\partial}{\partial \xi _i}L( \boldsymbol{\omega },\xi _i,b )$ ， $\frac{\partial}{\partial b}L( \boldsymbol{\omega },\xi _i,b )$ ，并使他们等于零：
$\begin{aligned} &\frac{\partial}{\partial \boldsymbol{\omega }}L( \boldsymbol{\omega },\xi _i,b ) =0\rightarrow \boldsymbol{\omega }=\sum_{i=1}^m{\alpha _iy_i\varphi ( x_i )}\\ &\frac{\partial}{\partial \xi _i}L( \boldsymbol{\omega },\xi _i,b ) =0\rightarrow \alpha _i+\beta _i=C\\ &\frac{\partial}{\partial b}L( \boldsymbol{\omega },\xi _i,b ) =0\rightarrow \sum_{i=1}^m{\alpha _iy_i=0}\\ \end{aligned} \tag2$

其中用到矩阵求导参考矩阵论，这里给出结果

若 $\boldsymbol{\omega } ) =\frac{1}{2}\lVert \boldsymbol{\omega } \rVert ^2$ ，则 $\frac{\partial}{\partial \boldsymbol{\omega }}f( \boldsymbol{\omega } ) =\boldsymbol{\omega }$

若 $\boldsymbol{\omega } ) =\boldsymbol{\omega }^{\text{T}}x$ ，则 $\frac{\partial}{\partial \boldsymbol{\omega }}f( \boldsymbol{\omega } ) =x$

将 $(2)$ 带入 $\varTheta(\boldsymbol{\alpha},\boldsymbol{\beta})$ ，得到：
$\varTheta ( \boldsymbol{\alpha }) =\sum_{i=1}^m{\alpha _i-\frac{1}{2}\sum_{i=1}^m{\sum_{j=1}^m{\alpha _i\alpha _jy_iy_j}}}K( x_i,x_j )$

这时，通过把原问题转换为对偶问题，得到了核函数的表示形式！

将 $(2)$ 带入限制条件 $\alpha_i\geqslant 0 , \beta_i \geqslant 0 (i=1 \sim m)$ 得到：
$0\leqslant \alpha _i\leqslant C \\ \sum_{i=1}^m{\alpha _iy_i=0}$

于是我们求得了核函数SVM的优化对偶问题

核函数SVM对偶问题
最大化： $\varTheta ( \boldsymbol{\alpha }) =\sum_{i=1}^m{\alpha _i-\frac{1}{2}\sum_{i=1}^m{\sum_{j=1}^m{\alpha _i\alpha _jy_iy_j}}}K( x_i,x_j )$
限制条件： $0\leqslant \alpha _i\leqslant C \quad\quad \sum_{i=1}^m{\alpha _iy_i=0}$

只有一个参数待求解： $\boldsymbol{\alpha}$ ，通常可以使用SMO算法

在测试流程中，我们可以有如下判断：
$\begin{cases} \text{若}\boldsymbol{w}^{\boldsymbol{T}}\varphi ( \boldsymbol{x}_{\text{i}} ) +b>0,\text{则}y_{\text{i}}=+1\\ \text{若}\boldsymbol{w}^{\boldsymbol{T}}\varphi ( \boldsymbol{x}_{\text{i}} ) +b<0,\text{则}y_{\text{i}}=-1\\ \end{cases}$
在 $(2)$ 中，我们知道有 $\boldsymbol{\omega }=\sum_{i=1}^m{\alpha _iy_i\varphi ( \boldsymbol{x_i} )}$ ，则：
$\begin{aligned} \boldsymbol{w}^{\boldsymbol{T}}\varphi ( \boldsymbol{x}_{\boldsymbol{i}} ) &=\sum_{j=1}^m{\left[ \alpha _iy_i\varphi ( \boldsymbol{x}_j ) \right] ^{\text{T}}}\varphi ( \boldsymbol{x}_{\boldsymbol{i}} ) \\&=\sum_{j=1}^m{\alpha _iy_i\varphi ( \boldsymbol{x}_{\boldsymbol{j}} ) ^{\text{T}}\varphi ( \boldsymbol{x}_{\boldsymbol{i}} )}\\&=\sum_{j=1}^m{\alpha _iy_iK( \boldsymbol{x}_{\boldsymbol{i}},\boldsymbol{x}_{\boldsymbol{j}} )} \end{aligned} \tag{3}$
只剩下 $b$ 待求解。确定了 $b$ ，则核函数SVM训练完成

$b$ 的求解需要用到KKT条件，

3. KKT条件	3. SVM的KKT条件
$\forall i=1 \sim K$ ， $\boldsymbol{\alpha^_i }=0$ 或者 $g_i( \boldsymbol{\omega ^} ) =0$	$\forall i=1 \sim m$ ， 1. $\boldsymbol{\alpha_i }=0$ 或者 $\,1+\xi _i-y_i( \boldsymbol{w}^{\boldsymbol{T}}\varphi \boldsymbol{(x}_{\boldsymbol{i}}\text{)}+b ) = 0$ 2. $\boldsymbol{\beta_i }=0$ 或者 $\xi_i=0$

取一个 $0<\boldsymbol{\alpha }_{\boldsymbol{i}}<C\Rightarrow \boldsymbol{\beta }_{\boldsymbol{i}}=C-\boldsymbol{\alpha }_{\boldsymbol{i}}>0$ ，此时有：
$\begin{aligned} \boldsymbol{\beta }_{\boldsymbol{i}}\ne 0&\Rightarrow \xi _i=0 \\ \boldsymbol{\alpha }_{\boldsymbol{i}}\ne 0&\Rightarrow 1+\xi _i-y_i( \boldsymbol{w}^{\boldsymbol{T}}\varphi \boldsymbol{(x}_{\boldsymbol{i}}\text{)}+b ) =0 \\ &\Rightarrow 1-y_i( \boldsymbol{w}^{\boldsymbol{T}}\varphi \boldsymbol{(x}_{\boldsymbol{i}}\text{)}+b ) =0 \end{aligned}$
带入 $(3)$ ，得到：
$\begin{aligned} b&=\frac{1}{y_i}-\boldsymbol{w}^{\boldsymbol{T}}\varphi \boldsymbol{(x}_{\boldsymbol{i}}\text{)}=\frac{1-y_i\boldsymbol{w}^{\boldsymbol{T}}\varphi \boldsymbol{(x}_{\boldsymbol{i}}\text{)}}{y_i} \\ &=\frac{1-y_i\sum_{j=1}^m{\alpha _iy_iK( \boldsymbol{x}_{\boldsymbol{i}},\boldsymbol{x}_{\boldsymbol{j}} )}}{y_i} \end{aligned}$

以上就是核函数SVM原问题转换为对偶问题，并用对偶问题训练SVM（求出 $\boldsymbol{\alpha_i}$ 和 $b$ 的过程）的推导过程

核函数SVM算法总结

SVM算法

训练流程：
- 输入 ${(\boldsymbol{x_i},y_i)}_{i=1 \sim m}$
- 解优化问题：
  
  最大化： $\varTheta ( \boldsymbol{\alpha }) =\sum_{i=1}^m{\alpha _i-\frac{1}{2}\sum_{i=1}^m{\sum_{j=1}^m{\alpha _i\alpha _jy_iy_j}}}K( x_i,x_j )$
  
  限制条件： $0\leqslant \alpha _i\leqslant C, \quad\sum_{i=1}^m{\alpha _iy_i=0}$
  
  求解 $b$ ：找一个 $0<\boldsymbol{\alpha }_{\boldsymbol{i}}<C$ ，可以算得 $b=\frac{1-y_i\sum_{j=1}^m{\alpha _iy_iK( \boldsymbol{x}_{\boldsymbol{i}},\boldsymbol{x}_{\boldsymbol{j}} )}}{y_i}$
测试流程
- 输入测试样本 $\boldsymbol{x}$
  $\begin{cases} \text{若}\sum_{j=1}^m\alpha _iy_iK( \boldsymbol{x}_{\boldsymbol{i}},\boldsymbol{x}_{\boldsymbol{j}} ) +b>0,\text{则}y_{\text{i}}=+1\\ \text{若}\sum_{j=1}^m\alpha _iy_iK( \boldsymbol{x}_{\boldsymbol{i}},\boldsymbol{x}_{\boldsymbol{j}} ) +b<0,\text{则}y_{\text{i}}=-1\\ \end{cases}$

通过转换为对偶问题，我们可以看到上面没有出现 $\varphi (\boldsymbol{x})$ ，而待求解的参数只有 $\boldsymbol{\alpha_i}$ 和 $b$

SVM处理多分类问题

上面都在说如何用SVM处理二分类问题，那么怎么样用SVM处理多分类问题呢？

我们有一下三种方法：

改造优化的目标函数和限制条件，使之能处理多分类问题。

这种方法通常效果一般，SVM专为二分类而生
一类VS其他类

例子：

若有 $C_1 ,C_2 ,C_3$ 三类，则可以设计三个SVM

SVM1： $C_1 ,C_2)VS(C_3)$

SVM2： $C_1 ,C_3)VS(C_2)$

SVM3： $C_2 ,C_3)VS(C_1)$

若 $y_1=+1,y_2=+1,y_3=-1$ ，则显然为第一类

若 $y_1=+1,y_2=-1,y_3=-1$ ，在看看SVM1和SVM2的 $\boldsymbol{w}^{\boldsymbol{T}}\varphi ( \boldsymbol{x}_{\text{i}} ) +b$ 哪一个负的比较多就判断为哪一个
一类VS另一类

例子：

若有 $C_1 ,C_2 ,C_3$ 三类，则可以设计三个SVM

SVM1： $C_1 )VS(C_2)$

SVM2： $C_1 )VS(C_3)$

SVM3： $C_2)VS(C_3)$

若 $y_1=+1,y_2=+1,y_3=-1$ ，则显然为第一类（ $C_1$ 被投了两票， $C_3$ 被投了一票）