算法详解系列(三)：支持向量机

最新推荐文章于 2023-09-18 08:29:19 发布

预知梦_

最新推荐文章于 2023-09-18 08:29:19 发布

阅读量561

点赞数

分类专栏：算法详解文章标签： SVM 机器学习支持向量机深度学习算法

本文链接：https://blog.csdn.net/Im_Chenxi/article/details/102491836

版权

算法详解专栏收录该内容

3 篇文章 1 订阅

订阅专栏

一、线性可分支持向量机

1.1 支持向量机学习目标

支持向量机的输入空间为欧式空间或离散集合，特征空间为欧式空间或希尔伯特空间。支持向量机的学习是在特征空间上进行的。

对于一个有两个类别的数据集( $y_i\in\{+1,-1\}$ )，假设训练数据集是线性可分的，学习的目标是在特征空间中找到一分离超平面能将实例分到不同类。当数据集线性可分时，有无数个分离超平面可将数据正确分开，支持向量机利用间隔最大化求解最优分离超平面，因此解是唯一的。通过间隔最大化或等价地来解相应的凸二次规划问题学习得到的分离超平面为 $w^Tx+b=0$ ，分类决策函数： $f(x)=sign(w^Tx+b)$ 。

使用间隔最大化策略的原因：对训练集找到几何间隔最大的超平面意味着以充分大的确信度对训练数据进行分类。对最难分的实例点(离超平面最近的点)也有足够大的确信度将它们分开，对未知新实例有很好的分类预测能力。

1.2 函数间隔和几何间隔

一个点距离分离超平面的远近可以表示分类预测的确信程度，超平面 $w^Tx+b=0$ 确定的情况下， $w^Tx+b|$ 能够相对地表示点 $x$ 距离超平面的远近。因为，点到线 $w^Tx+b=0$ 的距离公式为 $\frac{|w^Tx+b|}{\sqrt{w^{2}}}$ ，当w为定值式，距离大小只与分子有关。

函数间隔：对某一点 $\left(x_{i}, y_{i}\right)$ ，函数间隔为 $\hat{\gamma}_{i}=y_{i}\left(w \cdot x_{i}+b\right)$ ，对训练集T的函数间隔为 $\hat{\gamma}=\min _{i=1,2,... ,m} \hat{\gamma}_{i}$ 。

几何间隔：对某一点 $\left(x_{i}, y_{i}\right)$ ，几何间隔为 $\gamma_i=y_i(\frac{w}{\|w\|}x_i+\frac{b}{\|w\|})$ ，对训练集T的几何间隔为 ${\gamma}=\min _{i=1,2,... ,m} {\gamma}_{i}$ 。

函数间隔和几何间隔的关系： $\gamma_i=\frac{\hat{\gamma}_{i}}{|| w||}$ ， $\gamma_=\frac{\hat{\gamma}_{}}{|| w||}$ 。

引入几何间隔的原因：选择分离超平面时，若成比例地改变w和b，超平面本身并没有改变，但函数间隔却成比例变化。因此，对w进行规范化约束，令 $||w\|=1$ ，使得间隔能够确定下来，此时几何间隔表达式变为函数间隔。

当某点被正确分类时，函数间隔表达式就是点到直线距离公式的分子部分，几何间隔就是点到直线公式，使用距离公式来确定间隔距离，保证了欧式空间的距离的标准化，确定不会因为w，b的成倍缩放影响距离度量。

1.3 线性可分SVM的基本型

最大化几何间隔可转换为下面约束最优化问题：

$\max _{w, b} \gamma$ ，(此处为几何间隔)

$s.t.y_i(\frac{w}{\|w\|}x_i+\frac{b}{\|w\|})\geq \gamma,i=1,2, ...,m$

最大化几何间隔$\gamma $，约束条件表示的是超平面关于每个训练集样本的几何间隔至少是$ \gamma $。

改写：

$\max _{w, b} \frac{\hat\gamma}{||w||}$ ，(此处为函数间隔)

$s.t.y_{i}\left(w \cdot x_{i}+b\right)\geq \hat\gamma,i=1,2, ...,m$

可取 $\hat\gamma=1$ ，将 $\hat\gamma=1$ 带入上面的最优化问题中，并且不影响问题的解。

可取 $\hat\gamma=1$ 并且不影响解的原因：从约束条件看：将 $\hat\gamma$ 按比例放缩到1，同时也将 $w, b$ 按相同的比例进行放缩，放缩因子是 $\frac{1}{|\hat\gamma|}$ ，此时约束条件 $s.t.y_{i}\left(w \cdot x_{i}+b\right)\geq \hat\gamma\Rightarrow y_{i}(\frac{w}{|\hat \gamma|}x_i+\frac{b}{|\hat \gamma|})$ ，因为等式的关系同时放缩，所以等式约束左右相消，对等式约束没有任何的影响，即 $w, b$ 的缩放和 $\hat\gamma$ 的缩放没有影响，原来能满足约束条件的点仍能满足约束。从目标函数看： $\hat\gamma$ 进行缩放为1，缩放因子为 $\frac{1}{|\hat\gamma|}$ ，但同时 $∣ ∣ w ∣ ∣$ 也会同时乘上缩放因子 $\frac{1}{|\hat\gamma|}$ (因为等式 $\hat \gamma=|w^Tx+b|$ 的原因)，所以目标函数也不会受到影响。两者都没有影响，所以最终不会影响问题解。

转换优化问题为最小优化，得到线性可分支持向量机的基本型：

$\min _{w, b} \frac{1}{2} ||w||^2$

$s.t.y_{i}\left(w \cdot x_{i}+b\right)-1\geq0,i=1,2, ...,m$

这是一个凸二次规划问题，接下来要转换凸二次规划问题为其对偶问题求解。

凸最优化问题(约束最优化)形式： $\min _{w} f(w),s.t.:g_i(w)\leq0,i=1,2,..,k;h_i(w)=0,i=1,2,...,l$ ，要求： $f(w)和g_i(w)$ 都是 $R^n$ 上连续可微的凸函数， $h_i(w)$ 是 $R^n$ 上的仿射函数(仿射函数： $f(x)=ax+b,a\in R^n,b\in R,x \in R^n$ )。

凸优化问题能细化为凸二次规划问题的条件：目标函数 $f (w)$ 为二次函数，约束函数 $g_i(w)$ 是仿射函数。

1.4 支持向量和决策边界

求解上述问题后，得到参数 $w^*$ 和 $b^*$ ，可得分离超平面(决策边界)： $w^*x+b^*=0$ ，分类决策函数为： $f(x)=sign(w^*x+b^*)$ 。

支持向量：线性可分情况下，训练数据集中与分离超平面距离最近的实例称为支持向量。支持向量是使约束条件等号成立的点，即满足 $y_{i}\left(w \cdot x_{i}+b\right)-1=0$ 的点，在决定分离超平面时，只有支持向量起作用，其他实例点不起作用。

1.5 拉格朗日对偶性(转换对偶问题的理论基础)

原始问题：设 $f(x),c_i(x),h_j(x)$ 是定义在 $R^n$ 上的连续可微函数，考虑约束最优化问题：

$\min _{x\in R^n} f(x)$

$s.t.c_i(x)\leq0,i=1,2,..,k;h_j(x)=0,j=1,2,...,l$

可得广义拉格朗日函数：

$\alpha, \beta)=f(x)+\sum_{i=1}^{K} \alpha_ic_{i}(x)+{\sum_{j=1}^{l} \beta_ j h_ j(x)}$ ，其中 $\alpha_{i}, \beta_{j}$ 是拉格朗日乘子， $\alpha_{i}, \beta_{j}$ 的个数和其对应约束条件个数相等，且 $\alpha_{i}\geq 0$ (不等式约束条件的拉格朗日乘子要求大于等于0)。

则，原始问题中 $f (x)$ 可以等价转化为： $\theta _p(x)=\max _{\alpha, \beta:\alpha_i \geq0}L(x, \alpha, \beta)$ 。

可以等价转化的原因：当某个x违反约束时( $c_i(x)>0$ 或 $h_j(x)\neq 0$ )， $\theta _p(x)=\max _{\alpha, \beta:\alpha_i \geq0}L(x, \alpha, \beta)=+\infty$ 。因为若某个 $x_i$ 使 $c_i(x)>0$ ，则可 $\alpha_i \rightarrow +\infty$ ，若某个 $x_j$ 使得 $h_j(x) \neq0$ ，则可令 $\beta_j$ 使得 $\beta_jh_j(x)\rightarrow+\infty$ 。此时 $\theta _p(x)=\left\{\begin{array}{l}{f(x),满足约束} \\ {+\infty,不满足约束}\end{array}\right.$ ，满足约束时，为了使得 $L(x,\alpha,\beta)$ 最大， $\alpha_i$ 和 $\beta_i$ 均为0。

接着带入 $f (x)$ ，考虑极小化问题，$\min _{x} \theta_p(x)=\min _{x}\max _{\alpha, \beta:\alpha_i \geq0}L(x, \alpha, \beta) $，此时此式称为极小极大问题，令其最优解为$ p^*$。

此时，上式和原始问题有相同的解，因为若想使 $\theta_p(x)$ 最小，x就不能违反约束，否则此时 $\theta_p(x)=+\infty$ ，肯定不是使 $\theta_p(x)$ 最小的x值，间接性排除了不满足约束的x取值。

对偶问题：定义 $\theta_D(\alpha, \beta)=\min _{x^{}} L(x, \alpha, \beta)$ ，再考虑极大化 $\theta_D(\alpha, \beta)$ ，即： $\max _{\alpha, \beta : \alpha_{i} \geq 0} \theta_{D}(\alpha, \beta)=\max _{\alpha, \beta : \alpha_{i} \geq 0} \min _{x^{}} L(x, \alpha, \beta)$ ，此时称为极大极小问题(交换了min和max的顺序)，令其最优解为 $d^*$ ，这就是原始问题的对偶问题形式。

原始问题和对偶问题的关系

定理1：若原始问题和对偶问题都有最优解，则： $d^*=\max _{\alpha, \beta : \alpha_{i} \geq 0} \min _{x^{}} L(x, \alpha, \beta) \leq\min _{x}\max _{\alpha, \beta:\alpha_i \geq0}L(x, \alpha, \beta) =p^*$ 。

证明：因为 $\theta_D(\alpha, \beta)=\min _{x^{}} L(x, \alpha, \beta)\leq L(x, \alpha,\beta)\leq \max _{\alpha, \beta:\alpha_i \geq0}L(x, \alpha, \beta)=\theta_p(x)$ ，可得： $\theta_D(\alpha, \beta)\leq\theta_p(x)$ ，等号成立时，便是 $\alpha,\beta$ 刚好取得使L( $\max _{\alpha, \beta : \alpha_{i} \geq 0} \theta_{D}(\alpha, \beta)$ )取到最大且恰好x取值使得L( $\min _{x} \theta_p(x)$ )最小。不论 $x,\alpha,\beta$ 取任何值，因为 $\theta_D(\alpha, \beta)$ 是沿着x参数方向取最小值，而 $\theta_p(x)$ 是沿着 $\alpha,\beta$ 方向取最大值，优化方向不同，所以 $\theta_D(\alpha, \beta)$ 均小于等于 $\theta_p(x)$ 。由于原始问题和对偶问题均有最优解，可得： $\max _{\alpha, \beta : \alpha_{i} \geq 0} \theta_{D}(\alpha, \beta) \leq \min _{x} \theta_p(x)$ ，即： $d^*=\max _{\alpha, \beta : \alpha_{i} \geq 0} \min _{x^{}} L(x, \alpha, \beta) \leq\min _{x}\max _{\alpha, \beta:\alpha_i \geq0}L(x, \alpha, \beta) =p^*$ 。

定理2：假设函数 $f (x)$ 和 $c_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数，不等式约束 $c_i(x)$ 是严格可行的，即存在x，对所有 $c_i(x)<0$ ，则存在 $x^*,\alpha^*,\beta^*$ ，使 $x^*$ 是原始问题的解， $\alpha^*,\beta^*$ 是对偶问题的解，并且 $p^*=d^*=L(x^*, \alpha^*,\beta^*)$ 。
结论说明，不论先根据x最小化，再根据 $\alpha,\beta$ 最大化目标拉格朗日函数，还是先根据 $\alpha,\beta$ 最大化再根据x最小化目标拉格朗日函数，最终结果是一样的，虽然使其达到最终结果的是两种方式，但结果值一样。

定理3：函数 $f (x)$ 和 $c_i(x)$ 是凸函数， $h_j(x)$ 是仿射函数，且不等式约束 $c_i(x)$ 是严格可行的， $x^*,\alpha^*,\beta^*$ 分别是原始问题和对偶问题的解的充要条件是 $x^*,\alpha^*,\beta^*$ 满足KKT条件：

$\nabla_{x} L\left(x^{*}, \alpha^{*}, \beta^{*}\right)=0$

$\nabla_{\alpha} L\left(x^{*}, \alpha^{*}, \beta^{*}\right)=0$

$\nabla_{\beta} L\left(x^{*}, \alpha^{*}, \beta^{*}\right)=0$

$c_i(x^*)\leq0,i=1,2,...,k$

$h_j(x^*)=0, j=1,2,...,l$

$\alpha ^* _i c_i(x^*)=0,i=1,2,...,k$

$\alpha ^* _i \geq0,i=1,2,...,k$

前三条是对x和拉格朗日乘子的偏导数为0的条件，第四五条是原始约束条件，第六条是原始条件的衍生条件(KKT的对偶互补条件，即：若$\alpha ^* _i >0,c _i(x^*)=0 $)，第七条是拉格朗日乘子条件。

1.6 原始问题的对偶问题

通过求解对偶问题得到原始问题的最优解

构造拉格朗日函数： $L(w,b,\alpha)=\frac {1}{2}||w||^2-\sum_{i=1}^{m}\alpha_{i} y_{i}(w^x_i+b)+\sum_{i=1}^{m}\alpha_i$ 。

原始问题： $\min _{w,b} \max_\alpha L(w, b, \alpha)$ ，

对偶问题： $\max_\alpha \min _{w,b} L(w, b, \alpha)$ 。

Step1：求解 $\min _{w,b} L(w, b, \alpha)$

$\nabla_{w} L(w, b, \alpha)=w-\sum_{i=1}^{m} \alpha_i y_ix_{i}=0$

$\nabla_{b} L(w, b, \alpha)=\sum_{i=1}^{m} \alpha_i y_i=0$ (成为Step2中的约束条件)

可得： $w={\sum}_{i=1}^{m} \alpha_{i} y_{i} x_{i}$ 和 $\sum_{i=1}^{m} \alpha_i y_i=0$ 。

将结果带入 $L(w,b,\alpha)$ 中，即得：

$\alpha)=\frac{1}{2}\sum_{i=1}^{m} \sum_{j=1}^{m}\alpha_i\alpha_jy_iy_j(x_ix_j)-\sum_{i=1}^{m}\alpha_iy_i((\sum_{j=1}^{m}\alpha_jy_jx_j)x_i+b)+\sum_{i=1}^m\alpha_i$

$=-\frac{1}{2}\sum_{i=1}^{m} \sum_{j=1}^{m}\alpha_i\alpha_jy_iy_j(x_ix_j)+\sum_{i=1}^m\alpha_i$

即： $\min _{w, b} L(w, b, \alpha)=-\frac{1}{2}\sum_{i=1}^{m} \sum_{j=1}^{m}\alpha_i\alpha_jy_iy_j(x_ix_j)+\sum_{i=1}^m\alpha_i$ 。

Step2：求 $\min _{w, b} L(w, b, \alpha)$ 对 $\alpha$ 的极大

$\max _{\alpha}-\frac{1}{2}\sum_{i=1}^{m} \sum_{j=1}^{m}\alpha_i\alpha_jy_iy_j(x_ix_j)+\sum_{i=1}^m\alpha_i$ ,

$s.t.\sum_{i=1}^m \alpha_iy_i=0,\alpha_i\geq0$

可得原始问题的对偶问题形式：

$\min _{\alpha}\frac{1}{2}\sum_{i=1}^{m} \sum_{j=1}^{m}\alpha_i\alpha_jy_iy_j(x_ix_j)+\sum_{i=1}^m\alpha_i$ ,

$s.t.\sum_{i=1}^m \alpha_iy_i=0,\alpha_i\geq0$

1.7 决策边界仅由支持向量决定的证明

定理：设 $\alpha^*=(\alpha_1^*,\alpha_2^*,...,\alpha_m^*)^T$ 是对偶问题的解，则存在下标j使得 $\alpha_j>0$ ，并且 $w^*=\sum_{i=1}^m\alpha_{i}^* y_{i} x_{i}$ ， $b=y_j-\sum_{i=1}^m\alpha_{i}^* y_{i} (x_{i}x_j)$ 。

证明：因为原问题满足了拉格朗日对偶性定理2，从而定理3的KKT条件成立可得：

$\nabla_{w} L(w^*, b^*, \alpha^*)=w^*-\sum_{i=1}^{m} \alpha_i^* y_ix_{i}=0$

$\nabla_{b} L(w^*, b^*, \alpha^*)=-\sum_{i=1}^{m} \alpha_i^* y_i=0$

$\alpha_{i}^*(y_i(w^*x_i+b^*)-1)\geq0,i=1,2,...,m$

$y_i(w^*x_i+b^*)-1\geq0,i=1,2,...,m$

$\alpha^*_i\geq0,i=1,2,...,m$

由1式可得： $w^*=\sum_{i=1}^{m} \alpha_i^* y_ix_{i}$ ，即 $w^*$ 只和 $\alpha_i^*>0$ 的点有关，并且至少有一个 $\alpha_j>0$ ，因为若 $\alpha_i$ 全为0，此时 $w^*$ 为0，带入4式中得 $y_i*b\geq1$ ，因为b为一常数， $y_i$ 取值有 $\pm1$ ，则 $\pm b\geq1$ 肯定不满足。对满足 $\alpha_j>0$ 的点有 $y_j(w^*x_j+b)-1=0$ ，即可得 $b=y_j-\sum_{i=1}^m\alpha_{i}^* y_{i} (x_{i}x_j)$ 。证毕。

此时分离超平面为 $\sum_{i=1}^m\alpha_{i}^* y_{i} (x \cdot x_{i})+b^*=0$ ，分类决策函数为： $f(x)=sign(\sum_{i=1}^m\alpha_{i}^* y_{i} (x \cdot x_{i})+b^*)$ 。

至此，分类函数是一个仅和 $\alpha$ 有关的优化问题，求解就是求解 $\alpha^*$ 。

对 $\alpha^*_i\geq0$ 的点 $x_i$ 有 $y_i(w^* \cdot x_i+b^*)-1=0$ ，即 $w^* \cdot x_i+b^*=\pm 1$ ，所以 $x_i$ 一定在决策边界上，称这些在决策边界上 $\alpha^*_i\geq0$ 的点为支持向量。

因为 $w^*,b^*$ 只依赖于训练数据中 $\alpha^*_i\geq0$ 的样本点，数据中对应于 $\alpha^*_i\geq0$ 的实例点为支持向量，所以决策边界仅由支持向量决定。

1.8 线性可分支持向量机分离超平面存在唯一性证明

定理：线性可分训练数据集的最大间隔分离超平面是存在且唯一的。

证明：

证明存在性。因为训练集线性可分，所以原始问题一定存在可行解，又由于目标函数有下界，所以最优化问题必有解(原始问题目标函数有下界0，所以必不为负无穷，最小化必有解)，由于数据集 $\in \{1, -1\}$ ，所以 $(w, b) = (0, b)$ 不是最优解，故 $w^* \neq 0$ ，因此分离超平面一定存在。
证明唯一性。
- 首先证明 $w^*$ 唯一性。假设原始问题存在两个最优解 $w^*_1,b_1^*)$ 和 $w^*_2,b_2^*)$ ，显然 $w_1^*||=||w_2^*||=C$ ，令 $w=\frac{w_{1}^*+w_{2}^{*}}{2}，b=\frac{b_{1}^*+b_{2}^{*}}{2}$ ，因为 $y_i(w^*_1x_i+b_1^*)-1\geq0,y_i(w^*_2x_i+b_2^*)-1\geq0$ ，两式各乘上 $\frac{1}{2}$ 相加即满足约束条件，故得 $(w, b)$ 是原始问题的可行解。从而有 $C\leq||w||\leq \frac{1}{2}||w^*_1||+\frac{1}{2}||w^*_2||=C$ ，即 $\frac{1}{2}||w^*_1||+\frac{1}{2}||w^*_2||$ ，从而有 $w^*_1=\lambda w^*_2,|\lambda|=1$ ，若 $\lambda=-1,w=0$ ，此时不为可行解，故 $\lambda=1,w^*_1=w^*_2$ 。
- 证明 $b^*$ 的唯一性。假设两个最优解 $w^*,b_1^*)$ 和 $w^*,b_2^*)$ 。设 $x_{1}^{\prime},x_{2}^{\prime}$ 是集合 ${x_i|y_i=+1\}$ 中分别对应于 $w^*,b^*_1)$ 和 $w^*,b^*_2)$ 中使约束条件等号成立的点(即分隔边界点)， $x_{1}^{\prime\prime},x_{2}^{\prime\prime}$ 是集合 ${x_i|y_i=-1\}$ 中分别对应于 $w^*,b^*_1)$ 和 $w^*,b^*_2)$ 使约束条件等号成立的点。
  
  由 $\left\{\begin{matrix} w^* \cdot x^{\prime}_1+b_1^*=1\\ w^* \cdot x^{\prime\prime}_1+b_1^*=-1\\ w^* \cdot x^{\prime}_2+b_2^*=1\\ w^* \cdot x^{\prime\prime}_2+b_2^*=-1 \end{matrix}\right.$
  
  联立可得： $b_{1}^{*}=-\frac{1}{2}\left(w^{*} \cdot x_{1}^{\prime}+w^* \cdot x^{\prime \prime}_1\right),b_{2}^{*}=-\frac{1}{2}\left(w^{*} \cdot x_{2}^{\prime}+w^* \cdot x^{\prime \prime}_2\right)$ 。
  
  即 $b_1^*-b_2^*=-\frac{1}{2}[w^*(x_1^\prime-x_2^\prime) + w^*(x_1^{\prime\prime}-x_2^{\prime\prime}) ]$ 。
  
  又因为对于 $wx^{\prime}+b$ 来说，任何的x均要满足 $wx^{\prime}+b\geq1$ ，所以可得：
  
  $\left\{\begin{matrix} w^* \cdot x^\prime _2 + b_1^* \geq 1 = w^* \cdot x^\prime _1 + b_1\\ w^* \cdot x^\prime _1 + b_2^* \geq 1 = w^* \cdot x^\prime _2 + b_2 \end{matrix}\right.$
  
  所以有： $0\leq w^{*} \cdot\left(x_{1}^{\prime}-x_{2}^{\prime}\right)\leq0,0\leq w^{*} \cdot\left(x_{1}^{\prime\prime}-x_{2}^{\prime\prime}\right)\leq0$ ，即 $w^{*} \cdot\left(x_{1}^{\prime}-x_{2}^{\prime}\right)=0,w^{*} \cdot\left(x_{1}^{\prime\prime}-x_{2}^{\prime\prime}\right)=0$ 。带入上面 $b_1^*-b_2^*$ 表达式可得： $b_1^*-b_2^*=0$ ，即 $b_1^*=b_2^*$ ，唯一性证毕。

二、软间隔线性支持向量机

训练数据集往往是线性不可分，即在样本中出现嗓音或特异点。修改硬间隔最大化，使其成为软间隔最大化。

2.1 线性不可分问题

线性不可分意味着某些样本点 $x^{(i)},y^{(i)})$ 不能满足函数间隔大于等于1的约束条件，对每个样本点 $x^{(i)},y^{(i)})$ 引入一个松弛变量 $\xi _i\geq0$ ，使函数间隔加上松驰变量大于等于1。约束条件变为: $y_i(w \cdot x^{(i)}+b)\geq1-\xi _i$ 。

同时对每个松弛变量 $\xi_i$ 支付一个代价，从而目标函数由 $\frac{1}{2}||w||^2$ 变为了 $\frac{1}{2}||w||^2 + C\sum_{i=1}^m \xi_i$ ，其中 $C$ 称为惩罚系数。

松弛变量 $\xi_i$ 的含义：当点距离分割超平面距离大于 $\frac{1}{||w||}$ 时(正确分类)，此时为0即可，此时也使得代价函数 $\frac{1}{2}||w||^2 + C\sum_{i=1}^m \xi_i$ 最小。当点距离超平面距离小于 $\frac{1}{||w||}$ 或错误分类时，引入一定的惩罚。(C是调和使间隔尽量大同时使误分类点的个数尽量小的系数)。

2.2 软间隔支持向量机原始问题

原始问题可描述为：

$\begin{array}{l}{\text { min }} \\ {w, b, \xi}\end{array}\frac{1}{2}||w||^2 + C\sum_{i=1}^m \xi_i$

$s.t.y^{(i)}(w \cdot x^{(i)}+b)\geq1-\xi _i,i=1,2,...,m;\xi_i\geq0,i=1,2,...,m$

原始问题是一个凸二次规划问题

w的解是唯一的，但b的解不唯一，b的解存在于一个区间。

分离超平面： $w^* \cdot x+b=0$

分类决策函数： $f(x)=sign(w^* \cdot x+b=0)$

2.3 软间隔支持向量机对偶问题

原始问题的拉格朗日函数是：

$\xi, \alpha, \mu)=\frac{1}{2}||w||^2+C\sum_{i=1}^m\xi_i-\sum_{i=1}^m(y^{(i)}(w \cdot x^{(i)}+b)-1+\xi_i)-\sum_{i=1}^m\mu_i\xi_i$

$s.t.\alpha_i\geq0,\mu_i\geq0$

对偶问题是拉格朗日函数的极大极小问题。

首先求 $\xi, \alpha, \mu)$ 对 $\xi$ 的极小，由：

$\nabla_{w} L(w, b, \xi, \alpha, \mu)=w-\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}=0$

$\nabla_{b} L(w, b, \xi, \alpha, \mu)=-\sum_{i=1}^m\alpha_iy^{(i)}=0$

$\nabla_{\xi} L(w, b, \xi, \alpha, \mu)=C-\alpha_i-\mu_i=0$

可得：

$w=\sum_{i=1}^m\alpha_iy^{(i)}x^{(i)}$

$\sum_{i=1}^m\alpha_iy^{(i)}=0$

$C-\alpha_i-\mu_i=0$

将结果带入拉格朗日函数，可得：

$\begin{array}{l}{\text { min }} \\ {w, b, \xi}\end{array}L(w, b, \xi, \alpha, \mu)=-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy^{(i)}y^{(j)}x^{(i)}x^{(j)}+\sum_{i=1}^m\alpha_i$ 。

再对 $\begin{array}{l}{\text { min }} \\ {w, b, \xi}\end{array}L(w, b, \xi, \alpha, \mu)$ 求 $\alpha$ 的极大，即得对偶问题：

$\underset{\alpha}{max}-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m\alpha_i\alpha_jy^{(i)}y^{(j)}x^{(i)}x^{(j)}+\sum_{i=1}^m\alpha_i$

$s.t.\sum_{i=1}^m\alpha_iy^{(i)}=0；C-\alpha_i-\mu_i=0；\alpha_i\geq0；\mu_i \geq0,i=1,2,...,m$

2.4 对偶问题求解方式

结论：设 $\alpha^*=(\alpha^*_1,\alpha^*_2,...,\alpha^*_m)$ 是对偶问题的一个解，若存在 $\alpha^*$ 的一个分量 $\alpha^*_j$ 满足 $0<\alpha^*_j<C$ ，则 $\alpha^*,b^*$ 可由下式计算：

$w^*=\sum_{i=1}^m\alpha^*_iy^{(i)}x^{(i)}$

$b^*=y^{(j)}-\sum_{i=1}^my^{(i)}\alpha^*_i(x^{(i)} \cdot x^{(j)})$

证明：因为原始问题是凸二次规划问题，解满足KKT条件：

$\nabla_{w} L(w^*, b^*, \xi^*, \alpha^*, \mu^*)=w^*-\sum_{i=1}^m\alpha_i^*y^{(i)}x^{(i)}=0 \Rightarrow w^*=\sum_{i=1}^m\alpha_i^*y^{(i)}x^{(i)}$

$\nabla_{b} L(w^*, b^*, \xi^*, \alpha^*, \mu^*)=-\sum_{i=1}^m\alpha_i^*y^{(i)}=0$

$\nabla_{\xi} L(w^*, b^*, \xi^*, \alpha^*, \mu^*)=C-\alpha^*-\mu^*=0$

$\alpha_i^{*}(y^{(i)}(w \cdot x^{(i)}+b)-1+\xi_i^*)=0$

$\mu_i^*\xi^*_i=0$

$y^{(i)}(w \cdot x^{(i)}+b)-1+\xi_i^* \geq0$

$\xi_i^*\geq0$

$\alpha_i^*\geq0$

$\mu_i^*\geq0$

若存在 $\alpha^*_j$ 满足 $0<\alpha^*_j<C$ ，则由4式可得 $y^{(i)}(w \cdot x^{(i)}+b)-1+\xi_i^*=0$ 。又因为 $C=\alpha^*+\mu^*,0<\alpha^*_j<C$ 可得： $\mu^* \neq 0$ ，由 $\mu_i^*\xi^*_i=0$ 得： $\xi^*_i=0$ ，带入6式，可得： $y^{(i)}(w \cdot x^{(i)}+b)-1=0$ 。

可得 $b^*=y^{(i)}-w^*x^{(i)}$ ，由式1可得 $w^*=\sum_{i=1}^m\alpha_i^*y^{(i)}x^{(i)}$ ，带入到 $b^*$ 中，可得 $b^*=y^{(j)}-\sum_{i=1}^m y^{(i)}\alpha^*_i(x^{(i)}x^{(j)})$ 。注意：代入时，两者i并非是相一致。

对任一适合条件 $0<\alpha^*_j<C$ 的 $\alpha^*_j$ ，按上式均可求出一个 $b^*$ ，因此原始问题对b的解不唯一，实际计算时取在所有符合条件样本点上求得b求平均值。

2.5 $\alpha$ 的大小对应样本点的位置

根据KKT条件中 $\alpha_i^{*}(y^{(i)}(w \cdot x^{(i)}+b)-1+\xi_i^*)=0$ 可得：

若 $\alpha^*_i>0$ 的样本点 $x^{(i)}, y^{(i)})$ 称为支持向量。

若 $\alpha^*_i<C$ ，则可得 $\xi_i=0$ ，支持向量恰好落在间隔边界上。

若 $\alpha^*_i=C，0<\xi_i<1$ ，则分类正确，样本点落在间隔边界与分类超平面之间。

若 $\alpha^*_i=C，\xi_i=1$ ，样本点在超平面上。

$\alpha^*_i=C，\xi_i>1$ ，样本点在分离超平面误分的一侧。

在这里插入图片描述

2.6 合页损失函数以及等价证明

软间隔线性支持向量机学习策略为软间隔最大化，学习策略为凸二次规划。这种问题可以使用另一种解释，即最小化以下目标函数：

$\sum_{i=1}^m[1-y^{(i)}(w \cdot x^{(i)} + b)] + \lambda ||w||^2$

前半部分的经验损失代表样本点被正确分类时，且函数间隔 $y^{(i)}(w \cdot x^{(i)} + b)\geq1$ 时，损失是0，否则损失是 $1-y^{(i)}(w \cdot x^{(i)} + b)$ 。后半部分是正则化项。

合页损失函数： $\cdot x+b))=[1-y(w \cdot x+b)]_+$ ，其中 $z]_+=$ 。

则线性软间隔支持向量机原始优化问题：

$\begin{array}{l}{\text { min }} \\ {w, b, \xi}\end{array}\frac{1}{2}||w||^2 + C\sum_{i=1}^m \xi_i$

$s.t.y^{(i)}(w \cdot x^{(i)}+b)\geq1-\xi _i,i=1,2,...,m;\xi_i\geq0,i=1,2,...,m$

可转换为最小化带正则化项的合页损失： $\underset{w,b}{min}\sum_{i=1}^m[1-y^{(i)}(w \cdot x^{(i)}+b)]_++\lambda||w||^2$ 。

证明：

令 $[1-y^{(i)}(w \cdot x^{(i)}+b)]_+=\xi_i$ ，则 $\xi_i \geq0$ ，满足约束条件2。

由 $\xi_i=[1-y^{(i)}(w \cdot x^{(i)}+b)]_+$ 可推得，当 $1-y^{(i)}(w \cdot x^{(i)}+b)>0$ 时，有 $y^{(i)}(w \cdot x^{(i)}+b)=1-\xi_i$ ；当 $1-y^{(i)}(w \cdot x^{(i)}+b)\leq0$ 时，有 $y^{(i)}(w \cdot x^{(i)}+b)\geq1-\xi_i$ ，则满足约束条件1。

故损失函数此时可写为： $\underset{w,b}{min}\sum_{i=1}^m\xi_i+ \lambda||w||^2$ ，取 $\lambda= \frac{1}{2C}$ ，则 $\underset{w,b}{min} \frac{1}{C}(\frac{1}{2}||w||^2+C\sum_{i=1}^m\xi_i)$ 与原式等价。

在这里插入图片描述

相比之下，合页损失函数不仅要求分类正确，而且确信度足够高时损失才是0。

三、非线性支持向量机

3.1 非线性可分问题

如果能用 $R^n$ 中一个超曲面将正负例正确分开，则称这个问题是非线性可分问题。
求解思路：进行一个非线性变换，将非线性问题变换为线性问题。

3.2 核函数

设 $X$ 是输入空间(欧氏空间 $R^n$ 的子集或离散集合)。
设 $H$ 是特征空间(希尔伯特空间)。
存在一个 $X$ 到 $H$ 映射: $\phi(x):X \rightarrow H$ ，使得对所有 $\in X$ ， $z)=\phi(x) \cdot \phi(z)$ 。
其中， $k (x, z)$ 为核出数， $\phi(x)$ 为映射函数， $\phi(x) \cdot \phi(z)$ 为 $\phi(x)$ 和 $\phi(z)$ 的内积。

在支持向量机中直接使用核函数替换映射的原因：

无论是目标函数还是决策函数都只涉及输入实例与实例之间的内积。直接计算 $k (x, z)$ 比较容易，而通过 $\phi(x)$ 和 $\phi(z)$ 计算 $k (x, z)$ 不容易，因为 $\phi$ 是输入空间 $X$ 到特征空间 $H$ 的映射，特征空间一般是高维的，甚至是无穷维的。并且，在给定核函数 $k (x, z)$ ，特征空间 $H$ 和映射空间 $X$ 中的映射$\phi $取法并不唯一。核函数化后，对偶问题的目标函数：$ W(\alpha)=\frac{1}{2} \sum_{i=1}^{{m}\sum_{j=1}}{m}\alpha_i\alpha_jy^{(i)}y{(j)}k(x^{(i)},x{(j)})-\sum_{i=1}^m \alpha_i $，分类决策函数：$ f(x)=\operatorname{sign}(\sum_{i=1}^{m_s} \alpha^{*}_iy{(i)}k(x^{i} \cdot x) + b^*)$。

核技巧：核函数 $k (x, z)$ 给定的情况下，利用解线性分类问题的方法求解非线性分类问题的支持向量机学习是隐式地在特征空间进行的，不需要显式地定义特征空间和映射函数。

3.3 常用核函数

3.3.1 线性核

$z)=x^T \cdot z$

3.3.2 多项式核

$z)=(x^T \cdot z + 1)^p$

当 $p = 1$ 时，多项式核退化为线性核。

3.3.3 高斯核(RBF核)

$\frac{||x-z||^2}{2\sigma ^2})$

对应的SVM是高斯径向基分类器， $\sigma$ 为高斯核的带宽( $\sigma >0$ )。

3.3.4 拉普拉斯核

$k(x,z)=exp(-\frac{||x-z||}{\sigma}),(\sigma > 0)$

3.3.5 Sigmoid核

$k(x,z)=tanh(\beta x^T \cdot z + \theta),(\beta > 0, \theta< 0)$

$t a n h$ 为双曲正切函数。

3.3.6 线性组合

$k_1,k_2$ 为核函数， $\gamma_1, \gamma_2 >0$ ，则 $\gamma_1 k_1+\gamma_2k_2$ 也是核函数。

3.3.7 直积

$k_1\otimes k_2(x,z)=k_1(x,z)k_2(x,z)$

3.3.8 函数化

$k(x,z)=g(x)k_1(x,z)g(z)$

3.4 核函数是正定核函数的证明

正定核的充要条件：设 $\times X \rightarrow R$ 是对称函数，则 $k (x, z)$ 为正定核函数的充要条件是对任意$x^{(i)} \in X,i=1,2,…,m,k(x,z) $对应的 G r a m 矩阵：$ K=[k(x^{(i)},x{(j)})]_{m \times n}$是半正定矩阵。

证明：

1.必要性。

由于 $k (x, z)$ 是 $X\times X$ 的正定核，所以存在从 $X$ 到 $H$ 的映射$ \phi $：$ k(x, z)=\phi(x) \cdot \phi(z)$。

对任意 $x^{(1)},x^{(2)},...,x^{(m)}$ ，构造 $k (x, z)$ 关于 $x^{(1)},x^{(2)},...,x^{(m)}$ 的Gram矩阵：

$[k_{ij}]_{m \times m}=[k(x^{(i)}, x^{(j)})]_{m \times n}$ 。

对任意的 $c_{1}, c_{2},..., c_m \in R$ ，有： $\sum_{i,j=1}^mc_ic_jk(x^{(i)}, x^{(j)})=\sum_{i,j=1}^mc_ic_j(\phi(x^{(i)} \cdot x^{(j)}))=(\sum_ic_i\phi(x^{(i)}))(\sum_jc_j\phi(x^{(j)}))=||\sum_ic_i\phi(x^{(i)})||^2$ 。

表明 $k (x, z)$ 关于 $x^{(1)},x^{(2)},...,x^{(m)}$ 的Gram矩阵半正定。

2.充分性

构造从 $X$ 到 $H$ 的映射： $\phi(x):X \rightarrow H$ ，由核的可再生性可得： $k(\cdot ,x)\cdot f=f(x)$ ，并且 $k(\cdot, x) \cdot k(\cdot , z)=k(x,z)$ ，即 $k(x,z)=\phi(x) \cdot \phi(z)$ ，表明 $k (x, z)$ 是 $\times X$ 上的核函数。

对于一个具体函数 $k (x, z)$ 检验其是否为正定核要求对有限输入集验证对应Gram矩阵是否为半正定，不易计算，实际中往往应有已有的核函数。

半正定矩阵的性质：1. 行列式非负；2.两个半正定矩阵之和为半正定；3.非负实数与其数乘矩阵仍为半正定。

矩阵 $A$ 为半正定的充要条件： $A$ 的主子式非负；特征值均非负； $A=C^{-1}C$ ( $C$ 为n阶实对称矩阵)； $A=B^{-1}B$ ( $B$ 为秩为r的 $\times n$ 实矩阵)。

3.5 根据核函数构造一个希尔伯特空间过程

核函数 $k (x, z)$ 关于 $x^{(1)},x^{(2)},...,x^{(m)}$ 的Gram矩阵是半正定的。

Step1：定义映射，构成向量空间 $S$ 。

向量空间(线性空间)：关注的是向量的位置，对于一个线性空间，知道基(相当于三维空间坐标系)，便可确定空间中元素的位置，向量空间只定义了加法和数乘运算。

对于映射： $\phi:x \rightarrow k(\cdot,x)$ ，对任意 $x^{(i)} \in X, \alpha_i \in R,i=1,2,...,m$ ，定义线性组合：

$f(\cdot)=\sum_{i=1}^m \alpha_ik(\cdot, x_i)$

集合 $S$ 中元素为线性组合， $S$ 对加法和数乘运算是封闭的(封闭是指运算结果还在此空间中)，所以 $S$ 构成一个向量空间。

Step2：在 $S$ 上定义内积，使其成为内积空间。

在向量空间上定义范数，可得向量长度，向量空间变为赋范线性空间。在赋范线性空间定义内积，可得向量夹角，此时称为内积空间。

在 $S$ 上定义一个运算 $*$ ：对任意的 $\in S$ ， $f(\cdot )=\sum_{i=1}^m \alpha_i k(\cdot, x_i)$ ， $g(\cdot)=\sum_{j=1}^l \beta_jk(\cdot,z_j)$ ，定义运算 $*$ 为 $f*g=\sum_{i=1}^m\sum_{j=1}^l\alpha_i \beta_j k(x_i, z_j)$ 。

若要证明 $*$ 是空间 $S$ 的内积，需证明：

$c(f*g),c\in R$
$(f + g) * h = f * h + g * h$
$f * g = g * f$
$\geq0, f*f=0 \Leftrightarrow f=0$

其中1-3由定义运算式及 $k (x, z)$ 定义式可得。

证明4：

$f*f=\sum_{i,j=1}^m \alpha_i\alpha_jk(x_i,x_j)$ ，由Gram矩阵的半正定性可知，上式右端非负，即 $\geq 0$ 。

证： $\Leftrightarrow f=0$ 。

显然由 $\Rightarrow f*f=0$ 。

先证： $|f*g|^2 \leq(f*f)(g*g)$ 。

设 $\in S, \lambda \in R$ ，则 $f+\lambda g \in S$

则由 $\geq 0$ 可得： $(f+\lambda g)*(f+\lambda g) \geq 0$ ，即 $\lambda(f * g)+\lambda^{2}(g * g) \geq 0$ 。

左侧是 $\lambda$ 的二次三项式，非负。代表等于0时只有一个根或者无根，所以判别式应该小于等于0，即： $g)^{2}-(f * f)(g * g) \leq 0,(b^2-4ac \le0)$ 。于是证得： $|^{2} \leqslant(f * f )( g * g)$ 。

若 $\cdot)=\sum_{i=1}^{m} \alpha_{i} k( \cdot ，x_{i} )$ ，对任意的 $\in X$ 有： $k(\cdot, x) * f=\sum_{i=1}^{m} \alpha_{i} k\left(x, x_{i}\right)$ 。

于是， $|f(x)|^{2}=\left|k(\cdot , x )* f|^{2}\right.$ ，于是由上面证得 $|^{2} \leqslant(f * f )( g * g)$ 可得 $|k(\cdot , x )* f|^{2} \leq(k(\cdot , x )*k(\cdot , x ))(f*f)=k(x,x)(f*f)$ 。

由上面的 $|f(x)|^{2}=\left|k(\cdot , x )* f|^{2}\right.$ 可得： $|f(x)|^{2} \leq k(x, x)(f*f)$ ，此式表明， $f * f = 0$ 时，对任意x，有 $∣ f (x) ∣ = 0$ 。即证得，若 $f * f = 0$ ，则 $f = 0$ 。

至此，证明了 $*$ 为向量空间 $S$ 的内积。将 $*$ 用 $\cdot$ 表示，即 $\cdot g=\sum_{i=1}^m\sum_{j=1}^l \alpha_i \beta_jk(x_i, z_j)$ 。

Step3：将内积空间完备化为希尔伯特空间。

由上述定义内积可得范数 $||f||=\sqrt{f \cdot f}$ ，因此 $S$ 是一个赋范空间，可研究收敛性(极限)。

当赋范向量空间完备时，就为希尔伯特(Hilbert)空间。其上的所有柯西序列(元素随着序数(有次序)增加愈发靠近)等价于收敛序列。由于核 $k$ 具有再生性，即 $k(\cdot,x)\cdot f=f(x)$ 及 $k(\cdot, x) \cdot k(\cdot,z)=k(x,z)$ ，于是这一希尔伯特空间称为可再生核希尔伯特空间。

欧式空间定义：定义了内积的有限维实线性空间。

四、序列最小优化(SMO)算法

4.1 算法思想

SMO算法解决上述未解决的凸二次规划的对偶问题：

$\min _{\alpha} \frac{1}{2}\sum_{i=1}^{m}\sum_{j=1}^{m}\alpha^{(i)} \alpha^{(j)} y^{(i)} y^{(j)}k(x^{(i)}, x^{(j)})-\sum_{i=1}^{m}\alpha_i,$

$s.t.\sum_{i=1}^{m}\alpha_iy^{(i)}=0;0 \leq \alpha_i \leq C,i=1,2,...,m.$

其中的变量是拉格朗日乘子 $\alpha_i$ ，每个对应一个样本。

基本思想：如果解的所有变量都满足此最优化问题的KKT条件，这最优化问题的解便可得到（因为KKT条件是最优问题的充要条件，拉格朗日定理3）。否则，选择两个变量，固定具他变量，针对这两个变量构建一个二次规划问题。

此时，子问题有两个变量，一个是违反KKT条件最严重的那一个，另一个由约束条件： $\alpha_1 =-y^{(1)}\sum_{i=2}^m\alpha_i$ 自动确定，因此只有一个是自由变量。

SMO算法包括求解两个变量二次规划的解析方法和选择变量的启发式方法

4.2 两变量解析方法

假设选定 $\alpha_1,\alpha_2$ ，其余变量固定。此时SMO子问题为：

$\min _{\alpha_{1}, \alpha_{2}} W\left(\alpha_{1}, \alpha_{2}\right)=\frac{1}{2} k_{11} \alpha_{1}^{2}+\frac{1}{2} k_{22} \alpha_{2}^{2}+y^{(1)} y^{(2)} k_{12} \alpha_{1} \alpha_{2}-\left(\alpha_{1}+\alpha_{2}\right)+y^{(1)} \alpha_1 \sum_{i=3}^my^{(i)}\alpha_ik_{i1}+y^{(2)} \alpha_2 \sum_{i=3}^my^{(i)}\alpha_ik_{i2}$

$\alpha_1y^{(1)} + \alpha_2y^{(2)}=-\sum_{i=3}^my^{(i)}\alpha_i=S,0\leq\alpha_i\leq C$ ，S为一常数。

此式是由对偶问题式拆开得到，第一项是 $i = 1, j = 1$ 时拆出，第二项是 $i = 2, j = 2$ 时拆出，第三项是 $i = 1, j = 2$ 和 $i = 2, j = 1$ 两项拆出后合并结果，第四项是对偶问题第二项中除去常数后结果，第五项是 $i=1,j\neq2$ 和 $i\neq2,j=1$ 拆出后合并的结果，第六项是 $i=2,j\neq1$ 和 $\neq 1, j=2$ 拆除后合并的结果。

先对约束条件进行分析：

$\alpha_1y^{(1)} + \alpha_2y^{(2)}=-\sum_{i=3}^my^{(i)}\alpha_i=S,0\leq\alpha_i\leq C$

约束条件可以使用二维空间中图形来表示：

在这里插入图片描述

假设问题的可行解为 $\alpha_1^{old},\alpha_2^{old}$ ，最优解为 $\alpha_1^{new},\alpha_2^{new}$ ，并且假设在沿着约束方向(即在给定的k直线上)未经剪辑(不考虑边界[0,C]限制) $\alpha_2$ 的最优解为 $\alpha_2^{new, unc}$ 。

$\alpha_2^{new}$ 需满足 $\leq \alpha_2 \leq C$ ，所以 $\alpha_2^{new}$ 的取值范围是 $\leq \alpha_2^{new} \leq H$ ，其中 $L, H$ 是 $\alpha_2^{new}$ 在对角线段(即给定k直线上)端点的上下界。

当 $y^{(1)} \neq y^{(2)}$ 时， $\alpha_2^{old}-\alpha_1^{old}),H=min(C,C-k)=min(C,C+\alpha_2^{old}-\alpha_1^{old})$
当 $y^{(1)} = y^{(2)}$ 时， $L=max(0,k-C)=max(\alpha_2^{old}+\alpha_1^{old}-C),H=min(C,k)=min(C, \alpha_2^{old}+\alpha_1^{old})$

解释：观察图，

当 $y^{(1)} \neq y^{(2)}$ 时， $\alpha_1 - \alpha_2=k$
- 当 $k < 0$ 时， $\alpha_2$ 取值范围： $\Leftrightarrow(\alpha_2^{old}-\alpha_1^{old},C)$ ，此时 $L$ 取 $- k$ ， $H$ 取 $C$
- 当 $\geq0$ 时， $\alpha_2$ 取值范围： $\Leftrightarrow (0,C+\alpha_2^{old}-\alpha_1^{old})$ ，此时 $L$ 取 $0$ ， $H$ 取 $C - k$
当 $y^{(1)} = y^{(2)}$ 时， $\alpha_1 + \alpha_2=k$
- 当 $0 < k < C$ 时， $\alpha_2$ 取值范围： $\Leftrightarrow (0, \alpha_1^{old}+ \alpha_2^{old})$ ，此时 $L$ 取 $0$ ， $H$ 取 $k$
- 当 $C\leq k < 2C$ 时， $\alpha_2$ 取值范围： $\Leftrightarrow(\alpha_1^{old}+\alpha_2^{old}-C,C)$ ，此时 $L$ 取 $K - C$ ， $H$ 取 $C$

即通过 $L, H$ 的表达，将 $k$ 的多种情况进行合并。

令 $g(x)=\sum_{i=1}^m \alpha_i y^{(i)}k(x^{(i)},x)+b$ (决策函数sign内部部分)，令 $E_i=g(x^{(i)})-y^{(i)}=(\sum_{j=1}^m \alpha_jy^{(j)}k(x^{(j)}, x^{(i)})+b)-y^{(i)},i=1,2$ ，令 $i = 1, 2$ 的原因：一个 $\alpha_i$ 对应着一个 $(\alpha_i, y^{(i)})$ ，因为和其他的变量无关，所以其余的 $E_i,i\geq3$ 对优化 $\alpha_1,\alpha_2$ 时是常量，即优化 $\alpha_1,\alpha_2$ 前后 $E_i,i\geq3$ 并未改变，所以不予考虑。

记 $V_i=\sum_{j=3}^m \alpha_jy^{(j)}k(x^{(i)}, x^{(j)})=g(x^{(i)}-\sum_{i=i}^2 \alpha_jy^{(j)}k(x^{(i)}, x^{(j)})-b),i=1,2$ ，目标函数此时带入后变为：

$W\left(\alpha_{1}, \alpha_{2}\right)=\frac{1}{2} k_{11} \alpha_{1}^{2}+\frac{1}{2} k_{22} \alpha_{2}^{2}+y^{(1)}y^{(2)}k_{12}\alpha_1\alpha_2-(\alpha_1+\alpha_2)+y^{(1)}V_1\alpha_1+y^{(2)}V_2\alpha_2$

由 $\alpha_{1} y^{(1)}=S-\alpha_{2} y^{(2)}$ 及 $y^{(i)}$ 的平方为1可得 $\alpha_1=(S-y^{(2)}\alpha_2)y^{(1)}$ ，将其带入，并对 $\alpha_2$ 求偏导：

$\frac{\partial W}{\partial \alpha_{2}}=k_{11} \alpha_{2}+k_{22} \alpha_{2}-k_{11} S y^{(2)}+k_{12} S y^{(2)}+y^{(1)}y^{(2)}-1-V_1y^{(2)}+V_2y^{(2)}=0$ 可得：

$\alpha_2^{new, unc}=\alpha_2^{old} + \frac{y^{(2)}(E_1-E_2)}{\eta}$ 。

则最优化问题沿着约束方向未经剪辑的解为 $\alpha_2^{new, unc}=\alpha_2^{old} + \frac{y^{(2)}(E_1-E_2)}{\eta}$ ，其中 $\eta=k_{11}+k_{22}-2 k_{12}=||\phi(x^{(1)})-\phi(x^{(2)})||^2$ ， $\phi$ 为映射。

$\alpha_2$ 的解为： $\alpha_{2}^{n e w}=\left\{\begin{array}{l}{H,\alpha_2^{new, unc}}>H \\ {\alpha_{2}^{n e w, u n c},L \leq \alpha_2^{new, unc} \leq H } \\ {L,\alpha_2^{new, unc}<L}\end{array}\right.$ 。

由 $\left\{\begin{array}{l}{\alpha_{1}^{new}y^{(1)}+\alpha_2^{new}y^{(2)}=S} \\ {\alpha_{1}^{old}y^{(1)}+\alpha_2^{old}y^{(2)}=S}\end{array}\right.$ 对应可得 $\alpha_1^{new}=\alpha_{1}^{\text { old }}+y^{(1)} y^{(2)}\left(\alpha_{2}^{\text { old }}-\alpha_{2}^{\text { new }}\right)$ 。

4.3 变量的选择方法

选择两个变量优化，其中至少一个是违反KKT条件的。

4.3.1 选择第一个变量 $\alpha_1$ (外层循环)

选取原则：选取违反KKT条件最严重的样本点。

检验是否满足： $\left\{\begin{array}{l}{\alpha_ i=0 \Leftrightarrow y^{(i)}g(x^{(i)}) \geq1} \\ {0<\alpha_{i}<C} \Leftrightarrow y^{(i)}g(x^{(i)})=1 \\ {\alpha_{i}=c \Leftrightarrow y^{(i)}g(x^{(i)}) \leq 1}\end{array}\right.$ ，检验是在一定精度$\varepsilon $范围内进行的。

外层循环首选遍历所有满足条件 $0<\alpha_i<C$ 的样本点，即支持向量点。检验它们是否满足KKT条件。若都满足，则遍历整个训练集，检验它们是否满足KKT条件。

4.3.2 选取第二个变量$\alpha_2 $(内层循环)

选取原则：希望 $\alpha_2$ 有足够大的变化。

由上述可知， $\alpha_2^{new}$ 依赖 $E_1-E_2|$ ，简化做法是选择 $\alpha_2$ 使对应的 $E_1-E_2$ 最大。

因为 $\alpha_1$ 已定， $E_1$ 便已定，且当 $E_1 \geq0$ 时，选取最小的 $E_i$ ， $E_1<0$ 时选取最大的 $E_i$ ，为了节省计算时间，一般将 $E_i$ 值存在于一个列表中。

当 $\alpha_2$ 不能使目标函数有足够的下降时的解决方法：

Step1：遍历间隔边界上的支持向量点，依次作为 $\alpha_2$ 试用，直到有足够的下降。

Step2：Step1不合适时，遍历训练集。

Step3：Step2不合适时，放弃当前 $\alpha_1$ ，从外层循环重新寻找 $\alpha_1$ 。

4.3.3 $b$ 和差值 $E$ 的计算

每次完成 $\alpha_1$ 和 $\alpha_2$ 的优化后，需要重新计算 $b$ 。

当 $0<\alpha_1^{new}<C$ 时，由KKT知： $\sum_{i=1}^m \alpha_iy^{(i)}k_{i1}+b=y^{(1)}$ ，于是可得：

$b_1^{new}=y^{(1)}-\sum_{i=3}^{m} \alpha_{i} y^{(i)} k_{i1}-\alpha_1^{new}y^{(1)}k_{11}-\alpha_2^{new}y^{(2)}k_{21}$ 。

由 $E_{1}=\sum_{i=3}^{m} \alpha_{i}y^{(i)}k_{i1}-\alpha_1^{new}y^{(1)}k_{11}-\alpha_2^{new}y^{(2)}k_{21}$ 得：

$b^{new}_1=-E_{1}-y^{(1)} k_{11}(\alpha_1^{new}-\alpha_1^{old})-y^{(2)}k_{21}(\alpha_2^{new}-\alpha_2^{old})+b^{old}$

同样的，若 $0<\alpha_{2}^{\text { new }}<C$ ，

$b^{new}_2=-E_{2}-y^{(1)} k_{12}(\alpha_1^{new}-\alpha_1^{old})-y^{(2)}k_{22}(\alpha_2^{new}-\alpha_2^{old})+b^{old}$

若 $\alpha_1^{new},\alpha_2^{new}$ 都满足 $0<\alpha_i^{new}<C$ ，则 $b^{new}_1=b^{new}_2$ 。

若 $\alpha_1^{new}$ 或 $\alpha_2^{new}$ 是 $0$ 或者 $C$ ，则 $b^{new}_1，b^{new}_2$ 以及它们之间的数都是符合KKT条件的值，因为当 $\alpha_i=0$ 时， $\mu=C, \xi=0,y^{(i)}(w^* \cdot x^{(i)}+b)-1$ 可以不为0， $b$ 就可变化；当 $\alpha_i=C$ 时， $\mu = 0$ ， $\xi$ 可变动，从而 $y^{(i)}b^*+\xi$ 可变化。此时选择两者中点作为 $b^{new}$ 。

每次完成两个变量优化后，还必须更新对应的 $E_i$ 值，保存在列表中。 $E_i^{new}=\sum_S y^{(j)} \alpha_jk(x^{(i)},x^{(j)}) + b^{new}-y^{(i)}$ ，其中 $S$ 是所有支持变量 $x^{(j)}$ 的集合(决策函数只与支持向量有关)。

五、支持向量机的损失函数

5.1 0/1损失函数

$l_{0/1}(z)=\left\{\begin{array}{l}{1, \text { if }z<0} \\ {0, \text {otherwise }}\end{array}\right.$

5.2 Hinge损失函数

$l_{hinge}(z)=max(0, 1-z)$

5.3 指数损失函数

$l_{exp}(z)=exp(-z)$

5.4 对率损失函数

$l_{log}(z)=log(1+exp(-z))$

当使用对率损失函数时，就几乎得到了逻辑回归模型。

六、支持向量机和逻辑回归比较

相同点：

都是线性分类器，本质上都是求一个最佳分类超平面
都是监督学习算法
都是判别模型
通常情况下性能相当

不同点：

本质上的损失函数不同：

LR是交叉熵损失函数： $J(\theta)=-\frac{1}{m}[\sum_{i=1}^m y^{(i)}logh_\theta(x^{(i)})+(1-y^{(i)})log(1-h_\theta(x^{(i)}))]$ ，SVM是合页损失函数： $L(w,b,\alpha)=\frac{1}{2}||w||^2-\sum_{i=1}^m \alpha_i(y^{(i)}(w^T \cdot x^{(i)} + b) -1 )$ 。LR是基于概率论原理，假设正样本的概率可以用Sigmoid函数表示，然后通过极大似然估计的方法估计出参数的值。SVM基于几何间隔最大化原理，认为存在最大几何间隔的分类超平面为最优分类面。
对数据和参数的敏感程度不同：

SVM只与支持向量有关，在其外添加或减少样本点对分类决策面没有影响，因此SVM对异常值不敏感，而LR敏感。SVM抗噪能力强。LR受所有数据点的影响，直接依赖数据分布，每个样本点都会影响决策面结果。如果类别不平衡，一般需要做平衡处理。
SVM基于数据表达的距离测度，必须先进行标准化。LR不必须。进行标准化也对梯度下降有一定好处。
解决非线性问题时，SVM采用核函数，而LR通常不采用。SVM可灵活转换为线性问题，LR需手动特征转换。SVM只有少数几个支持向量样本参与决策运算，LR中每个样本点都需要参与核计算，计算代价高( $\frac{1}{2}||w||^2$ 正则化项)。
小规模数据上，SVM优于LR。SVM计算复杂度受数据量限制，对海量数据LR使用更加广泛。
SVM自带正则，LR则需要添加。
LR输出具有自然的概率意义，SVM输出不具概率意义，需进行特殊处理才能概率输出。
LR能直接用于多分类任务，SVM需推广。
理论基础不同，SVM基于严格数学推导，LR基于统计。
可处理特征维度不同，LR在特征维度很高时，表现较差。SVM可通过对偶求解高效来解决。
能力范围不同，SVM扩展后，可解决回归问题，LR不能。

七、支持向量机过拟合策略

选择的核函数过强，更换核函数。
要求的间隔过大，修改C系数大小，控制两者比例(C过大过于强调函数间隔，抑或正则化系数过小)。

八、支持向量机优缺点

SVM优点：

对线性不可分数据，可通过核函数映射到高维特征空间实现线性可分
SVM学习问题可表示为凸优化问题，可利用有效算法发现目标函数的全局最小值。而其他分类算法(如人工神经网络等)都采用一种基于贪心学习的策略来搜索假没空间，一般只能获得局部最优解。
小集群分类效果好。
结果由少数支持向量决定，使得具有较好的鲁棒性。体现在：增、删非支持向量对模型没有影响。支持向量样本集具有一定的鲁棒性。在某些应用中，SVM对核选取不敏感。

SVM缺点：

仅限于二分类，多分类效果不好
仅限于小集群样本，观测样本太多时，效率较低
寻找合适的核函数相对困难

九、支持向量机处理多分类问题

直接法。直接在目标函数上进行修改，将多个分类面的参数求解合并到一个最优化问题中，通过求解该最优化问题一次性实现多分类。但计算复杂度比较高，实现起来较困难，只适用于小型问题中。
间接法。组合多个2分类器来实现多分类器的构造，如one vs one，one vs all。

十、支持向量机进行概率输出

输出概率定义式为： $P_r(x)\approx P_{A,B}(f)=\frac{1}{1+exp(Af+B)},wheref=f(x)$ ，是将SVM的输出结果进行后处理，转换成后验概率。式子是采用一个Sigmoid函数将SVM输出映射到 $[0, 1]$ 之间。其中，有两个参数 $A, B$ 来调整映射值大小， $A$ 称作尺度参数， $B$ 称作位置参数。

定义一个新的训练集合 $f_i, t_i)$ ，其中 $f_i=\frac{1}{1+exp(\bigtriangleup f_i+B)},t_i=\frac{y^{(i)}+1}{2}$ ， $y^{(i)}$ 为样本所属的类别，取值为 ${-1, 1\}$ ， $t_i$ 为目标概率。来极小化训练集上的负对数损失函数(交叉熵损失函数)： $min-\sum_i[t_ilog(p_i)+(1-t_i)log(1-p_i)]$ ，其中 $p_i$ 即 $f_i$ 。

由于Sigmoid函数的稀疏性(Sigmoid(-5)=0.0067，Sigmoid(5)=0.9933)，而 $t_i$ 取值范围为 $[0, 1]$ ，要完全拟合目标值，就要求Sigmoid的输入向实数轴两端靠拢。而Sigmoid函数对数轴两端的值变化不敏感，难以区分，所以要对 $t_i$ 进行平滑处理： $t_i=\left\{\begin{matrix} \frac{N^+ +1}{N^+ + 2},if: y^{(i)}=+1\\ \frac{1}{N^+ + 2},if: y^{(i)}=-1 \end{matrix}\right.$ 。

十一、支持向量机时间、空间复杂度

SVM的空间消耗主要是存储训练样本和核矩阵。

SVM的时间计算复杂度介于 $O(NSV^3+L*NSV^2+d*L*NSV)$ 和 $O(d*L^2)$ 之间，其中 $N S V$ 为支持向量个数， $L$ 为训练样本个数， $d$ 为样本维度。

十二、支持向量回归(SVR)

12.1 支持向量回归思想

支持向量回归假设能容忍 $f (x)$ 和 $y$ 之间最多有$\epsilon $的偏差，即仅当$ f(x) $与$ y $之间的差别绝对值大于$ \epsilon $时才计算损失，这相当于以$ f(x)$为中心，构建了一个宽度为$2\epsilon $宽度的间隔带，若训练样本落入此间隔带，则被认为是预测正确。

SVR问题可形式化为： $\underset{w,b}{min} \frac{1}{2}||w||^2+C \sum_{i=1}^m l_\epsilon(f(x)-y^{(i)}),(f(x)=w^Tx+b)$ ，其中 $C$ 为正则化常数， $l_\epsilon$ 为 $\epsilon-$ 不敏感损失函数， $l_\epsilon(z)=\left\{\begin{array}{l}{0,if :|z| \leq \epsilon } \\ {|z|-\epsilon,otherwise}\end{array}\right.$ 。

12.2 支持向量回归推导

在SVR问题形式化基础上，引入松弛变量 $\varepsilon _i$ 和$\hat\varepsilon_i $，两者代表松弛程度不同。可得SVR的原始问题：

$\underset{\text w,b,\varepsilon,\hat \varepsilon}{\min }\frac{1}{2}||w||^2 + C\sum_{i=1}^m(\varepsilon_i+\hat \varepsilon_i)$

$s.t.f(x^{(i)})-y^{(i)} \leq \epsilon + \varepsilon _i；y^{(i)}-f(x^{(i)}) \leq \epsilon + \hat\varepsilon _i；\varepsilon _i, \hat\varepsilon _i \geq0,i=1,2,...,m$

引入拉格朗日函数：

$\alpha, \hat{\alpha}, \varepsilon, \hat\varepsilon , \mu ,\hat{\mu})=\frac{1}{2} ||w||^{2}+C \sum_{i=1}^m(\varepsilon _i+ \hat \varepsilon _i)-\sum_{i=1}^m\hat\mu_i\hat\varepsilon _i-\sum_{i=1}^m\mu_i\varepsilon _i+\sum_{i=1}^m\alpha_i(f(x^{(i)})-y^{(i)}-\epsilon-\varepsilon _i)+\sum_{i=1}^m \hat \alpha_i(f(x^{(i)})-y^{(i)}-\epsilon-\hat\varepsilon _i)$

原始极小极大问题：

$\underset{\text w,b,\varepsilon,\hat \varepsilon}{\min }\underset{ \mu ,\hat\mu,\alpha,\hat\alpha}{\max}L(w, b, \alpha, \hat{\alpha}, \varepsilon, \hat\varepsilon , \mu ,\hat{\mu})$

对偶极大极小问题：

$\underset{ \mu ,\hat\mu,\alpha,\hat\alpha}{\max }\underset{\text w,b,\varepsilon,\hat \varepsilon}{\min }L(w, b, \alpha, \hat{\alpha}, \varepsilon, \hat\varepsilon , \mu ,\hat{\mu})$

令 $L$ 对 $w,b,\varepsilon,\hat \varepsilon$ 求偏导等于零可得：

$\left\{\begin{array}{l}{W=\sum_{i=1}^{m}\left(\hat{\alpha}_{i}-\alpha_{i}\right) x^{(i)}} \\ {0=\sum_{i=1}^{m}\left(\hat{\alpha}_{i}-\alpha_{i}\right)} \\ {C=\alpha_{i}+\mu_{i}} \\ {C=\hat{\alpha}_{i}+\hat{\mu}_{i}}\end{array}\right.$

带入原式中，可得对偶问题：

$\underset{ \alpha, \hat{\alpha}}{\max } \sum_{i=1}^my^{(i)}\left(\hat{\alpha}_{i}-\alpha_{i}\right)-\epsilon\left(\hat{\alpha}_{i}+\alpha_{i}\right)-\frac{1}{2}\sum_{i=1}^m\sum_{j=1}^m(\hat{\alpha}_{i}-\alpha_{i})(\hat{\alpha}_{j}-\alpha_{j})(x^{(i)})^Tx^{(j)}$

$\sum_{i=1}^m(\hat{\alpha}_{i}-\alpha_{i})=0,\alpha_{i} \geq0, \hat\alpha_{i}\geq0$

上述过程需满足KKT条件，即：

$\left\{\begin{array}{l}{\alpha_i(f(x^{(i)})-y^{(i)}-\epsilon-\varepsilon)=0} \\ {\hat\alpha_i(y^{(i)}-f(x^{(i)})-\epsilon-\hat\varepsilon)=0} \\ {(C-\alpha_{i})\varepsilon_i=0} \\ {(C-\hat\alpha_{i})\hat\varepsilon_i=0}\end{array}\right.$

可得，当且仅当 $f(x^{(i)})-y^{(i)}-\epsilon-\varepsilon=0$ 时， $\alpha_i$ 才能取非零值， $\hat\alpha_i$ 同理。换言之，当且仅当样本 $x^{(i)}, y^{(i)})$ 不落入 $\epsilon$ 间隔带中，相应的 $\alpha_i$ 或 $\hat\alpha_i$ 才能取非零值(因为 $\epsilon+\varepsilon_{i} \geq \epsilon$ )。

而且约束 $f(x^{(i)})-y^{(i)}-\epsilon-\varepsilon=0$ 和 $y^{(i)}-f(x^{(i)})-\epsilon-\hat\varepsilon=0$ 不能同时成立，因此 $\alpha_i, \hat \alpha_i$ 中至少一个为0。因为 $\alpha_i, \hat \alpha_i$ 中至少一个为0，可得 $\varepsilon_i, \hat\varepsilon_i$ 中也至少一个为0(因为由 $\varepsilon_{i}=0$ 或 $\hat\varepsilon_{i}=0$ 和 $C > 0$ 可得约束 $\alpha_i \hat \alpha_i=0，\varepsilon_i \hat\varepsilon_i=0$ )。

将 $w$ 代入，可得SVR解形如： $f(x)=\sum_{i=1}^m(\hat\alpha_i-\alpha_i)(x^{(i)})^Tx+b$ 。

能使 $(\hat\alpha_i-\alpha_i) \neq 0$ 的样本即为支持向量，因为落在 $\epsilon-$ 间隔带之内的样本都满足 $\alpha_i=0$ 且 $\hat\alpha_i=0$ ，所以支持向量必落在 $\epsilon$ 间隔带上或之外。

显然，SVR支持向量仅是训练样本的一部分，其解仍具稀疏性。由KKT条件，若 $0<\alpha_i<C$ ，则 $\varepsilon_i =0$ 且 $f(x^{(i)})-y^{(i)}-\epsilon-\varepsilon=0$ ，则可得： $b=y^{(i)}+\epsilon-\sum_{i=1}^m(\hat\alpha_j-\alpha_j)(x^{(j)})^Tx^{(i)}$ ，其中 $x^{(i)}$ 为任意选取 $0<\alpha_i<C$ 对应样本。若要使得 $b$ 结果更鲁棒，选取多个(或全部)满足条件 $0<\alpha_i<C$ 的样本求解 $b$ 后求平均值。

当考虑特征映射时， $f(x)=\sum_{i=1}^m(\hat\alpha_i-\alpha_j)k(x,x^{(i)})+b$ ，其中 $w=\sum_{i=1}^m(\hat\alpha_i-\alpha_i) \phi(x^{(i)})$ 。

十三、关于支持向量机的几个结论和证明

13.1 在空间上线性可分的两类点，分别向SVM分类的超平面上做投影，这些点在超平面上的投影是线性不可分的

法一：反证法。

假没存在一个SVM分类起平面使所有支持向量在超平面上的投影依然线性可分，如图所示(黑线为分类超平面)：
在这里插入图片描述

依据SVM最大间隔定义原理，可得图中AB两点连线的中垂线所组成的避平面(红线)是较于原超平面(黑线)更优的解，这与之前黑线为超平面最优解相矛盾。考虑最优解对应红线，两组点经过投影后，并不是线性可分的。此时，虽然假设是仅有支持向量，但SVM分类结果仅依赖于支持向量，因此与仅使用支持向量的分类结果一致。因此证得线性不可分。

法二：凸优化理论中的超平面分离定理(SHT定理)。

SHT定理：对于不相交的两个凸集，存在一个超平面，将两个凸集分离。对于二维情况，两个凸集间距离最短两点连线的中垂线就是一个将它们分离的超平面。

先对线性可分的这两组点求各自的凸包(所有包含集合X的凸集的交集称为X的凸包)。SVM求得超平面就是两个凸包上距离最短两点连线的中垂线(面)，凸包上的点要么在两个样本点连线上，要么是样本点。
两个凸包距离最短的两个点的三种情况：

在这里插入图片描述

从几何上分析可知，无论哪种情况两类点的投影均是线性不可分的。

13.2 一个使用高斯核( $k(x, z)=e^{-||x-z||^2/r^2}$ )训练的SVM中，若给定训练集中不存在两个点在同一个位置，则存在一组参数SVM $\left\{\alpha_{1}, \ldots, \alpha_{m}, b\right\}$ 以及参数 $r$ 使得SVM训练误差为0

SVM的预测公式： $f(x)=\sum_{i=1}^m \alpha_iy^{(i)}k(x^{(i)},x)+b$ ，由于不存在两个点在同一位置，因此对于任意的 $\neq j$ 有$||x^{(i)}-x{(j)}|| \geq \varepsilon $，则可以对任意的$ i $，固定$ \alpha_i=1 $以及$ b=0 $(此时不考虑满足约束条件) ，只保留$ r $，有：$ f(x)=\sum_{i=1}^m\alpha_i y^{(i)}k(x{(i)},x)+b=\sum_{i=1}^my{(i)}k(x^{(i)}, x)=\sum_{i=1}^my{(i)}e^{-||x-x{(i)}||^2/r2}$。

将任意 $x^{(j)}$ 代入式中，有： $f(x^{(j)})=\sum_{i=1}^my^{(i)}e^{-||x^{(j)}-x^{(i)}||^2/r^2}$ ，即 $f(x^{j})-y^{(j)}=\sum_{i=1,i \neq j}^my^{(i)}e^{-||x^{(j)}-x^{(i)}||^2/r^2} \Rightarrow||f(x^{j})-y^{(j)}|| \leq\sum_{i=1,i \neq j}^me^{-||x^{(j)}-x^{(i)}||^2/r^2}$ （相当于对于 $y^{(i)}$ 全取了 $+ 1$ ，全取正值，则当且仅当真实分布中 $y^{(i)}$ 全为 $+ 1$ 或 $- 1$ 时等号成立)。

又$||x^{(i)}-x{(j)}|| \geq \varepsilon $，取$ r=\varepsilon / \sqrt{\log m} $，代入可得：$ ||f(x^{j})-y{(j)}|| \leq\sum_{i=1,i \neq j}^me{-||x^{(j)}-x{(i)}||^2/r2} \leq||\sum_{i=1,i \neq j}^me{-logm}||=\frac{m-1}{m}<1$。

此式说明，对于任意的 $x^{(j)}$ ，预测结果 $f(x^{(j)} )$ 与真实标签 $y^{(i)}$ 的距离小于1。因此，当样本 $y^{(j)}=+1$ 时，预测结果 $f(x^{(j)})>0$ ，样本预测为正例；当样本 $y^{(j)}=-1$ 时，预测结果 $f(x^{(j)})<0$ ，样本预测为负例，即所有样本都被正确预测，训练误差为0。

上述证明找到了一组参数满足训练误差为0，但是在不考虑约束条件下进行的，此时证明在实际训练一个不加松弛变量SVM时，也能得到一个SVM保证训练误差为0。

现已证得： $y^{(j)}f(x^{(j)}) \geq1$ ，仍然固定 $b = 0$ ，此时SVM预测公式 $f(x)=\sum_{i=1}^m \alpha_iy^{(i)}k(x^{(i)},x)$ ，将 $y^{(j)}f(x^{(j)})$ 展开，有 $y^{(j)}f(x^{(j)})=y^{(j)}\sum_{i=1}^m \alpha_iy^{(i)}k(x^{(i)},x^{(j)})=\alpha_jy^{(j)}y^{(j)}k(x^{(j)},x^{(j)})+\sum_{i=1,i \neq j}^m\alpha_iy^{(i)}y^{(j)}k(x^{(i)},x^{(j)})=\alpha_j+\sum_{i=1,i \neq j}^m\alpha_iy^{(i)}y^{(j)}k(x^{(i)},x^{(j)})$