《统计学习方法》（第七章）—— 支持向量机

最新推荐文章于 2023-12-06 09:38:20 发布

mkopvec

最新推荐文章于 2023-12-06 09:38:20 发布

阅读量231

点赞数

分类专栏：机器学习

本文链接：https://blog.csdn.net/mkopvec/article/details/90523779

版权

机器学习专栏收录该内容

14 篇文章 0 订阅

订阅专栏

线性可分支持向量机与硬间隔最大化

线性可分支持向量机

定义:给定线性可分训练数据集，通过间隔最大化或等价地求解相应的凸二次规划问题学习得到的分离超平面为
$w^* \cdot x +b^*=0$
以及相应的分类决策函数
$f(x)=sign(w^* \cdot x +b^*)$
称为线性可分支持向量机.

函数间隔和几何间隔

函数间隔定义:对于给定的训练数据集T和超平面 $(w, b)$ 定义超平面 $(w, b)$ 关于样本点 $x_i,y_i)$ 的函数间隔为
$\hat{\gamma}_i=y_i(w \cdot x_i+b)$
定义超平面 $(w, b)$ 关于训练数据集 $T$ 的函数间隔为超平面 $(w, b)$ 关于 $T$ 中所有样本点 $x_i,y_i)$ 的函数间隔最小值
$\hat{\gamma}=\min\limits_{i=1,...,N}\hat{\gamma}_i$
几何间隔定义:对于给定的训练数据集 $T$ 和超平面 $(w, b)$ ,定义超平面 $(w, b)$ 关于样本点 $x_i,y_i)$ 的几何间隔为
$\gamma_i=y_i(\frac{w}{||w||}\cdot x_i+\frac{b}{||w||})$
定义超平面 $(w, b)$ 关于训练数据集 $T$ 的几何间隔为超平面 $(w, b)$ 关于 $T$ 中所有样本点 $x_i,y_i)$ 的几何间隔最小
${\gamma}=\min\limits_{i=1,...,N}{\gamma}_i$
于是我们有
${\gamma}_i=\frac{\hat{\gamma_i}}{||w||}$
${\gamma}=\frac{\hat{\gamma}}{||w||}$

间隔最大化

最大间隔超平面为
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \max\limits_{w,b} \ \gamma$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ s.t. \ \ \ \ y_i(\frac{w}{||w||}+\frac{b}{||w||})\ge \gamma, i=1,2,...,N$
等价于
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \max\limits_{w,b} \ \frac{\hat{\gamma}}{||w||}$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ s.t. \ \ \ \ y_i({w}+{b})\ge \hat{\gamma}, i=1,2,...,N$
因为 $\hat{\gamma}$ 取值无所谓，我们取 $\hat{\gamma}=1$
则最终等价于
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \min\limits_{w,b} \ \frac{1}{2}||w||^2$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ s.t. \ \ \ \ y_i({w}+{b})-1 \ge0, i=1,2,...,N$
这是一个凸优化问题

最终算法

输入:线性可分训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ 其中 $x_i \in R^n,y_i \in \{-1,+1\},i=1,2,...,N$
输出:最大间隔分离超平面和分类函数

$(1)$ 构造优化问题
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \min\limits_{w,b} \ \frac{1}{2}||w||^2$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ s.t. \ \ \ \ y_i({w}+{b})-1 \ge0, i=1,2,...,N$
$(2)$ 得到分类超平面
$w^* \cdot x+b^*=0$
以及分类决策函数
$f(x)=sign(w^* \cdot x+b^*)$

最大间隔分离超平面存在且唯一性证明:
$(1)$ 存在性
由于数据线性可分，必然存在可行解，又由于目标函数有下界，所以最优解必然存在，记 $w^*,b^*)$ 又因为数据中存在正负样本，所以 $w^* \ne 0$ ，存在性得证
$(2)$ 唯一性
首先证明 $w^*$ 唯一.假设有两个最优解 $w_1^*,b_1^*)$ 和 $w_2^*,b_2^*)$ 显然 $w_1^*||=||w_2^*||=c$
令 $w=\frac{w_1^*+w_2^*}{2},b=\frac{b_1^*+b_2^*}{2}$ ,则 $c\le||w||\le\frac{1}{2}||w_1^*||+\frac{1}{2}||w_2^*||=c,$ 所以 $||w||=\frac{1}{2}||w_1^*||+\frac{1}{2}||w_2^*||$
从而 $||w_1^*||=\lambda||w_2^*||$ , $|\lambda|=1$ 如果 $\lambda=-1$ ,则 $∣ ∣ w ∣ ∣ = 0$ 矛盾，如果 $\lambda=1$ ,则 $w_1^*||=||w_2^*||$ 矛盾，所以 $w^*$ 唯一
再证 $b^*$
设 $x_1^`,x_2^`$ 为集合 ${x_i|y_i=+1\}$ 中分别对应 $w^*,b_1^*)$ 和 $w^*,b_2^*)$ 成立的点
设 $x_1^{``},x_2^{``}$ 为集合 ${x_i|y_i=-1\}$ 中分别对应 $w^*,b_1^*)$ 和 $w^*,b_2^*)$ 成立的点
则 $b_1^*=-\frac{1}{2}(w^* \cdot x_1^{'}+w^* \cdot x_1^{''}),b_2^*=-\frac{1}{2}(w^* \cdot x_2^{'}+w^* \cdot x_2^{''})$
$b_1^*-b_2^*=-\frac{1}{2}[w^*\cdot (x_1^{'}-x_2^{'})+w^*\cdot (x_1^{''}-x_2^{''})]$
又
$w^* \cdot x_2^{'}+b_1^* \ge 1=w^* \cdot x_1^{'}+b_1^*$
$w^* \cdot x_1^{'}+b_1^* \ge 1=w^* \cdot x_2^{'}+b_2^*$
所以 $w^* \cdot(x_1^{'}-x_2^{'})=0$ ,同理 $w^* \cdot(x_1^{'‘}-x_2^{'’})=0$
所以 $b_1^*=b_2^*$ 成立.
支持向量和间隔边界
满足 $\cdot x_i+b=y_i$ 的点称为支持向量
$H_1:w \cdot x_i+b=+1$
$H_2:w \cdot x_i+b=-1$
则 $H_1和H_2$ 之间的宽度为 $\frac{2}{||w||}$ 为间隔边界

学习的对偶算法

对优化问题求解，首先定义拉格朗日函数
$L(w,b,a)=\frac{1}{2}||w||^2-\sum\limits_{i=1}^Na_iy_i(w \cdot x_i+b)+\sum\limits_{i=1}^Na_i,$ 其中 $a_i \ge0,i=1,2,...,N$
定义 $a=(a_1,a_2,...,a_N)^T$
则原问题等价于
$\max\limits_a\min\limits_{w,b}L(w,b,a)$
$(1)$ 求 $\min\limits_{w,b}L(w,b,a)$ 另 $w, b$ 偏导数等于0
$\nabla_wL(w,b,a)=w-\sum\limits_{i=1}^Na_iy_ix_i=0$
$\nabla_bL(w,b,a)=-\sum\limits_{i=1}^Na_iy_i=0$
得
$w=\sum\limits_{i=1}^Na_iy_ix_i$
$\sum\limits_{i=1}^Na_iy_i=0$
代入得
$L(w,b,a)=\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^Na_ia_jy_iy_j(x_i \cdot x_j)-\sum\limits_{i=1}^Na_iy_i\Bigg((\sum\limits_{j=1}^Na_jy_jx_j)\cdot x_i +b+\sum\limits_{i=1}^Na_i\Bigg)$

$=-\frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^Na_ia_jy_iy_j(x_i \cdot x_j)+\sum\limits_{i=1}^Na_i$

$(2)$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \min\limits_a\ \frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^Na_ia_jy_iy_j(x_i \cdot x_j)-\sum\limits_{i=1}^Na_i$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ s.t.\ \ \sum\limits_{i=1}^Na_iy_i=0$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ a_i\ge 0,i=1,2,...,N$

$w^*=\sum\limits_{i=1}^Na_i^*y_ix_i$
$b^*=y_i-\sum\limits_{i=1}^Na_i^*y_i(x_i \cdot x_j),a_i>0$
$f(x)=sign(\sum\limits_{i=1}^Na_i^*y_i(x \cdot x_i)+b^*)$
算法
输入：线性可分训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ,其中 $x_i \in R^n,y_i \in \{-1,+1\},i=1,2,...,N$
输出:分离超平面和分类决策函数
$(1)$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \min\limits_a\ \frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^Na_ia_jy_iy_j(x_i \cdot x_j)-\sum\limits_{i=1}^Na_i$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ s.t.\ \ \sum\limits_{i=1}^Na_iy_i=0$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ a_i\ge 0,i=1,2,...,N$
求解 $a^*$
$(2)$ 计算
$w^*=\sum\limits_{i=1}^Na_i^*y_ix_i$
$b^*=y_j-\sum\limits_{i=1}^Na_i^*y_i(x_i \cdot x_j),a_j>0$

$(3)$ 求得分类超平面
$f(x)=sign(\sum\limits_{i=1}^Na_i^*y_i(x \cdot x_i)+b^*)$

线性支持向量机与软间隔最大化

线性支持向量机

定义给定线性不可分的训练数据集，通过求解凸二次规划问题，即软间隔最大化，得到分离超平面为
$w^* \cdot x+b^*=0$
以及决策分类函数
$f(x)=sign(w^* \cdot x+b^*)$
称为线性支持向量机，
即
改变约束条件为
$y_i(w \cdot x_i+b)\ge 1-\xi_i,\xi_i\ge0$
目标函数为
$\frac{1}{2}||w||^2+C\sum\limits_{i=1}^N\xi_i,C>0$
最终为
$\min\limits_{w,b} \ \ \ \frac{1}{2}||w||^2+C\sum\limits_{i=1}^N\xi_i\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \$
$\ \ \ \ y_i({w}+{b}) \ge1-\xi_i, i=1,2,...,N$

学习的对偶算法

根据对偶原理
$L(w,b,\xi,a,\mu)=\frac{1}{2}||w||^2+C\sum\limits_{i=1}^N\xi_i-\sum\limits_{i=1}^Na_i(y_i(w \cdot x_i+b)-1+\xi_i)-\sum_{i=1}^N\mu_i\xi_i,\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \xi_i \ge0,\mu_i\ge0$
$\nabla_wL(w,b,\xi,a,\mu)=w-\sum\limits_{i=1}^Na_iy_ix_i=0$
$\nabla_bL(w,b,\xi,a,\mu)=-\sum\limits_{i=1}^Na_iy_i=0$
$\nabla_{\xi_i}L(w,b,\xi,a,\mu)=C-a_i-\mu_i=0$
代入原式中得
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \min\limits_{w,b} \ \ \ \frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^Na_ia_jy_iy_j(x_i \cdot x_j)-\sum\limits_{i=1}^Na_i \ \ \ \ \$
$\ \ \ \ \ \ \ \ \ \ \ \ \sum\limits_{i=1}^Na_iy_i=0$
$\ \ \ \ \ \ 0\le a_i\le C,i=1,2,...,N$
其中
$w^*=\sum\limits_{i=1}^Na_i^*y_ix_i$
$b^*=y_j-\sum\limits_{i=1}^Ny_ia_i^*(x_i \cdot x_j),0<a_j^*<C$
算法：
输入：线性可分训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ,其中 $x_i \in R^n,y_i \in \{-1,+1\},i=1,2,...,N$
输出:分离超平面和分类决策函数
$(1)$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \min\limits_a\ \frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^Na_ia_jy_iy_j(x_i \cdot x_j)-\sum\limits_{i=1}^Na_i$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ s.t.\ \ \sum\limits_{i=1}^Na_iy_i=0$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 0 \le a_i\le C,i=1,2,...,N$
求解 $a^*$
$(2)$ 计算
$w^*=\sum\limits_{i=1}^Na_i^*y_ix_i$
$b^*=y_j-\sum\limits_{i=1}^Na_i^*y_i(x_i \cdot x_j),a_j>0$

$(3)$ 求得分类超平面
$f(x)=sign(\sum\limits_{i=1}^Na_i^*y_i(x \cdot x_i)+b^*)$

支持向量

$0<a_i^*<C$ 则 $x_i$ 在间隔边界上
$a_i^*=C,0 < \xi_i <1$ 则分类正确，且在间隔边界和超平面之间
$a_i^*=C,\xi_i =1$ 则 $x_i$ 在分离超平面上
$a_i^*=C,1 < \xi_i$ 则 $x_i$ 在另一测

合页损失函数

修改目标函数为
$\sum\limits_{i=1}^N[1-y_i(w \cdot x+b)]_++ \lambda||w||^2$
等价于线性支持向量机
取 $\xi_i=[1-y_i(w \cdot x+b)]_+$
则
$\min\limits_{w,b}\sum\limits_{i=1}^N\xi_i+\lambda||w||^2$
取 $\lambda=\frac{1}{2C}$
则
$\min\limits_{w,b}\frac{1}{C}(C\sum\limits_{i=1}^N\xi_i+\frac{1}{2}\lambda||w||^2)$
等价之

非线性支持向量机与核函数

核技巧

针对线性不可分问题，我们应用核技巧
设 $\phi(x)$ 为x向特征空间的映射
$k(x,z)=\phi(x) \cdot \phi(z)$
替换 $x_j \cdot x_i$ 为 $k (x, z)$

正定核

$K (x, z)$ 为正定核函数的充要条件为其Gram矩阵是半正定的
$K=[K(x_i,x_j)]_{m×m}$
为半正定

常用核函数

多项式核函数
$\cdot z +1)^p$
高斯核函数
$K(x,z)=\exp(-\frac{||x-z||^2}{2\sigma^2})$
字符串核函数
$K_n(s,t)=\sum\limits_{u \in \sum^n}[\phi_n(s)]_n[\phi_n(t)]_n=\sum\limits_{u \in \sum^n}\sum\limits_{(i,j):s(i)=t(j)=u}\lambda^{l(i)+l(j)}$
其中 $0<\lambda\le1,l(i)$ 为字符串 $i$ 的长度,在 $s, t$ 子串上进行
$l(i)=i_{|u|}-i_1+1,1\le i_1<i_2,...,i_{|u|}\le |s|$

非线性支持向量机

定义:从非线性分类训练集，通过核函数与软间隔最大化，或凸规划，学习得到的分类决策函数
$f(x)=sign(\sum\limits_{i=1}^Na_i^*y_iK(x,x_i)+b^*)$
称为非线性支持向量机， $K (x, z)$ 为正定核函数
算法:
输入：线性可分训练集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\}$ ,其中 $x_i \in R^n,y_i \in \{-1,+1\},i=1,2,...,N$
输出:分离超平面和分类决策函数
$(1)$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \min\limits_a\ \frac{1}{2}\sum\limits_{i=1}^N\sum\limits_{j=1}^Na_ia_jy_iy_jK(x_i,x_j)-\sum\limits_{i=1}^Na_i$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ s.t.\ \ \sum\limits_{i=1}^Na_iy_i=0$
$\ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ \ 0 \le a_i\le C,i=1,2,...,N$
求解 $a^*$
$(2)$ 计算
$w^*=\sum\limits_{i=1}^Na_i^*y_ix_i$
$b^*=y_j-\sum\limits_{i=1}^Na_i^*y_iK(x_i,x_j),a_j>0$

$(3)$ 求得分类超平面
$f(x)=sign(\sum\limits_{i=1}^Na_i^*y_iK(x_i,x)+b^*)$

序列最小最优化算法

选择两个违反KKT条件的变量进行优化，直到满足停止条件或者都满足KKT条件，如果满足KKT条件，则是最优解

两个变量二次规划的求解方法

设选择 $a_1,a_2$
$\min\limits_{a_1,a_2}\ \ \ \ \ W(a_1,a_2)=\frac{1}{2}K_{11}a_1^2+\frac{1}{2}K_{22}a_2^2+y_1y_2K_{12}a_1a_2-(a_1+a_2)+y_1a_1\sum\limits_{i=3}^Ny_ia_iK_{i1}+y_2a_2\sum\limits_{i=3}^Ny_ia_iK_{i2}$
$s.t.\ \ \ \ \ \ \ \ a_1y_1+a_2y_2=-\sum\limits_{i=3}^Ny_ia_i=\xi$
$\ \ \ \ \ \ \ \ \ \ \ \ \ 0 \le a_i \le C,i=1,2$
$K_{ij}=K(x_i,x_j)$
我们要求
$\le a_2^{new}\le H$

$y_1\ne y_2$ $L=\max(0,a_2^{old}-a_1^{old}),R=\min(C,C+a_2^{old}-a_1^{old})$
$y_1= y_2$ $L=\max(0,a_2^{old}+a_1^{old}-C),R=\min(C,a_2^{old}+a_1^{old})$
未剪辑和考虑约束条件的解为 $a_2^{new,unc}$
$g(x)=\sum\limits_{i=1}^Na_iy_iK(x_i,x)+b$
$E_i=g(x_i)-y_i=(\sum\limits_{j=1}^Na_jy_jK(x_j,x_i)+b)-y_i,\ \ \ \ \ i=1,2$
则
$a_2^{new,unc}=a_2^{old}+\frac{y_2(E_1-E_2)}{\eta}$
其中
$\eta=K_{11}+K_{22}-2K_{12}$
再进行剪辑
$a^{new}=\begin{cases} H & a_2^{new,unc}>H\\ a_2^{new,unc} & L \le a_2^{new,unc} \le H\\ L & a_2^{new,unc}<L\\ \end{cases}$
又
$a_1^{new}=a_1^{old}+y_1y_2(a_2^{old}-a_1^{old})$
以上更新公式的证明:
记 $v_i=\sum\limits_{j=3}^Na_jy_jK(x_i,x_j)=g(x_i)-\sum\limits_{j=1}^2a_jy_jK(x_i,x_j)-b$
则原问题为
$W(a_1,a_2)=\frac{1}{2}K_{11}a_1^2+\frac{1}{2}K_{22}a_2^2+y_1y_2K_{12}a_1a_2-(a_1+a_2)+y_1v_1a_1+y_2v_2a_2$
又
$a_1=(\xi-y_2a_2)y_1$
则得到
$W(a_2)=\frac{1}{2}K_{11}(\xi-a_2y_2)^2+\frac{1}{2}K_{22}a_2^2+y_2K_{12}(\xi-a_2y_2)a_2-(\xi-a_2y_2)y_1-a_2+v_1(\xi-a_2y_2)+y_2v_2a_2$
求导
$\frac{\partial W}{\partial a_2}=K_{11}a_2+K_{22}a_2-2K_{12}a_2-K_{11}\xi y_2+K_{12}\xi y_2+y_1y_2-1-v_1y_2+y_2v_2=0$
同时
$\eta=K_{11}+K_{22}-2K_{12}$
得
$a_2^{new,unc}=a_2^{old}+\frac{y_2(E_1-E_2)}{\eta}$

变量的选择方法

选择第一个变量
KTT条件如下
$a_i=0\iff y_ig(x_i) \ge 1$
$0<a_i<C\iff y_ig(x_i) = 1$
$a_i=C\iff y_ig(x_i) \le 1$
优先选择不满足第二个条件，再遍历整个数据集选其他不满足的
选择第二个变量
在第一个选择后,我们选择 $a_2$ 的原则是尽量变化的快，即

$E_1>0$ ,选最小的 $E_2$
$E_1<0$ ,选最大的 $E_2$
优先选择间隔边界上的点,如果没有变化快的，则遍历整个数据集，如果再没有，则放弃 $a_1$ 重新选择 $a_1$

计算 $b$ 和 $E_i$
由KKT条件, $0<a_1^{new}<C$
$\sum\limits_{i=1}^Na_iy_iK_{i1}+b=y_1$
则
$b_1^{new}=y_1-\sum\limits_{i=3}^Na_iy_iK_{i1}-a_1^{new}y_1K_{11}-a_2^{new}y_2K_{21}$
又
$E_1=\sum\limits_{i=3}^Na_iy_iK_{i1}+a_1^{old}y_1K_{11}+a_2^{old}y_2K_{21}+b^{old}-y_1$
由两项得
$b_1^{new}=-E_1-y_1K_{11}(a_1^{new}-a_1^{old})-y_2K_{21}(a_2^{new}-a_2^{old})+b^{old}$
同样如果 $0<a_2^{new}<C$
$b_2^{new}=-E_2-y_1K_{12}(a_1^{new}-a_1^{old})-y_2K_{22}(a_2^{new}-a_2^{old})+b^{old}$
如果 $a_1^{new},a_2^{new}$ 同时满足条件，则 $b_1^{new}=b_2^{new}$
如果 $a_1^{new},a_2^{new}$ 为0或 $C$ ,则我们取 $b^{new}=\frac{b_1^{new}+b_2^{new}}{2}$
最后
$E_i^{new}=\sum\limits_{S}y_ja_jK(x_i,x_j)+b^{new}-y_i$
其中 $S$ 为支持向量的集合

SMO算法

输入:训练数据集 $T=\{(x_1,y_1),(x_2,y_2),...,(x_N,y_N)\},x_i \in R^n,y_i \in \{-1,+1\}$ ,精度 $\epsilon$
输出:近似解 $\hat{a}$
$(1)$ 取初始值 $a^{(0)}=0,k=0$
$(2)$ 按照算法求解以 $a^{(k)}_1a^{(k)}_2,$ 求 $a^{(k+1)}_1a^{(k+1)}_2,$
$(3)$ 如果以精度 $\epsilon$ 满足条件则停止,
$\sum\limits_{i=1}^Na_iy_i=0,0\le a_i \le C,i=1,2,...,N$
$y_i \cdot g(x_i)=\begin{cases} \ge 1 &\{x_i|a_i=0\}\\ =1 &\{x_i|0<a_i<C\}\\ \le 1 & \{x_i|a_i=C\}\\ \end{cases}$
其中
$g(x_i)=\sum\limits_{j=1}^Na_jy_jK(x_j,x_i)+b$
否则转 $(4), k = k + 1$
$(4)$ $\hat{a}=a^{(k+1)}$