个人学习笔记（九）非线性支持向量机与SMO算法

最新推荐文章于 2023-08-06 20:00:05 发布

万carp

最新推荐文章于 2023-08-06 20:00:05 发布

阅读量435

点赞数

分类专栏：个人学习笔记文章标签：机器学习人工智能算法工程师

本文链接：https://blog.csdn.net/u013899126/article/details/89763674

版权

个人学习笔记专栏收录该内容

18 篇文章 5 订阅

订阅专栏

前面两篇文章讨论的都是线性分类问题，但有时分类问题是非线性的，这时可以使用非线性支持向量机。

1、核技巧

核技巧应用到支持向量机，其基本想法就是通过一个非线性变换将输入空间（欧式空间 $R^n$ 或离散集合）对应于一个特征空间（希尔伯特空间 $H$ ），然后在特征空间里用线性分类学习方法学习分类模型。
接着介绍核函数的概念。设 $X$ 是输入空间， $H$ 是特征空间，如果存在一个从 $X$ 到 $H$ 的映射
$\phi(x):X\to H$ 使得对所有的 $x,z\in X$ ，函数 $K (x, z)$ 满足条件
$K(x,z)=\phi(x)\cdot\phi(z)$ 则称 $K (x, z)$ 为核函数，式中 $\phi(x)\cdot\phi(z)$ 为 $\phi(x)$ 和 $\phi(z)$ 的内积。
通常直接定义并计算 $K (x, z)$ 比较容易，而通过 $\phi(x)$ 和 $\phi(z)$ 计算 $K (x, z)$ 比较复杂，因此核技巧的想法是，只定义核函数 $K (x, z)$ 而不显式地定义映射函数 $\phi$ 。
注意到在线性支持向量机的对偶问题中，无论是目标函数还是分离超平面的 $w, b$ 都只涉及输入实例与实例之间的内积，因此将内积 $x_i\cdot x_j$ 用 $K(x_i,x_j)=\phi(x_i)\cdot\phi(x_j)$ 来代替。当映射函数 $\phi$ 是非线性函数时，学习到的支持向量机是非线性分类模型。

2、正定核

核技巧通过直接定义核函数 $K (x, z)$ 的表达式，避免了计算 $\phi(x)$ 与 $\phi(z)$ 再求取它们内积的过程，那么我们如何得知定义的这个 $K (x, z)$ 是否是核函数呢？或者说，函数 $K (x, z)$ 满足什么条件才能成为核函数？
假设 $K (x, z)$ 是定义在 $X\times X$ 上的对称函数，且对任意的 $x_1,x_2,\cdots,x_m\in X$ ， $K (x, z)$ 关于 $x_1,x_2,\cdots,x_m$ 的 $G r a m$ 矩阵是半正定的。可以依据函数 $K (x, z)$ 构成一个希尔伯特空间(Hilbert space)，具体步骤就不细说了，大致是：首先定义映射 $\phi$ 并构成向量空间 $S$ ，然后再 $S$ 上定义内积构成内积空间，最后再将 $S$ 完备化构成希尔伯特空间。
下面阐述 $K (x, z)$ 是正定核的充要条件。设 $K:X\times X\to R$ 是对称函数，则 $K (x, z)$ 是正定核的充要条件是对任意 $x_i\in X$ ， $K (x, z)$ 对应的 $G r a m$ 矩阵 $K=[K(x_i,x_j)]_{m\times m}$ 是半正定矩阵。
首先证明定理的必要性。由于 $K (x, z)$ 是 $X\times X$ 上的正定核，存在从 $X$ 到希尔伯特空间 $H$ 的映射 $\phi$ ，使得
$K(x,z)=\phi(x)\cdot\phi(z)$ 对任意 $x_1,x_2,\cdots,x_m$ ，构造 $K (x, z)$ 的 $G r a m$ 矩阵
$[K_{ij}]_{m\times m}=[K(x_i,x_j)]_{m\times m}$ 对任意 $c_1,c_2,\cdots,c_m\in R$ ，有
$\sum_{i,j=1}^mc_ic_jK_{ij}=\sum_{i,j=1}^mc_ic_j[\phi(x_i)\cdot\phi(x_j)]=\sum_{i=1}^mc_i\phi(x_i)\cdot\sum_{j=1}^mc_j\phi(x_j)$ 由于内积的左右两项相等，可得
$\sum_{i,j=1}^mc_ic_jK_{ij}\ge0$ 即 $K (x, z)$ 关于 $x_1,x_2,\cdots,x_m$ 的 $G r a m$ 矩阵是半正定的。
接着证明定理的充分性。已知对称函数 $K (x, z)$ 对任意 $x_1,x_2,\cdots,x_m$ 的 $G r a m$ 矩阵是半正定的，根据本节开头的定理，可以构造从 $X$ 到某个希尔伯特空间 $H$ 的映射
$\phi:x\to K(\cdot,x)$ 由于核 $K$ 具有再生性，即
$K(\cdot,x)\cdot K(\cdot,z)=K(x,z)$ 因此
$K(x,z)=\phi(x)\cdot\phi(z)$ 这表明 $K (x, z)$ 是 $X\times X$ 上的核函数。
因此在构造核函数时，可以通过判断 $K (x, z)$ 对任意 $x_i\in X$ 的 $G r a m$ 矩阵是否是半正定矩阵，来判断 $K (x, z)$ 是否是核函数。但验证 $G r a m$ 矩阵是否为半正定并不容易，因此在实际问题中往往应用已有的核函数。

3、常用核函数

常用的核函数有多项式核函数(polynomial kernel function)
$K(x,z)=(x\cdot z+1)^p$
高斯核函数(Gaussian kernel function)
$K(x,z)=e^{-\frac{||x-z||^2}{2\sigma^2}}$
字符串核函数(string kernel function)

4、序列最小最优化算法

支持向量机的学习可形式化为求解凸二次规划问题，虽然凸二次规划问题具有全局最优解且许多最优化算法均可求解，但当训练样本容量很大时，这些算法往往变得非常低效，这便引出了序列最小最优化(sequential minimal optimization, SMO)算法。
SMO算法要求解如下凸二次规划的对偶问题
$\min_\alpha \frac{1}{2}\sum_{i=1}^N\sum_{j=1}^N\alpha_i\alpha_jy_iy_jK(x_i,x_j)-\sum_{i=1}^N\alpha_i$ $\sum_{i=1}^N\alpha_iy_i=0$ $0\le\alpha_i\le C, i=1,2,\cdots,N$ SMO算法的基本思路是：由于KKT条件是该最优化问题的充要条件，如果所有变量的解都满足此最优化问题的KKT条件，那么这个最优化问题的解就得到了。否则，选择两个变量，固定其他变量，针对这两个变量构建一个二次规划问题。这时子问题可以通过解析方法求解，速度大大加快。子问题的两个变量，一个是违反KKT条件最严重的一个，另一由约束条件自动确定。
由于 $\sum_{i=1}^N\alpha_iy_i=0$ ，子问题的两个变量中只有一个是自由变量，这也是子问题同时更新两个变量的原因。
假设选择的两个变量是 $\alpha_1,\alpha_2$ ，其他变量 $\alpha_i(i=3,4,\cdots,N)$ 是固定的，将最优化问题的目标函数与约束条件仅取与 $\alpha_1,\alpha_2$ 有关的部分，可变为
$\min_{\alpha_1,\alpha_2} \frac{1}{2}\alpha_1^2K_{11}+\frac{1}{2}\alpha_2^2K_{22}+\alpha_1\alpha_2y_1y_2K_{12}-(\alpha_1+\alpha_2)+\alpha_1y_1\sum_{i=3}^N\alpha_iy_iK_{1i}+\alpha_2y_2\sum_{i=3}^N\alpha_iy_iK_{2i}$ $\alpha_1y_1+\alpha_2y_2=-\sum_{i=3}^N\alpha_iy_i=\varsigma$ $0\le\alpha_i\le C, i=1,2$ 先观察两个约束条件，由于只有两个变量 $\alpha_1,\alpha_2$ ，约束可以用二维空间表示。不等式约束使 $(\alpha_1,\alpha_2)$ 在方形 $[0,C]\times [0,C]$ 内；由于 $y_1,y_2=\pm 1$ ，等式约束使 $(\alpha_1,\alpha_2)$ 在平行于方形对角线的直线上，可能是斜向上的，也可能是斜向下的。
根据约束条件的特点，可以先沿着等式约束的直线求 $\alpha_2$ 的最优解 $\alpha_2^{new,unc}$ ，再用不等式约束剪辑后得到 $\alpha_2^{new}$ 。
为表述方便，引进记号
$v_i=\sum_{j=3}^N\alpha_jy_jK(x_i,x_j), i=1,2$ 目标函数可以写成
$W(\alpha_1,\alpha_2)=\frac{1}{2}\alpha_1^2K_{11}+\frac{1}{2}\alpha_2^2K_{22}+\alpha_1\alpha_2y_1y_2K_{12}-(\alpha_1+\alpha_2)+\alpha_1y_1v_1+\alpha_2y_2v_2$ 由于 $\alpha_1y_1=\varsigma-\alpha_2y_2$ ，即 $\alpha_1=y_1(\varsigma-\alpha_2y_2)$ ，代入上式得
$W(\alpha_2)=\frac{1}{2}(\varsigma-\alpha_2y_2)^2K_{11}+\frac{1}{2}\alpha_2^2K_{22}+(\varsigma-\alpha_2y_2)\alpha_2y_2K_{12}-y1(\varsigma-\alpha_2y_2)-\alpha_2+(\varsigma-\alpha_2y_2)v_1+\alpha_2y_2v_2$ 删去与 $\alpha_2$ 无关的项
$W(\alpha_2)=-\varsigma\alpha_2y_2K_{11}+\frac{1}{2}\alpha_2^2K_{11}+\frac{1}{2}\alpha_2^2K_{22}+\varsigma\alpha_2y_2K_{12}-\alpha_2^2K_{12}+y_1\alpha_2y_2-\alpha_2-\alpha_2y_2v_1+\alpha_2y_2v_2$ 合并各项可得
$W(\alpha_2)=\frac{1}{2}\alpha_2^2(K_{11}+K_{22}-2K_{12})+\alpha_2(-\varsigma y_2K_{11}+\varsigma y_2K_{12}+y_1y_2-1-y_2v_1+y_2v_2)$ 接着对 $\alpha_2$ 求导，令其为0
$\frac{\partial W}{\partial\alpha_2}=\alpha_2(K_{11}+K_{22}-2K_{12})-\varsigma y_2K_{11}+\varsigma y_2K_{12}+y_1y_2-1-y_2v_1+y_2v_2=0$ 由于1可以写作 $y_2^2$ ，上式可变为
$\alpha_2(K_{11}+K_{22}-2K_{12})=y_2(y_2-y_1+\varsigma K_{11}-\varsigma K_{12}+v_1-v_2)$ 由于
$v_1=\sum_{j=3}^N\alpha_jy_jK_{1j}=\sum_{j=1}^{N}\alpha_jy_jK_{1j}-\sum_{j=1}^2\alpha_jy_jK_{1j}$ $v_2=\sum_{j=3}^N\alpha_jy_jK_{2j}=\sum_{j=1}^N\alpha_jy_jK_{2j}-\sum_{j=1}^2\alpha_jy_jK_{2j}$ 再引进一个记号
$E_i=\sum_{j=1}^N\alpha_jy_jK_{ij}+b-y_i, i=1,2$ 则 $v_1,v_2$ 可表示为
$v_1=E_1-b+y_1-\sum_{j=1}^2\alpha_jy_jK_{1j}$ $v_2=E_2-b+y_2-\sum_{j=1}^2\alpha_jy_jK_{2j}$ 代入求导所得等式中
$\alpha_2(K_{11}+K_{22}-2K_{12})=y_2(\varsigma K_{11}-\varsigma K_{12}+E_1-E_2-\sum_{j=1}^2\alpha_jy_jK_{1j}+\sum_{j=1}^2\alpha_jy_jK_{2j})$ 将 $\varsigma=\alpha_1^{old}y_1+\alpha_2^{old}y_2$ 代入式中，得
$\alpha_2^{new,unc}(K_{11}+K_{22}-2K_{12})=(K_{11}+K_{22}-2K_{12})\alpha_2^{old}+y_2(E_1-E_2)$ 即
$\alpha_2^{new,unc}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{K_{11}+K_{22}-2K_{12}}$ 这便是未经剪辑的解，经剪辑后 $\alpha_2$ 的解是
$\alpha_2^{new}=\left\{\begin{array}{rcl}H,&\alpha_2^{new,unc}>H\\\alpha_2^{new,unc},&L\le\alpha_2^{new,unc}\le H\\L,&\alpha_2^{new,unc}<L\end{array}\right.$ 式中， $L$ 与 $H$ 是 $\alpha_2^{new}$ 的上下界，即
$L\le\alpha_2^{new}\le H$ 由于 $(\alpha_1,\alpha_2)$ 在一条平行于方块对角线的直线上，所以这里 $\alpha_2$ 不是简单的满足 $0\le\alpha_2\le C$ 就可以了。如果 $y_1\not=y_2$ ，那么等式约束这条直线是斜向上的，则
$L=\max(0,\alpha_2^{old}-\alpha_1^{old}), H=\min(C,C+\alpha_2^{old}-\alpha_1^{old})$ 如果 $y_1=y_2$ ，那么等式约束这条直线是斜向下的，则
$L=\max(0,\alpha_2^{old}+\alpha_1^{old}-C), H=\min(C,\alpha_2^{old}+\alpha_1^{old})$ 最后由 $\alpha_2^{new}$ 求得 $\alpha_1^{new}$
$\alpha_1^{new}=\alpha_1^{old}+y_1y_2(\alpha_2^{old}-\alpha_2^{new})$ 接下来讨论SMO算法的两个变量具体怎么选择。
首先是第一个变量的选择。在上一篇文章里讲述了线性支持向量机的KKT条件，例如其中的KKT对偶互补条件
$\alpha_i^*[y_i(w^*\cdot x_i+b^*)-1+\xi_i^*]=0$ 其中
$w^*=\sum_{i=1}^N\alpha_i^*y_ix_i$ 将上面的KKT对偶互补条件改造成核函数形式
$\alpha_i^*[y_i(\sum_{j=1}^N\alpha_j^*y_jK(x_j,x_i)+b^*)-1+\xi_i^*]=0$ 令 $g(x_i)=\sum_{j=1}^N\alpha_jy_jK(x_i,x_j)+b$ 则KKT对偶互补条件为
$\alpha_i[y_ig(x_i)-1+\xi_i]=0$ 若 $\alpha_1=0$ ，考虑到下面的另外两个KKT条件
$y_ig(x_i)-1+\xi_i\ge0$ $\xi_i\ge0$ 可以得到
$y_ig(x_i)\ge1-\xi_i\ge1$ 若 $0<\alpha_1<C$ ，根据KKT的对偶互补条件有
$y_ig(x_i)-1+\xi_i=0$ 而结合下面这个KKT条件
$\bigtriangledown_{\xi_i}L(w,b,\xi_i,\alpha_i,\mu_i)=C-\alpha_i-\mu_i=0$ 又有
$\mu_i=C-\alpha_i>0$ 于是，根据另一个KKT条件
$\mu_i\xi_i=0$ 可以推出
$\xi_i=0$ 这样，就得到了
$y_ig(x_i)=1-\xi_i=1$ 若 $\alpha_i=C$ ，同样根据KKT的对偶互补条件有 $y_ig(x_i)-1+\xi_i=0$ 根据上面提到的另一个KKT条件，有
$\mu_i=C-\alpha_i=0$ 这样， $\xi_i$ 不一定要为0了，其约束为
$\xi_i\ge0$ 因此可以得到
$y_ig(x_i)=1-\xi_i\le1$ 总结一下，便是选第一个变量的时候，要考察各样本点是否满足如下KKT条件，找出违反KKT条件最严重的样本点 $\alpha_i=0\Leftrightarrow y_ig(x_i)\ge1$ $0<\alpha_i<C\Leftrightarrow y_ig(x_i)=1$ $\alpha_i=C\Leftrightarrow y_ig(x_i)\le1$ SMO称选择第一个变量的过程为外层循环，外层循环首先遍历所有满足条件 $0<\alpha_i<C$ 的样本点，即在间隔边界上的支持向量点。如果它们都满足KKT条件，那么遍历整个训练集，找出不满足KKT条件的样本点。
SMO称选择第二个变量的过程为内层循环，假设已找到了第一个变量 $\alpha_1$ ，第二个变量选择的标准是希望能使 $\alpha_2$ 有足够大的变化。上面有公式
$\alpha_2^{new,unc}=\alpha_2^{old}+\frac{y_2(E_1-E_2)}{K_{11}+K_{22}-2K_{12}}$ 可以看到， $\alpha_2^{new}$ 的变化程度是依赖于 $E_1-E_2|$ 的。所以一种简单的做法是选择 $\alpha_2$ 使其对应的 $E_1-E_2|$ 最大。具体的，如果 $E_1>0$ ，就选最小的 $E_i$ 作为 $E_2$ ；如果 $E_1<0$ ，就选最大的 $E_i$ 作为 $E_2$ 。为了节省时间，所有的 $E_i$ 都会保存在一个列表里。
特殊情况下，如果上面方法选出的 $\alpha_2$ 不能使目标函数有足够的下降，就依次遍历间隔边界上的支持向量点将其作为 $\alpha_2$ ，直到目标函数有足够的下降。如果仍然找不到 $\alpha_2$ ，则放弃当前已选出的 $\alpha_1$ ，通过外层循环找另外的 $\alpha_1$ 。
最后介绍每次完成两个变量的优化后，更新 $b$ 与 $E_i$ 的方法。
当 $0<\alpha_1^{new}<C$ 时，根据KKT的对偶互补条件，有
$\sum_{i=1}^N\alpha_iy_iK_{i1}+b=y_1$ 于是
$b_1^{new}=y_1-\sum_{i=3}^N\alpha_iy_iK_{i1}-\alpha_1^{new}y_1K_{11}-\alpha_2^{new}y_2K_{21}$ 同理可得 $b_2^{new}$ 的表达式。如果 $\alpha_1^{new},\alpha_2^{new}$ 同时满足 $0<\alpha_i^{new}<C$ ，那么 $b_1^{new}=b_2^{new}$ ；如果 $\alpha_1^{new},\alpha_2^{new}$ 是0或者 $C$ ，那么取 $b_1^{new}$ 和 $b_2^{new}$ 的中点作为 $b^{new}$ 。
接着看 $E_i$ 的更新方法，根据 $E_i$ 与 $g(x_i)$ 的定义，有
$E_1=g(x_1)-y_1=\sum_{j=1}^N\alpha_jy_jK_{j1}+b-y_i$ 即 $E_i$ 的更新规则如下
$E_i^{new}=\sum_Sy_j\alpha_jK(x_i,x_j)+b^{new}-y_i$ 式中 $S$ 是所有支持向量 $x_j$ 的集合。

万carp

关注

0
点赞
踩
0

收藏

觉得还不错? 一键收藏
0
评论
个人学习笔记（九）非线性支持向量机与SMO算法

       前面两篇文章讨论的都是线性分类问题，但有时分类问题是非线性的，这时可以使用非线性支持向量机。1、核技巧       核技巧应用到支持向量机，其基本想法就是通过一个非线性变换将输入空间（欧式空间RnR^nRn或离散集合）对应于一个特征空间（希尔伯特空间HHH），然后在特征空间里用线性分类学习方法学习分类...
复制链接

扫一扫

专栏目录